
余虹剑
(中国地质调查局南京地质调查中心)
摘要 数字化各种档案的目的是要向社会提供信息服务,这种服务需要一个由档案网络体系、网站、数据库、信息服务系统、档案资源等组成的良好的服务平台做支撑。档案数据库建设就是为数字化了的档案提供服务的资源平台。
关键词 著录 数据库 规范 管理
1 标准化、规范化数据著录
档案数据库属于文献数据库,是档案自动化的重要内容。档案数据库是以系统的方法编排的,并可通过电子方式单独访问的档案数据的集合。[1]档案数据库建设的成功与否,在很大程度上取决于数据库的质量。库中的数据条目必须标准、规范,达到有序、有效,库管理本身是科学合理的,这样的数据库 *** 作性一般较强、使用面也较广。科学实用的档案数据库在建库时,一般都会按照相应的技术标准、管理标准和工作标准,最终形成一个自身的标准,形成规范的档案数字化利用平台。作为一个数字档案馆,应先建立馆藏档案的目录数据库,也是著录数据库,包括全宗级、案卷级、文件级目录,并应注意它们之间的关系。另外,根据本单位的馆藏特色开展档案全文数据库建设。档案全文数据库涵盖面较广,一般含有文本型、图形图像型和多媒体型。目录数据库与全文数据库要实现结构化,促发式。档案目录数据库是档案数据库的基本,它能提供便捷的查询路径,阅览者可根据需要,通过一次输入就能提取阅览者希望查询的结果。提供类似查询前必须建立基础信息数据,这些数据包括档案题名、责任者、来源、页码、分类号、主题词、摘要等,少数包含档案全文。[2]这项工作对著录的内容特征如关键词、题名、项目负责人等著录不详细、标准不统一、索引的档案内容深度广度不够,在检索时就会有误差,出现检索不准确、不全面的现象,在一定程度上会影响档案利用率。可以说,著录标引是否标准规范是影响数据库管理的关键因素之一,这项工作大体上决定着数据结构的合理性,这项工作能完成好是检索系统查全、查准的前提。除档案目录数据库外,档案全文数据库、多媒体档案数据库、Web数据库的建设也必须遵守档案著录、标引等标准的原则要求。
2 建立数据库
现阶段根据有关部门的工作需要和计划,按照内容不同,我们建立的数据库分为成果数据库和科技档案数据库,分别针对地质大调查形成的资料和单位各项目形成的资料、收集来的各项各类资料录入数据条目。该数据库更新到目前已收集的所有合格项目的资料和数据,针对这个数据库还建立了目录级数据库共分两级:第一级是项目大类共552条。第二级是各个项目详细内容条目,截至拟稿更新到第一级第240条记录的具体内容共5836条记录。还有一大半有待继续更新录入。
3 保障数据安全是档案信息数据库的根本
档案数据生成即必须长期甚至永久保存。该怎么保证经过数字化后的档案的原始性,防范这些数字内容不被篡改等,都是建设档案数据库时在安全方面应解决的问题。数据库的参数设定、数据存储方式和位置、数据传输途径、使用等各个环节和整个过程都涉及档案数据库的安全。为防止数据丢失、损毁,避免保密信息流失等事故,又要保障海量信息数据的安全、完整,使日积月累产生和收集来的档案数据能在日后长期得到利用,必须把更新档案数据库安全体系、合乎实际工作需求的管理制度作为数据库建设的关键环节。制定既利于工作又能监管数据出入的防范措施,加强数据运行中的监控和管理,使数据库从建设到利用各环节都万无一失。档案数据库建设时,经常使用技术手段实现权限控制,日常的数据备份必不可少。广义上,权限控制应设置读写控制、数据加密等方面,从实际工作需求出发,一般根据用户类别、部门允许访问范围内(包括阅览、下载等)的目录和档案数据对访问和使用设置可访问层度、控制和监督。防写控制是使信息保真的手段,使得用户只能读取信息,而不能修改、复制,以防止信息被篡改。加密技术可以确保控制档案内容的非公开性。为保证权限控制的有效性,要在系统中配置使用记录系统,全程跟踪、自动记录使用情况,进行定期检测与维护,还要随着高新技术的发展,引进新的安防技术。
4 档案信息化建设需要切实加强集中统一的管理体制
档案信息化建设的管理体制是从管理制度上保证业务技术的规范、标准和硬软件选用的统一性,使各层次、各专业办公都纳入统一的档案信息自动化系统管理当中,实现集中统一的管理。使其不能各行其是自建系统,从而减少信息分割和资源浪费现象的发生。档案信息化系统的管理体制,要在较强的管理和先进的技术条件下,实行高度集中管理和方便使用相结合的模式。
5 结束语
本文阐述的只限于在档案资料数据库建设中遇到的极有限的实际工作问题。档案数据库建设是一项长期、持久的工作,作为档案管理部门在进行数据库建设时,要有规划地形成数据库产品,一般需要做用户需求分析、本馆状况分析、效益分析等。科学选题,合理规划,循序渐进,杜绝短期行为的发生,形成良性循环,档案数据库建设才能有持久发展的动力。
参考文献
[1]孙淑梅档案管理与计算机[M]北京:档案出版社,1987
[2]洪漪编档案信息组织与检索[M]武汉:武汉大学出版社,1998
作者 石默研
新型“数联网”基础设施
2020年4月,《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》(下称《2020数据要素意见》)发布以来,数据要素的市场价值日益受到重视。同时,长期的实践证明,数据要素的威力,大多数情况下源于对多源数据的融合分析,单一组织靠自身积累往往难以聚集足够价值的数据,因此,只有通过数据跨域流通与共享开放才能真正发挥大数据的应用价值。如银行、保险、政府、电商等等行行业业,已经有了强烈、广泛的数据跨域集成与融合的市场需求。另一方面,随着数字化的深入发展,信息技术已经开始从助力经济发展的辅助工具向引领经济发展的核心引擎转变,大数据资源应该向资产升级,对“数字经济”新范式产生更加直接的驱动作用。而大数据资源向资产升级的关键则是高效、安全的互联互通、精确的计量计价及数据所有权、使用权的市场化清晰界定。
于是,“数据要素互联互通网络”数联网成为国家乃至国际一项重要的新型互联网基础设施与创新业态诉求,有着重大的 社会 价值与广阔的市场空间。
2 云原生数据库服务
云原生数据库,是支撑现代数据服务的主体设施,它生于云上,长于云上,对外形成按需获取的DBCloud形态,使用者无需关心数据计算与存储的具体细节,无需为部署、运维、扩缩等工作付出精力,无需对数据计算的模态(AP,TP,流,图等)做出额外的规划与设计,无需区分所选择云计算基础设施IaaS的特性与区别,只需要向云原生数据库DBCloud的运营者申请使用相应的服务即可,这是现代数据库技术与服务发展的必然方向。毫无疑问,在不久的将来,全球越来越多的数据服务将在云上,包括多云、跨云的环境中以平台化的方式实现。由于云计算环境所带来的强大算力与各项能力,数据服务平台化必将极大地推动与加速各行业业务数字化转型升级的进程,而云原生数据库也必将成为新数字化时代一项关键的公共IT基础设施。
3 从数据库平台服务到新一代互联网基础设施“数联网”
关于数据流通互联基础设施“数联网”,相当长一段时间以来,国内外已经有很多建设与运营的尝试,在我国主要就是各级政府主导的“大数据交易中心”,从2014年起就开始启动,经历了2014-2016年“第一次浪潮”后,于2017-2019年处于“停滞期”,运营实践看,整体成交量远低于预期。原因主要在于数据所有权与使用权属难以界定,隐私、安全与共享之间的矛盾越来越明显。一方面跨域数据共创需求越来越迫切,另一方面,数据的无序流通,又可能导致隐私保护与数据安全的重大风险,必须加以规范与限制。无论是国际还是国内,日趋严格的“数据安全法”“信息保护法案”不断出台,在客观上增加了数据流通的成本,降低了数据综合利用的效率;而大数据价值的精确计量计价也难以实现,不能有效体现数据的资产属性。如何兼顾发展与安全,平衡效率与风险,准确衡量价值,是全世界在大数据治理中一直面临的共同课题,也导致规范高效的数据流通市场始终未能形成。
而中央的《2020数据要素意见》,首次明确了培育数据要素市场的目标和定位,随之有关数据安全、信息保护的法案以及技术系列标准等相继发布,为促进数据流通规范化运作提供了政策制度基础;同时,“数据可用不可见、用途可控可计量”的隐私安全计算技术与创新模式也蓬勃发展并成熟起来,为解决隐私安全问题及数据资产化提供了坚实的技术基础。因此,自2020年至今,以新兴技术驱动“数据使用价值流通”新模式的数据要素流通市场迎来“第二次浪潮”,新一轮建设再次启动,全国一年来共有6家新型数据资产交易中心开始筹备建设,其中北数所等2家新型示范已正式投入运营。隐私安全计算技术采用数据不动、算法流动的策略,在数据不出域的情况下,安全地达到数据跨域联合计算的目的。虽然目前该组技术的成熟度与标准化程度还有待提高,在相当范围内也有炒作的成份,但在强烈需求与趋势的驱动下,发展很快,前景极为可期。
应该可以看到:采用“数据使用权”而不是“所有权”交易实现跨域流通,对数据访问按量计价的新模式同时也给云原生数据库服务带来新的商业发展契机,原因很简单:数据库本身就是以提供数据使用服务为天职的!
仔细调研与分析还会发现,当前政府主导的新型数据资产交易所对“数据使用权”流通模式的尝试,基本还在“雷声大,雨点小”的阶段,至今实效依然甚微!这除了可能还需要一定的市场培育周期以外,本文认为一个最重要的原因是:凭空而生的数据交易所,并没有直接沉淀客户数据的条件,运营只能靠“借鸡生蛋”,而正在发生的事实也正是如此:大都以授权政府数据公开运营为起点,然后大力“邀请”各种数据资源拥有者上平台,培育数据流通生态圈。然而,多数情况下,一是静态政务数据的实用价值很有限(例如对金融风控),二是真正有价值的产业活数据与公民行为数据拥有者(在其自有数据库中)上交易平台的程序非常繁杂,意愿较低。同时,现阶段在技术体系上,新型交易所主要依赖隐私计算,对数据库总体采用松散繁杂的集成方案对接,就是说,目前还没有系统重视数据库的技术定位。
本文认为,首先,从技术上讲,云原生数据库融入隐私安全计算甚至更广泛的跨域安全计算手段,并没有太大的瓶颈,还可以方便地承担可信安全中介的角色,却会赋予数据资源拥有者最便利的“数据使用权”共享能力。更重要的是,当云计算环境下的数据服务平台化成为全球化趋势后,全 社会 范围内大多数的数据库服务都将由云原生数据库平台运营者所承担,它就自然建立了最广泛丰富的“数据流通生态圈”,天然拥有提供“数据跨域流通互联”服务的各种有利条件。而云原生数据流通显然是目前数据要素市场化领域需求与商业前景最为强烈的可运营业务之一,如果云原生数据库服务运营者借其固有优势,同时运营数据要素流通业务,必将在技术效能与商业模式上超越现存的各种模式,对政府主导、靠“借鸡生蛋”现有市场带来巨大的挑战,甚至是终结。
进一步讲,这种能力的提供,不仅可以最大限度地挖掘与发挥数据要素的价值与红利,还可以极大地加速各行业、各组织对云原生数据库平台服务的消费需求,两种因素又会相互促进,从而使云原生数据库服务成为将来数据要素市场化的新标准,自然进化为新一代互联网基础设施“数联网”本身。
参考:题主对openGauss数据库应该是入门级(当然可能具体其他数据库通用的DBA经验),建议可以从以下几点入手(包含但不限于):
1熟练系统部署:下载openGauss相关软件包,演练部署过程(包括:实例、用户、角色创建已经权限分配等);
2熟记openGauss相关的 *** 作命令及参数:如:数据库启停、数据库状态检查、 *** 作系统状态检查、数据库性能、日志检查与清理、时间的一致性、应用的连接数等
3熟练备份与恢复以及数据迁移相关 *** 作:如:逻辑备份与恢复、物理备份与恢复、数据文件与数据表之间的导入导出(copy)等
4数据库系统故障检查技能:如获取并能准确解读数据库运行日志等。
学习资料直接上官网下载即可~
补充阅读:对于DBA的日常工作,阶段不同,侧重不同。
层次一,以数据库维护为主,常见表现是“救火队员”型。很多初创企业,都经历过这一过程。数据库维护基本靠人,随着运维体量的增加,需要线性增加人员。整体数据应用水平,基本处于简单、粗放型。
层次二,以数据库维护为主,但已形成较为完善的运维体系。除了基础运维之外,甚至可以考虑一些预防性的措施,提高整体的运维效益。这一阶段的体系化建设,往往是通过文档、运维平台等沉淀下来。数据库作为基础设施层,需要提供较好的数据存储、计算能力输出。但此阶段尚未从更高角度去考虑数据问题,仍仅限于运维层面。
层次三,数据设计应用阶段,企业已不满足数据简单的“存/取”需求,而是从更高的应用角度,考虑如何提高整体数据应用水平。这个阶段会增加数据库架构、设计,加强业务端数据优化工作。表现为增加产品DBA的角色,加大数据库架构权重等。
层次四,数据架构治理阶段,企业不单从某个应用、某条业务线去考虑数据问题,而是公司整体层面做数据的顶层设计。考虑建立专门的机构(如数据委员会)或岗位-首席数据官(CDO)。近些年来,颇为火热的“数据中台”,正是为迎合这一需求而产生的。
以上就是关于关于档案数据库建设问题的探讨全部的内容,包括:关于档案数据库建设问题的探讨、从云原生数据库服务到新型“数联网”基础设施、最近发现,国产数据库比较火,想做DBA相关工作,对于openGauss数据库需要掌握或学习哪技能等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)