
论文关键词: : 科学大数据; 数据开放; 数据共享; 模式; 共享机制
论文来源 :《情报理论与实践》
研究意义与背景:科学数据是进行科研活动的重要成果,对科技创新、济和社会发展具有重要意义。随着云计算、物联网、大科学装置等的蓬勃发展,科学数据正以前所未有的速度增长,人类已经步入大数据时代。已经成为科研活动的核心,以及科技创新发展的核心驱动要素。作为数字化革命的引擎,“大数据” 为众多科学研究带来新的机遇。科学范式开始从模型驱动向数据驱动转变。
归纳科学大数据开放共享的典型模式、相关利益者、关键影响要素和关键机制,推动科学数据在国际间的开放共享。
科学装置的单元数据共享模式
模式产生原因:研究目标宏大、问题复杂、成本高
类别:大科学装置、跨机构合作的大规模研究项目
共享路径:根据有关研究任务的数据采集计划产生原始数据,原始数据和处理后数据存储到服务于该大科学装置的数据中心或服务系统中,并优先在参与相应研究任务的合作者范围内共享,一定时间
后将部分或全部数据 (时间周期及数据范围视该大科学装置所确定的数据开放政策或条例而定) 通过数据中心或服务系统集中发布、开放给公众。
广域合作驱动的分布式注册模式
方式:通过构建物理上分布、逻辑上统一的一站式数据共享服务平台在联盟间或全球范围内进行科研数据的开放、共享和交换
案例:GEOSS、GBIF
共享路径:各成员首先按照统一的标准和规范将松散分布的数据、元数据、产品和服务进行集中注册,由统一的数据门户负责连接各注册数据资源,为用户提供一站式数据检索和定位服务,最终由分布式的数据服务系统提供数据获取服务。国际合作组织制定数据开放原则要求各成员在不违背政策法规基础上,尽可能保障全面、开放、及时、免费 (低成本)、非歧视和不受限制地获取元数据、数据、产品和服务。同时,要求数据提供者确保数据经过权威认证,并保证数据服务的稳定性和可靠性。国际合作组织通过定期召开全体会议、制定计划、签署协定、组织活动等方式推动国际合作大科学研究的持续发展。
基于数据存储库的集中存缴模式
在学科开放共享文化、开放共享原则及各类期刊数据归档政策的驱动下,科研人员、论文作者、科研机构通过数据存储库进行数据的集中存缴,并利用数据存储库提供的在线发布功能进行科学数据资源的发布、共享和重用。
科学数据出版
数据出版主要分为广义的数据发布、期刊附属物类型的数据出版以及数据集与数据描述共同出版三大类,狭义的数据出版主要指最后一种。
数据集市
按照数据提供者组织形式可以将数据集市分为两种典型模式: 在以数据堂 (>
使用新建数据库项目向导基于现有数据库创建项目
在“文件”菜单上指向“新建”,再单击“项目”。
将出现“新建项目”对话框。
在“项目类型”中,展开“数据库项目”节点,然后单击“MicrosoftSQLServer”。
“模板”列表显示了可用的数据库项目模板。
如果您希望创建MicrosoftSQLServer2005数据库,请单击“SQLServer2005向导”。如果您希望创建SQLServer2000数据库,请单击“SQLServer2000向导”。
在“名称”中键入要赋予数据库项目的名称。
此名称可以与您要管理的数据库的名称相同,您也可以赋予项目与数据库不同的名称。
在“位置”中,键入或单击创建数据库项目的位置的路径。
如果您希望为数据库项目创建一个解决方案,请在“解决方案”中,单击“创建新解决方案”。如果您希望将数据库项目添加到现有的解决方案中,请单击“添入解决方案”。
如果您希望创建一个包含解决方案的目录,请选中“创建解决方案的目录”复选框。
在“解决方案名称”中键入要赋予解决方案的名称。
默认情况下,该名称与项目名称相同。
如果您希望立即将新的解决方案和项目添加到版本控制中,请确保选中了“添加到源代码管理”复选框。如果您希望以后再将解决方案和项目添加到版本控制中,或者不打算对该解决方案使用版本控制,请清除此复选框。
单击“确定”。
将出现新建项目数据库向导。接下来使用该向导配置项目并选择要从中导入数据库架构的数据库。
一、关系数据库系统的优点
a.灵活性和建库的简单性:从软件开发的前景来看,用户与关系数据库编程之间的接口是灵活与友好的。目前在多数RDDMS产品中使用标准查询语言SQL,允许用户几乎毫无差别地从一个产品到另一个产品存取信息。与关系数据库接口的应用软件具有相似的程序访问机制,提供大量标准的数据存取方法。
b.结构简单:从数据建模的前景看,关系数据库具有相当简单的结构(元组),可为用户或程序提供多个复杂的视图。数据库设计和规范化过程也简单易行和易于理解。由于关系数据库的强有力的、多方面的功能,已经有效地支持许多数据库纳应用。
二、关系数据库系统的缺点
a.数据类型表达能力差:从下一代应用软件的发展角度来看,关系数据库的根本缺陷在于缺乏直接构造与这些应用有关的信息的类型表达能力,缺乏这种能力将产生以下有害的影响,例如:大多数RDBMS产品所采用的简单类型在重构复杂数据的过程中将会出现性能问题;数据库设计过程中的额外复杂性;RDBMS产品和编程语言在数据类型方面的不协调。
大多数现代的RDBMS产品已成熟地用于商务和财政方面,而这些领域不要求很高和很复杂的数据模型。虽然这些产品多多少少克服了一些以上所述的缺点,但从理论上看关系数据模型不直接支持复杂的数据类型,这是由于第一范式的要求,所有的数据必须转换为简单的类型,如整数、实数、双精度数和字符串。
对于工程应用来说,这种不能支持复杂数据类型的典型结果就是需要额外地分解数据结构工作,这些被分解的结构不能直接表示应用数据,且从基本成分重构时也非常繁琐和费时间。
b.复杂查询功能差:关系数据库系统的某些优点也同时是它的不足之处。虽然SQL语言为数据查询提供了很好的定义方法,但当用于复杂信息的查询时可能是非常繁琐的。此外,在工程应用时规范化的过程通常会产生大量的简单表。在这种环境下由存取信息产生的查询必须处理大量的表和复杂的码联系以及连接运算。
除非这些查询以固定的例行程序方式提供,否则用户就必须对SQL非常熟悉,以便适当地浏览数据库,查出所需的信息。然而,一旦查询方式按固定例行程序方式进行,用户最终就进行应用软件的常规维护。但应用或人机接口软件的变化又可能要求经常修改例行的查询,数据库结构的变化也可能导致例行查询程序以及应用或人机接口软件的失效。由于这些原因,关系数据库系统的维护开销可能是很大的。
由于关系数据库不能提供足够的构造能力及性能方面的原因,在进行较复杂的数据库设计过程中,不可能将许多工程问题直接分解成一些简单的部分。由于缺乏直接指针存取方法,所以查询有关的信息需要花费时间。
c.支持长事务能力差;由于RDBMS记录锁机制的颗粒度限制,对于支持多种记录类型的大段数据的登记和检查来说,简单的记录级的锁机制是不够的,但基于键值关系的较复杂的锁机制来说却很难推广也难以实现。
d.环境应变能力差:在要求系统频繁改变的环境下,关系系统的成本高且修改困难。在工程应用中支持"模式演变"(schemaevolution)的功能是很重要的,而RDBMS不容易支持这种功能。另外,关系数据库和编程语言所提供的数据类型的不一致,使得从一个环境转换到另一个环境时需要多至30%的附加代码。
三、面向对象数据库系统的优点
a.能有效地表达客观世界和有效地查询信息:面向对象方法综合了在关系数据库中发展的全部工程原理、系统分析、软件工程和专家系统领域的内容。面向对象的方法符合一般人的思维规律、即将现实世界分解成明确的对象,这些对象具有属性和行为。系统设计人员用ODBMS创建的计算机模型能更直接反映客观世界,最终用户不管是否是计算机专业人员,都可以通过这些模型理解和评述数据库系统。
工程中的一些问题对关系数据库来说显得太复杂,不采取面向对象的方法很难实现。从构造复杂数据的前景看,信息不再需要手工地分解为细小的单元。ODBMS扩展了面向对象的编程环境,该环境可以支持高度复杂数据结构的直接建模。
b.可维护性好:在耦合性和内聚性方面,面向对象数据库的性能尤为突出。这使得数据库设计者可在尽可能少影响现存代码和数据的条件下修改数据库结构,在发现有不能适合原始模型的特殊情况下,能增加一些特殊的类来处理这些情况而不影响现存的数据。如果数据库的基本模式或设计发生变化,为与模式变化保持一致,数据库可以建立原对象的修改版本。这种先进的耦合性和内聚性也简化了在异种硬件平台的网络上的分布式数据库的运行。
c.能很好地解决"阻抗不匹配"(impedancemismatch)问题。面向对象数据库还解决了一个关系数据库运行中的典型问题:应用程序语言与数据库管理系统对数据类型支持的不一致问题,这一问题通常称之为阻抗不匹配问题。
四、面向对象数据库系统的缺点
a.技术还不成熟。面向对象数据库技术的根本缺点是这项技术还不成熟,还不广为人知。与许多新技术一样,风险就在于应用。从事面向对象数据库产品和编程环境的销售活动的公司还不令人信服,因为这些公司的历史还相当短暂,就该十几年前关系数据库的情况一样。ODBMS如今还存在着标准化问题,由于缺乏标准化,许多不同的ODBMS之间不能通用。此外,是否修改SQL以适应面向对象的程序,还是用新的对象查询语言来代替它,目前还没有解决,这些因素表明随着标准化的出现,ODBMS还会变化。
b.面向对象技术需要一定的训练时间:有面向对象系统开发经验的公司的专业人员认为,要成功地开发这种系统的关键是正规的训练,训练之所以重要是由于面向对象数据库的开发是从关系数据库和功能分解方法转化而来的,人们还需要学习一套新的开发方法使之与现有技术相结合。此外,面向对象系统开发的有关原理才刚开始具有雏形,还需一段时间在可靠性、成本等方面令人可接受。
c.理论还需完善:从正规的计算机科学方面看,还需要设计出坚实的演算或理论方法来支持ODBMS的产品。此外,既不存在一套数据库设计方法学,也没有关于面向对象分析的一套清晰的概念模型,怎样设计独立于物理存储的信息还不明确。
面向对象数据库和关系数据库系统之间的争论不同于70年代关系数据库和网状数据库的争论,那时的争论是在同一主要领域(即商业事务应用)中究竟是谁代替谁的问题。现在是肯定关系数据库系统基本适合商业事务处理的前提下,对非传统的应用,特别是工程中的应用用面向对象数据库来补充不足的问题。面向对象数据库系统将成为下一代数据库的典型代表,并和关系数据库系统并存(而不是替代)。它将在不同的应用领域支持不同的应用需求。
以上就是关于学术分享 | 科学大数据开放共享: 模式与机制全部的内容,包括:学术分享 | 科学大数据开放共享: 模式与机制、如何理解数据库与文件系统相结合的方式和完全的数据库组织方式、怎么使用新建数据库项目向导基于现有数据库创建项目(如何搭建自己的数据库)等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)