
大企业多用oracle数据库,还有一些有能力的IT行业的企业实在mysql数据库的基础上再根据自己的需要改进的,当然,也有很多网站用的是SQL SERVER,这也就是目前市面上最主流的三款数据库了,oracle数据库和mysql数据库都是oracle(甲骨文)公司的,其中mysql是免费的开源的,所以会有部分有能力的IT企业会拿过来改装
摘 要: 针对目前主流数据库的安全防护功能配置方式不灵活、不能应变需求的问题,在HOOK技术的基础上融入组态思想,设计并实现了一种适用于不同数据库的自主安全防护系统(DSS)。在SQLITE上的相关实验表明,利用DSS完全可以实现独立于特定数据库的自主安全防护,大大提高了数据安全防护的灵活性。
关键词: 数据库安全; HOOK API; 访问控制; 数据库审计; SQLITE; 自主安全系统
近年来,有关数据库的安全事故不断出现,例如银行内部数据信息泄露造成的账户资金失密等。因此,高度重视数据库安全防护很有必要。但一直以来,国内数据库产业化发展缓慢,市场份额中较大一部分被国外大型数据库企业占有。这对于国内用户而言,信息的安全性、稳定性等方面都会受到威胁。有的系统涉及使用多个数据库,并且对每个数据库的安防功能要求各不相同。这样,在保障整个系统安全的目标下就需要对每个数据库进行专门配置管理,不但维护难度很大,而且工作也比较繁重。面对这些实际问题,目前的数据库系统自带的安全防护配置方式已不能胜任,如何提出一个灵活独立的安全防护系统迫在眉睫。
1 相关安全防护技术介绍
目前,数据库系统面临的主要威胁有:(1)对数据库的不正确访问引起数据库数据的错误。(2)为了某种目的,故意破坏数据库。(3)非法访问不该访问的信息,且又不留痕迹;未经授权非法修改数据。(4)使用各种技术攻击数据库等。多年来,人们在理论和实践上对数据库系统安全的研究做出了巨大的努力,也取得了很多成果。参考文献[1-2]介绍了保护数据库安全的常用技术,包括:存取管理技术、安全管理技术、以及数据库加密技术,并给出了一些实现途径。其中,访问控制和安全审计作为数据库安全的主要保障措施受到了人们广泛关注,参考文献[3]对访问控制技术中的基本策略进行了总结,给出了实现技术及各自的优缺点。参考文献[4]主要针对权限建模过程中的权限粒度问题做了分析,并提出一个基于角色的访问控制框架。进入21世纪以后,访问控制模型的研究重点开始逐渐由集中式封闭环境转向开放式网络环境,一方面结合不同的应用,对原有传统模型做改进,另一方面,也提出一些新的访问控制技术和模型,比较著名的有信任管理、数字版权管理和使用控制模型 [5]。审计通过对数据库内活动的记录和分析来发现异常并产生报警的方式来加强数据库的安全性[6]。目前,在我国使用的商品化关系数据库管理系统大都提供了C2级的审计保护功能,但实现方式和功能侧重有所不同。周洪昊等人[7]分析了Oracle、SQL Server、DB2、Sybase的审计功能,分别从审计系统的独立性、自我保护能力、全面性和查阅能力四个方面对审计功能做出改进[7]。参考文献[8]则针对审计信息冗余、审计配置方式死板以及数据统计分析能力不足等问题,在数据库系统已有的审计模块基础上,重新设计和实现了一种新型的数据库安全审计系统。
但所有的这些工作都是从 数据库 系统的角度出发,并没有从本质上解决安全防护对数据库系统的依赖性问题,用户还是很难对数据库提供自主的安全防护功能。如果能将安全防护从数据库管理系统中彻底独立出来,针对不同的应用需求允许用户自己实现安全防护功能模块并在逻辑上加入到数据库应用系统中,这样问题也就迎刃而解了。
通过以上分析,本文提出一种独立于具体数据库、可组态的安全防护模型,并给出具体的实现方法。该模型将安全防护从数据库完全独立出来,在多数据库应用中实现集中配置安防,满足用户对于自主防护功能的需求。并在开源的嵌入式数据库产品SQLITE中做了功能测试,实验结果表明,该模型切实可行,达到了预想的效果,既能实现对系统的保护,又大大提高了系统的灵活性。
2 自主安全防护系统的设计与实现
自主安全防护系统DSS(Discretionary Safety System)的主要功能是阻止用户对信息的非法访问,在可疑行为发生时自动启动预设的告警流程,尽可能防范数据库风险的发生,在非法 *** 作发生时,触发事先设置好的防御策略,实行阻断,实现主动防御,并按照设置对所发生的 *** 作进行详细记录,以便事后的分析和追查。
21 系统结构
在DSS中,安全管理员使用角色机制对用户的权限进行管理,通过制定安全策略来设置核心部件Sensor以及访问控制部件。核心部件Sensor侦听用户的数据库 *** 作请求,采用命令映射表将不同的命令映射为系统识别的命令,提取出安全检查所需要的信息,发送到访问控制模块进行安检。安检通过了则允许用户访问数据库,否则拒绝访问,同时根据审计规则生成记录存入审计日志。
DSS作为独立的功能模块主要通过向Sensor提供数据库的调用接口的方式保障对数据库信息安全合理地访问。系统有一个默认的访问控制流程,用户也可以自己设定安全策略,系统自动生成相应访问控制流程。本文约定被访问的对象为客体,请求 *** 作的用户为主体。
22 系统实现
系统实现主要分为系统数据字典设计、用户登录与用户管理、系统相关策略制定、侦听器(Sensor)的实现、访问控制以及日志审计六部分。原数据库API信息(dll)、用户的自主防护策略作为输入,Sensor核心一方面将用户的防护策略融合在原数据库的API接口中,另一方面记录用户对数据库的 *** 作并生成日志,提供给用户做审计。用户在使用过程中不需要修改原有系统,即可实现自主防护。
Sensor由API处理模块、访问控制模块(Access Control)、Sensor核心模块(Core)、注射模块四部分组成。Core是Sensor的核心部件,主要负责拦截接口,解析并分离接口中的重要信息,使程序转入自定义的安检程序中执行安全检查。Access Control组件实现不同级别的访问控制,根据用户提供的安检信息,组态出对应的安防模块,并在合适的时候调用其进行访问控制。API(dll)主要将数据库系统提供的接口信息,转化为dll以便Sensor侦听时使用。Inject/Eject为Sensor提供远程注射的功能。
Core通过拦截对API的调用来实现定制功能。程序在调用API函数之前,首先要把API所在的动态链接库载入到程序中;然后将API函数的参数、返回地址(也就是函数执行完后,下一条语句的地址)、系统当前的环境(主要是一些寄存器的值)压入系统调用栈;接着,进入到API函数的入口处开始执行API函数,执行过程中从系统调用栈中取出参数,执行函数的功能,返回值存放在EAX寄存器中,最终从堆栈中取出函数的返回值并返回(参数压栈的顺序还要受到调用约定的控制,本文不详细介绍)。
举例说明函数调用时堆栈的情况。假设调用约定采用_stdcall,堆栈由高向低递减,API为Int func(int a, int b, int c)。
拦截主要通过HOOK API技术实现,可以拦截的 *** 作包括DOS下的中断、Windows中的API调用、中断服务、IFS和NDIS过滤等。目前微软提供了一个实现HOOK的函数库Detours。其实现原理是:将目标函数的前几个字节改为jmp指令跳转到自己的函数地址,以此接管对目标函数的调用,并插入自己的处理代码。
HOOK API技术的实质是改变程序流程。在CPU的指令集中,能够改变程序流程的指令包括JMP、CALL、INT、RET、RETF、IRET等。理论上只要改变API入口和出口的任何机器码,都可以实现HOOK。但实际实现上要复杂得多,主要需要考虑如何处理好以下问题:(1)CPU指令长度。在32 bit系统中,一条JMP/CALL指令的长度是5 B,因此只需要替换API中入口处的前5 B的内容,否则会产生不可预料的后果。(2)参数。为了访问原API的参数,需要通过EBP或ESP来引用参数,因此需要明确HOOK代码中此时的EBP/ESP的值。(3)时机问题。有些HOOK必须在API的开头,如CreateFileA( )。有些必须在API的尾部,如RECV()。(4)程序上下文内容的保存。在程序执行中会涉及修改系统栈的内容,因此注意保存栈中原有内容,以便还原。(5)在HOOK代码里尽量杜绝全局变量的使用,以降低程序之间的耦合性。通过以上的分析,整理出如图4所示的实现的流程。
DSS与传统数据库的安全防护功能相比,具有以下特点:
(1)独立于具体的数据库。这种独立性体现在:①DSS只需要数据库提供其接口信息即可工作。②支持不同标准的SQL语句,通过数据库命令映射表可将非标准的SQL语句映射为系统设置的SQL命令。③系统自身数据的物理存储是独立于数据库的。
(2)灵活性和针对性的统一。用户可以根据自己的需要配置针对特定应用的相关规则。
(3)完善的自我安全保护措施。DSS只有数据库安全管理员和安全审计员才能访问。安全管理员和安全审计员是一类特殊的用户,他们只负责安全方面的 *** 作,而不能访问数据库中的数据。这与Oracle等的数据库不同,在这些数据库中,DBA可以进行所有的 *** 作。DSS系统本身具有故障恢复能力,能使系统出现问题时恢复到一个安全的状态。
(4)完备的信息查阅和报警功能。在DSS中,本文提供了便利的设计查阅工具,方便用户对系统进行监控。另外,用户也可以自己定义报警条件和报警处理措施,一旦满足报警条件,系统就会自动地做出响应。
3 实验及结果分析
DSS的开发主要采用VS 2005实现,开发完成后在一台主频为28 GHz、内存2 GB、装有Windows 2000 *** 作系统的普通 PC机上对其进行了功能和性能的测试,使用的数据库是开源的嵌入式数据库SQLite 36。为了搭建测试环境,需要在SQLite中添加初始化系统自身的数据字典,并开发应用程序。测试内容包括:登录、用户管理、Sensor、访问控制、日志审计以及增加DSS前后数据库系统安全性变化等功能性测试和增加DSS系统后对数据库性能的影响两方面。其中,性能测试主要从时间和资源的增加情况来说明,针对不同数据库对象分别在五个级别(20 000、40 000、60 000、80 000、100 000)的数据上进行了插入和查询 *** 作测试。为了做好性能对比,在SQLite中也添加了相同的访问控制功能,记为Inline Processing。
从功能测试结果可以看出,DSS可以为数据库系统提供自主防护。从性能测试的结果中看出,查询 *** 作和插入 *** 作耗时相差比较大,这主要是SQLite工作方式引起的,在执行用户的插入 *** 作时,数据库需将内存中的数据写入磁盘数据库文件中,占用了一部分时间。而查询时,SQLite会将数据库文件部分内容缓存起来,加快了查询的速度。另外,增加DSS会对性能有略微的影响,但是它能实现对数据库系统自主保护。
本文针对传统数据库安全防护功能配置不灵活的问题,提出了一种基于HOOK技术的数据库通用安全防护系统。该系统的最大优点在于,它不受数据库自身的约束,完全独立于数据库系统,为用户提供一种按需定制的功能,不仅增加了安防配置的灵活性而且提高了通用性,可以用于不同的数据库系统中。
sqlserver和oracle数据库是比较常用的,且用于管理大型数据的
主流如下:微软:sqlserver和access;瑞典MySQL:AB公司mysql;IBM公司:db2;美国Sybase公司:Sybase;IBM公司:informix;美国oracle公司:oracle;小型数据库:access、foxbase;中型数据库:sqlserver、mysql、informix;大型数据库:db2、Oracle、Sybase
目前主要使用的医药数据库分为两大类,一个是免费医药数据库,一个是商业综合类的医药数据库。医药数据库的本质是让用户能在短时间内在一个网站把想要的信息通过检索一览无余,因此,全面性、准确性、及时性是该类数据库的主要指标。
先说免费医药数据库,大大小小的比较多,但真正用户量大,达到一定使用频率的,我们在此推荐三个最全面的:
①:DrugBank数据库,它是加拿大阿尔伯塔大学(University of Alberta)研究人员将详细的药物数据和全面的药物目标信息结合起来,建立的真实可靠的生物信息学和化学信息学数据库。DrugBank包含50万种药物信息,其中包括2653种经批准的小分子药物、1417种经批准的生物技术(蛋白质/肽)药物、131种营养品和6451种实验药物。
②:pharnexcloud,他目前是开放程度高的中文界面医药数据库,包含了全球药品研发管线、审评审批进度、全球临床试验、中国临床试验、药品招投标、集采、一致性评价等大量整合信息。
③:ClinicalTrials,它是一个基于网络的资源,为患者、他们的家庭成员、医疗保健专业人员、研究人员和公众提供了方便地访问关于各种疾病和病症的公共和私人支持的临床研究的信息。该网站由 美国国立卫生研究院的国家医学图书馆(NLM) 维护(NIH),美国国家医学图书馆提供的资源,探索所有 50 个州和 221 个国家/地区的 422,494 项研究。注:所有资料及相关研究仅供参考,未取得相关政府机构评定。
免费数据库涉及数据层面的关联性相对单一、数据深度存在一定局限性,毕竟这类数据库没有像商业数据库那样花上足够多的人力成本及时间成本去清洗、整理、维护数据。
商业类医药数据库往往是高价值数据库的代表。商业类医药数据库特点是功能强大不仅能对学术类信息加以融合处理,还能分析药品全生命周期数据,竞品药品销售详细情况、竞品企业招投标、投融资、集中采购信息等;除此之外还能实时跟踪产品管线最新信息,做到实时调整战略方向,防止做无用功浪费企业资源。现在商业类数据库可以说是医药企业必备的数据库。笔者就国内药企主要使用的商业医药数据库(同时对比两个国外数据库)给大家一一列举。
药融云企业版Pharnexcloud
数据全面性:★★★★★
运营企业:药融云数字科技
上线时间:2020年
数据库数量:218个
产品组成:药物研发库群、上市药品库群、药品销售库群、市场信息库群、一致性评价库群、原料药库群、医疗器械库群、生产检验库群、合理用药库群、医药文献等十个版块构成。
数据来源:各国药品监管机构、试验研究、学术会议报告、文献期刊、异构资源、企业公告各国卫生机构、医学新闻杂志、网络资讯、专利、协会学会等。
数据特色:数据采集近80个主流国家,监控全球10万+医药数据信息源,数据放大模型算法涉及人口学、经济学、发病率、医疗资源分布等各类特征参数。
增值服务:①专人对接需求,团队解决问题。②沙龙、巡讲、峰会、项目交易、需求对接等活动支持,能加入他们药融圈生态链。
优点:全面覆盖医药领域全产业链各环节,数据总量大、数据来源、专业报告、数据算法、结果展示都做得非常好。
缺点:相比较于全球顶尖的cortellis、informa等,pharnexcloud的数据展示结果关联性还有明显的进步空间。
pharnexcloud医药数据库后来居上,进步很快,近年来逐步成为国内医药企业选择较多的医药数据库,因其产品功能的全面和数据全面性得到越来越多的认可,希望能保持这个进步速度。
药智
综合性推荐指数:★★★★☆
运营企业:重庆康洲数据
上线时间:2009年
产品组成:由研发、一致性、生产、上市、市场、用药、药化、中药材、器械等九个版块组成。
数据来源:地区机构、资讯、企业公告报道、医疗会议、公司年度报告、医疗卫生机构、医学杂志、专利、商标、技术实施文件、学术会议、技术报告、科技期刊等。
数据库数量:172个
检索方式、功能点、底层数据架构、界面展示:与insight、Pharnexcloud数据库大体一致。
优点:药物综合报告、审评、临床数据都做得相当不错。而且仅此一家推出了化妆品、食品数据库。
缺点:药品销售数据起步阶段暂不够成熟,全球数据相对量少。(药品销售数据对于药品的立项调研、竞品销售分析、销售战略目标制定都是重中之重)。创新药物收录数量有待提高。
医药魔方
综合推荐指数:★★★★☆
运营企业:北京华彬立成
上线时间:2013年
数据库数量:49个
产品组成:资本透视、全球新药、全球临床、基础数据、市场洞察这五个版块构成。
数据来源:实验室研究、内部会议、专业报道、专利、商标、技术实施文件、学术会议、技术报告、科技期刊、文献、教科书、地区机构、资讯、新闻资讯、公司年度报告等。
产品亮点:资本透视和创新药物版块做得非常不错,在该领域都属于行业佼佼者。
收费:单价在国内偏高
优点:投融资版块、可视化疾病图谱和靶点整合、审评、临床等数据做充分关联、新上线的NextMed板块有一定领先性、其投融资版块做得很好。
缺点:总体数据数量偏少,药物研发也只解读了3万多个药物,比较同类产品丢失部分功能版块,全球数据不够丰富。销售数据模块虽然有,但十分封闭,无任何宣传,对其具体情况业内不了解。
医药魔方作为创新药物和医药投融资数据库目前国内用户沉积多的数据库之一,但其产品功能过于封闭,已成自己的围墙。
药渡
综合推荐指数:★★★☆
运营企业:药渡经纬信息科技
上线时间:2013年
数据库数量:132个
产品组成:由全球药物、全球器械、投资生态、临床研究、专利文献、政策法规、世界药问、数据定制八个版块构成。
数据来源:实验室研究、内部会议、专业报道、专利、商标、技术实施文件、学术会议、技术报告、科技期刊、在线数据库、在线辞典、电子书库、地区机构、资讯、企业公告报道、医疗会议等。
优点:其药物研发信息与国内审评、临床等多个库均有不错的关联,层级结构、标签及界面都做得相当不错。对生物药、化学药等细微标签做了单独优化。
缺点:目前没有药品销售数据,临床、上市药品分析等数据采集方面比较弱,总体数据量在业内偏弱。
药渡作为国内老牌医药数据库之一以全球研发数据为核心,重点发展咨询业务。缺少销售数据其核心版块数据,导致其数据业务只是一直低价在为其咨询业务做支撑。
米内
综合推荐指数:★★★★☆
运营企业:广州标点医药信息
上线时间:2010年
数据库数量:72个
产品组成:药品销售(多层格局,医院、零售)、审评进度、上市药品、临床试验、中标数据、全球新药研发、全球专利、项目进度这个七个版块构成
产品特色:国内药品销售数据领头企业,其医院销售数据以“三大终端六大市场”为基础,分层抽样多等级医院放大至全国。城市公立医院、县级公立医院、实体药店、网上药店、城市社区卫生中心、乡镇卫生院等各类维度齐备。
优点:南方所背景,医院销售数据算法和研发数据都做得非常不错。六大格局在国内首屈一指。近期上线了独家的电商类数据,虽然业界还在争议电商数据可信度,但毕竟先走出了这一步。
缺点:全面性比较弱,销售数据以外的全球数据、研发数据、审批数据相对重视程度很低,版本一直没有大的进展。
米内医药数据库南方所背景其医院销售版块覆盖面最广之一,但其它版块相对薄弱。
丁香园Insight
综合推荐指数:★★★☆
运营企业:杭州观澜网络
上线时间:2013年Insight(2006年总部)
产品组成:临床试验、申报进度、药品库、上市产品、制药企业、招投标、一致性评价、医药新闻、生物制品、全球数据等十个版块构成。
数据来源:内部会议、专业报道、专利、商标、在线数据库、在线词典、电子书库、异构资源共享平台、知识库、地区机构、资讯、企业公告报道、医疗会议、新闻资讯等。
产品特色:其界面小功能开发丰富特别是小图标的应用在国内UI设计上是好的,区别于同类产品。
检索方式、功能点、底层数据架构、界面展示:与药智数据库大体一致。
优点:搜索体验、UI界面小功能、时间轴、注册数据、国内药物审评、上市批文这些国内数据中做得非常不错。
缺点:市场和销售相关数据涉及较少,全球研发数据处于刚起步阶段(全球药物研发数据对于药企来说十分重要可谓是医药行业的风向标,在全球药物格局、药物立项调研、企业发展战略方向制定方面的重要性不言而喻)
Insight作为老牌医药数据库的典型代表,背靠丁香园集团的大树,目前国内用户沉积多的数据库之一,但因其药物研发数据版块、药品市场与销售数据起步晚,影响了其总体优势。
上海医工院PDB
综合推荐指数:★★★
运营企业:上海数图健康医药科技
上线时间:2011年
数据库数量:31个
产品组成:分为药物综合和新药研发监测两个数据库;药物综合数据库包含了国内市场、细分市场、全球市场、国内工业生产、企业经济运行五个版块;新药研发监测数据库包含了全球研发、中国研发、一致性评价、企业竞争,品种筛选分析五个版块。
数据来源:专利、商标、技术实施文件、学术会议、技术报告、科技期刊、文献、教科书、地区机构、资讯、新闻资讯、公司年度报告、pjb等。
优点:工信部背景知名度高国产医药数据库鼻祖,审评、临床等数据有不错的关联展示;新上线的RPDB零售板块有明显的优势提升;RAS医药处方分析系统具备一定独家性。
缺点:数据全面性相对不高,部分工业类数据更新较慢,UI设计过于传统。PDB作为全国老牌医药数据库之一,全球药物研发数据采集处于起步阶段,也许是底层架构设计问题单开了一个CPM(新药研发监测数据库)导致其部分关联性较差。
科睿唯安cortellis
综合推荐指数:★★★★☆
产品组成:Cortellis 数据库包含Cortellis竞争情报、Cortellis早期药物发现、CMC、仿制药、原料药、系统生物学Metacore等等多个模块,主要由竞争信息、疾病简报、监管信息、新闻、药物发现信息这几个版块构成;
数据来源:各大药品监管机构、新闻杂志、网络资讯、文献期刊、学术报告、专利商标、公司年报等。
检索方式、功能点、底层数据架构:这三个维度和informa数据库基本一致,只是样式展示风格不一样。
优点: 在展示结果关联性、专业报告、数据维度方面都做得非常好。
缺点: 缺少系统化药品销售数据,对中国企业管线监控出现不少滞后和少量错误,缺少中国药监局等数据分析。
cortellis医药数据库目前在世界医药领域知名医药数据库之一,因在国内因为其水土不服相比之下使用人群比例不是那么多。
英富曼Informa
综合推荐指数:★★★☆
产品组成:Biomedtracker、Pharmaprojects、Sitetrove、Trialtrave、Datamonitor Healthcare、In Vivo、Medtech Insight、Pink Sheet、Scrip多个版块组成。
数据来源:各国药品监管机构、医疗卫生机构、新闻杂志、网络资讯、文献期刊、学术报告、专利商标、公司年报、搜索引擎、学术会议等。
检索方式、功能点、底层数据架构:这三个维度和cortellis数据库基本一致,只是样式展示风格不一样,更符合国人使用习惯。
优点:可以综合计算药物批准通过率,数据更新历史记录,在新闻数据追溯、展示结果关联性、数据维度方面都做得很好。
缺点:没有销售数据、没有仿制药信息、缺少中国药监局数据解读,中国企业管线跟踪滞后;
Informa医药数据库当前世界主流医药数据库之一,其Pharmaprojects版块Pharnexcloud的’全球药物研发版块’被客户比较得多,因为价格和缺少国内审批等数据因此占有率偏低,目前在国内主要客户人群为高校为主。
一共写了目前国内主要使用9个主流数据库的测评,2个国外医药数据库。每个数据库都各有特色,可以根据自身情况供您选择。
公众交流平台
1 介绍
数据仓库是面向主题的、集成的、与时间相关的、不可修改的数据集合。数据仓库技术是基于信息系统业务发展的需要,基于数据库系统技术发展而来,并逐步独立的一系列新的应用技术。数据仓库系统可以看作是基于数学及统计学严谨逻辑思维的并达成“科学的判断、有效的行为”的一个工具,也是一种达成“数据整合、知识管理”的有效手段。随着数据仓库技术应用的不断深入,越来越多的企业开始使用数据仓库技术建设自己的数据仓库系统,希望能对历史数据进行具体而又有针对性的分析与挖掘,以期从中发现新客户和客户新的需求。
目前主要的数据仓库产品供应商包括Oracle、IBM、Microsoft、SAS、Teradata、Sybase、Business Objects(已被SAP收购)等。Oracle公司的数据仓库解决方案包含了业界领先的数据库平台、开发工具和应用系统,能够提供一系列的数据仓库工具集和服务,具有多用户数据仓库管理能力,多种分区方式,较强的与OLAP工具的交互能力,及快速和便捷的数据移动机制等特性;IBM公司的数据仓库产品称为DB2 Data Warehouse Edition,它结合了DB2数据服务器的长处和IBM的商业智能基础设施,集成了用于仓库管理、数据转换、数据挖掘以及OLAP分析和报告的核心组件,提供了一套基于可视数据仓库的商业智能解决方案;微软的SQL Server提供了三大服务和一个工具来实现数据仓库系统的整合,为用户提供了可用于构建典型和创新的分析应用程序所需的各种特性、工具和功能,可以实现建模、ETL、建立查询分析或图表、定制KPI、建立报表和构造数据挖掘应用及发布等功能;SAS公司的数据仓库解决方案是一个由30多个专用模块构成的架构体系,适应于对企业级的数据进行重新整合,支持多维、快速查询,提供服务于OLAP *** 作和决策支持的数据采集、管理、处理和展现功能;Teradata公司提出了可扩展数据仓库基本架构,包括数据装载、数据管理和信息访问几个部分,是高端数据仓库市场最有力竞争者,主要运行在基于Unix *** 作系统平台的NCR硬件设备上;Sybase提供了称为Warehouse Studio的一整套覆盖整个数据仓库建立周期的产品包,包括数据仓库的建模、数据集成和转换、数据存储和管理、元数据管理和数据可视化分析等产品;Business Objects是集查询、报表和OLAP技术为一身的智能决策支持系统,具有较好的查询和报表功能,提供多维分析技术,支持多种数据库,同时它还支持基于Web浏览器的查询、报表和分析决策。
根据IDC发布的2006年数据仓库市场分析报告,上述公司占据了全球近90%的市场份额,提供的数据仓库产品的功能特性已经成为市场的主流。这些公司在推出各自的数据仓库产品的同时也提供了相应的数据仓库解决方案。本文后续内容将针对这些数据仓库产品和解决方案的主要支撑技术进行比较,并结合IDC和ChinaBI相关报告给出相应的市场情况分析。
2 支撑技术
在数据仓库系列技术中,主要的支撑技术包括数据库技术、ETL技术、OLAP技术、报表技术、数据挖掘技术。
21 数据库技术
数据库技术是支撑数据仓库技术的基础技术。尽管在数据仓库技术存储模型方面,基于数据库技术而发展的关系模式的理念已经被颠覆,取而代之是各种各样的数据仓库数据模型,如星型模型,雪花模型等。然而,在已有的数据仓库实践中,关系数据库仍然是实质的数据库存储工具,只是将数据库表改称为了事实表和维表,将属性域之间的关系重新定义为维度,量度,层次,粒度等。
成熟的数据仓库后台数据库包括Oracle、DB2、SQL Server、Teradata和Sybase IQ。在查询效率方面,Sybase IQ由于采用了列存储技术,查询效率比较高;在兼容性方面,Teradata从软件到硬件都必须是专用的,因而兼容性最差;在管理平台和海量数据管理方面,Oracle、DB2和SQL Server都提供了一系列完整的工具,相对于其它产品有着明显的优势;在磁盘空间利用方面,Sybase IQ的压缩比是所有数据库中最好的,而Teradata最为浪费。
另外,SAS公司和BO公司也拥有自己的数据管理能力,但对于大型数据仓库的数据管理,仍然需要使用上述数据库产品,SAS和BO都提供了与这些数据库进行连接的专门接口。
22 ETL技术
数据仓库系统是集成的、与时间相关的数据集合,ETL作为数据仓库的核心,负责将分布的、异构数据源中的数据进行抽取、清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。ETL能够按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。要实现数据仓库中数据的自动更新运转,ETL技术是必不可少的关键技术之一。
主流数据仓库产品供应商都拥有各自的ETL能力。IBM的ETL工具称为IBM WebSphere DataStage,它为整个ETL过程提供了一个图形化的开发环境,支持对多种 *** 作数据源的数据抽取、转换和维护,并将其输入数据集或数据仓库;Teradata的ETL工具称为ETL Automation,它利用Teradata数据库本身的并行处理能力,通过SQL语句实现数据的转换,提供对ETL流程的支持,包括前后依赖、执行和监控等;SAS的ETL工具称为ETL Studio,提供管理ETL流程和建立数据仓库、数据集市和OLAP结构的单控制点。其他几家公司则将其工具融合在大的数据仓库组件中,如Oracle的Oracle Warehouse Builder (OWB)、SQL Server的Integration Services、Sybase的Data Integration Suite、BO的可扩展数据整合平台Data Integrator。
上述各公司提供的ETL相关工具功能相近,在易用性、效率、价格等方面各有千秋,但就工具的二次开发、集成和开放性而言,与专业的数据集成平台,如Informatica公司的PowerCenter,相比还是存在一定的差距。
23 OLAP技术
联机分析处理(OLAP)是针对特定问题的联机数据访问和分析,通过对信息进行快速、稳定、一致和交互式的存取,对数据进行多层次、多阶段的分析处理,以获得高度归纳的分析结果。联机事务处理(OLTP)已不能满足终端用户对数据库查询分析的需要,SQL对大数据库进行的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求,由此出现了多维数据库和多维分析的概念。
目前主流的OLAP产品有Oracle Express/Discoverer、SQL Server Analysis Services、DB2 OLAP Server、SAS OLAP Server等,这些产品都可以生成多维数据立方体,提供多维数据的快速分析,支持所有主流关系型数据库如DB2,Oracle,SQL Server,Sybase等,同时可读取关系数据库中细节数据,实现混合在线分析(HOLAP)或关系型在线分析(ROLAP)。并且,各厂商的OLAP Sever对自己的数据库产品的支持均好于其它数据库,各自的分析工具也都基于开放的OLE DB标准,可以访问支持OLE DB标准的数据立方体。
BO公司和Sybase公司则分别提供了各自的OLAP分析工具OLAP Intelligence和Power Dimension,支持标准OLAP API,如OLEDB for OLAP,能够对Microsoft、IBM等OLAP数据进行划分、钻取等处理,兼容第三方报表和展现工具。Teradata尽管不提供独立的OLAP工具,但提供了相关技术,用于提升运行于Teradata数据库上的OLAP应用系统的性能。
24 报表技术
报表技术主要是将集成在数据模型里的数据,按照复杂的格式、指定行列统计项,计算形成的特殊表格。一般的简单报表可以使用通用的前台展现技术实现,而复杂的报表则需要使用特定的报表技术。主流的报表技术都可以灵活的制定各种报表模版库和指标库,并根据每个区块或单元格的需要引用指标,实现一系列复杂的符合要求的报表的自动生成。
主流数据仓库厂商的报表工具中较为有影响包括IBM的Cognos ReportNet、BO的Crystal Reports、Oracle的Oracle Reports。IBM通过收购Cognos公司获得了完整的报表产品Cognos ReportNet,覆盖了各种报表需求,包括管理报表、商业报表、账单和发票等;BO公司提供了一个完整的企业报表解决方案Crystal Reports Server,支持通过Web快速便捷的创建、管理和交付报表;Oracle Reports工具提供了自由的数据格式方式,可以自动生成个性化字母或矩阵风格的布局,包括动态、数据驱动的图表;SQL Server的报表功能包含在Reporting Services (SSRS)中,包括处理组件、一整套可用于创建和管理报表的工具、在自定义应用程序中集成和扩展数据和报表处理的API。与上述产品相比,Sybase的InfoMaker、Teradata的BTEQ和SAS的Report Studio等报表产品在功能、性能、二次开发等方面都还存在着一定的差距。
总的来说,这些产品在大部分通用软件领域相对国产软件都要优秀,但在有中国特色的报表领域内却是例外,在处理能力存在一定的不适应性。另外这些产品的数学模型都是基于SQL/OLAP理论设计的,在技术上也不能满足国内复杂报表的制作需求。
25 数据挖掘技术
当数据积累到一定数量时,某些潜在联系、分类、推导结果和待发现价值隐藏在其中,可以使用数据发掘工具帮助发现这些有价值的数据。数据挖掘就是从海量数据中,提取隐含在其中的、人们事先不知道的但又可能有用的信息和知识的过程。通过数据挖掘能找出数据库中隐藏的信息,实现用模型来拟合数据、探索型数据分析,数据驱动型的发现,演绎型学习等功能。
目前,IBM公司的IBM Intelligent Miner支持典型数据集自动生成、关联发现、序列规律发现、概念性分类和可视化呈现,可以自动实现数据选择、数据转换、数据发掘和结果呈现这一整套数据发掘 *** 作;Oracle公司提供的数据挖掘平台称为Oracle Data Miner,它提供了的一个图形用户界面,通过简单易用的向导来指导完成数据准备、数据挖掘、模型评估和模型评价过程,根据需要自动生成将数据挖掘步骤转换成一个集成的数据挖掘/BI应用程序所需的代码;SAS公司的SAS Enterprise Miner将数据挖掘过程简单流程化,支持关联、聚类、决策树、神经元网络和经典的统计回归技术;Teradata公司的挖掘工具称为Teradata Warehouse Miner,它通过将数据挖掘技术整合到数据仓库来简化数据挖掘流程,该工具还可实现将多家厂商的数据挖掘技术嵌入Teradata企业级数据仓库环境中运行;Microsoft数据挖掘平台不同于传统数据挖掘应用程序,它支持组织中数据的整个开发生命周期,允许第三方添加自定义算法以支持特定的挖掘需求,支持实时根据挖掘的数据集进行数据验证。对比于上述公司,Sybase和BO公司并没有推出专门的数据挖掘平台或工具。
和前几项支撑技术相比,数据挖掘技术的专业性更强,与应用领域的特殊背景结合得更加紧密。上述产品除了在性能、通用性、数据展示、二次开发上有一定差异外,没有一个能够占据绝对技术和市场优势,反而是一些专门领域内的专业挖掘工具更具竞争性,如Fair Isaac公司占据了全球xyk积分市场近7成的份额。
3 市场分析
国际权威市场分析机构IDC将数据仓库平台工具市场细分为数据仓库生成(Data Warehouse Generation)工具市场和数据仓库管理(Data Warehouse Management)工具市场两个部分,前者涵盖数据仓库的设计和ETL过程的各种工具,后者指数据仓库后台数据库的管理工具,如DBMS。根据IDC发布的《全球数据仓库平台工具2006年度供应商市场份额》分析报告,2006年该市场增长率为125%,规模达到57亿美元,其中数据仓库生成工具和数据仓库管理工具两个市场的比重分别为233%和767%,相对于数据仓库管理工具市场,数据仓库生成工具市场的增长进一步放缓。可以预见,整个数据仓库市场将进一步向拥有强大后台数据库系统的传统厂商倾斜。从供应商看,Oracle公司继续占据数据仓库管理领域的领先供应商地位,并且与其主要竞争者IBM之间的这种领先优势正逐渐扩大。Microsoft紧追IBM之后,与其之间的差距则在逐渐缩小。
在国内,商业智能已经成为企业信息化中最重要的组成部分,而数据仓库相关技术在其中扮演着无可替代的重要角色。据ChinaBI统计,2007年中国大陆地区的BI市场份额约为20亿元人民币,同比2006年增长35%,其中BI产品许可证约为9亿元人民币,BI系统集成约为11亿元人民币。现有BI厂商包括产品提供商、集成商、分销商、服务商等有近500家,在未来几年内商业智能市场需求旺盛,市场规模增长迅速。从国内数据仓库实践看,根据ChinaBI评选的2007年中国十大数据仓库的初步结果,传统数据库厂商占据7个,分别是IBM 3个、Oracle 3个、SQL Server 1个,其余3个属于NCR/Teradata公司;从数据仓库规模来看,传统数据库厂商更占有巨大优势,总数据量为5363T,Teradata则为54T。涉及的行业包括通信、邮政、税务、证券和保险等。
在数据仓库市场快速发展的同时,市场竞争也日趋激烈,其中尤其以Oracle收购Hyperion、SAP收购BO、IBM收购Cognos具有代表意义。截至2007年底,混乱的市场已经基本明朗化,三个层次逐渐浮现出来。Oracle,IBM,Microsoft和SAP位居第一层次,能够提供全面的解决方案;第二层次是NCR Teradata和SAS等产品相对独立的供应商,可以提供解决方案中的部分应用;第三层次是只专注于单一领域的专业厂商,但其在并购的硝烟中日趋难以存活。
我们的数据库市场长期被国外主流品牌垄断,从国内数据库发展现状看,主要有三方面的挑战:
一、很多产品缺少实实在在的应用场景的打磨,产品性能方面的市场验证可能略显不足;
二、我们没有国外数据库品牌多年的积累,在生态人才的培养积累上也有所缺失;
三、还有一点可能是我们要深思的,相比国外主流品牌的数据库产品,我们到底要做什么样的数据库产品,能不能找到自己清晰的市场定位,找到弯道超车的机会。
AntDB是经历14年通信市场验证的数据库产品,服务10亿多用户,峰值每秒处理百万笔通信核心交易,14年来产品一直平稳运行。
从我们自身产品的发展历程来看,要应对这三个方面的挑战,我们一定要有自己的技术队伍,站在应用的角度,去选择产品发展创新的路径,做出差异化。
从这个角度说,我们要在做好与国内外主流数据库语法兼容的基础上,给自己的产品赋予新的能力,从我们自身来说,超融合就是AntDB正在打造的新能力。
目前,商品化的数据库管理系统以关系型数据库为主导产品,技术比较成熟。面向对象的数据库管理系统虽然技术先进,数据库易于开发、维护,但尚未有成熟的产品。国际国内的主导关系型数据库管理系统有Oracle、Sybase、INFORMIX和INGRES。这些产品都支持多平台,如 UNIX、VMS、Windows,但支持的程度不一样。IBM的DB2也是成熟的关系型数据库。但是,DB2是内嵌于IBM的AS/400系列机中,只支持OS/400 *** 作系统。
1MySQL
MySQL是最受欢迎的开源SQL数据库管理系统,它由 MySQL AB开发、发布和支持。MySQL AB是一家基于MySQL开发人员的商业公司,它是一家使用了一种成功的商业模式来结合开源价值和方法论的第二代开源公司。MySQL是MySQL AB的注册商标。
MySQL是一个快速的、多线程、多用户和健壮的SQL数据库服务器。MySQL服务器支持关键任务、重负载生产系统的使用,也可以将它嵌入到一个大配置(mass- deployed)的软件中去。
与其他数据库管理系统相比,MySQL具有以下优势:
(1)MySQL是一个关系数据库管理系统。
(2)MySQL是开源的。
(3)MySQL服务器是一个快速的、可靠的和易于使用的数据库服务器。
(4)MySQL服务器工作在客户/服务器或嵌入系统中。
(5)有大量的MySQL软件可以使用。
2SQL Server
SQL Server是由微软开发的数据库管理系统,是Web上最流行的用于存储数据的数据库,它已广泛用于电子商务、银行、保险、电力等与数据库有关的行业。
目前最新版本是SQL Server 2005,它只能在Windows上运行, *** 作系统的系统稳定性对数据库十分重要。并行实施和共存模型并不成熟,很难处理日益增多的用户数和数据卷,伸缩性有限。
SQL Server 提供了众多的Web和电子商务功能,如对XML和Internet标准的丰富支持,通过Web对数据进行轻松安全的访问,具有强大的、灵活的、基于Web的和安全的应用程序管理等。而且,由于其易 *** 作性及其友好的 *** 作界面,深受广大用户的喜爱。
3Oracle
提起数据库,第一个想到的公司,一般都会是Oracle(甲骨文)。该公司成立于1977年,最初是一家专门开发数据库的公司。Oracle在数据库领域一直处于领先地位。 1984年,首先将关系数据库转到了桌面计算机上。然后,Oracle5率先推出了分布式数据库、客户/服务器结构等崭新的概念。Oracle 6首创行锁定模式以及对称多处理计算机的支持……最新的Oracle 8主要增加了对象技术,成为关系—对象数据库系统。目前,Oracle产品覆盖了大、中、小型机等几十种机型,Oracle数据库成为世界上使用最广泛的关系数据系统之一。
Oracle数据库产品具有以下优良特性。
(1)兼容性
Oracle产品采用标准SQL,并经过美国国家标准技术所(NIST)测试。与IBM SQL/DS、DB2、INGRES、IDMS/R等兼容。
(2)可移植性
Oracle的产品可运行于很宽范围的硬件与 *** 作系统平台上。可以安装在70种以上不同的大、中、小型机上;可在VMS、DOS、UNIX、Windows等多种 *** 作系统下工作。
(3)可联结性
Oracle能与多种通讯网络相连,支持各种协议(TCP/IP、DECnet、LU62等)。
(4)高生产率
Oracle产品提供了多种开发工具,能极大地方便用户进行进一步的开发。
(5)开放性
Oracle良好的兼容性、可移植性、可连接性和高生产率使Oracle RDBMS具有良好的开放性。
4Sybase
1984年,Mark B Hiffman和Robert Epstern创建了Sybase公司,并在1987年推出了Sybase数据库产品。Sybase主要有三种版本:一是UNIX *** 作系统下运行的版本; 二是Novell Netware环境下运行的版本;三是Windows NT环境下运行的版本。对UNIX *** 作系统,目前应用最广泛的是SYBASE 10及SYABSE 11 for SCO UNIX。
Sybase数据库的特点:
(1)它是基于客户/服务器体系结构的数据库。
(2)它是真正开放的数据库。
(3)它是一种高性能的数据库。
5DB2
DB2是内嵌于IBM的AS/400系统上的数据库管理系统,直接由硬件支持。它支持标准的SQL语言,具有与异种数据库相连的GATEWAY。因此它具有速度快、可靠性好的优点。但是,只有硬件平台选择了IBM的AS/400,才能选择使用DB2数据库管理系统。
DB2能在所有主流平台上运行(包括Windows),最适于海量数据。
DB2在企业级的应用最为广泛,在全球的500家最大的企业中,几乎85%以上都用DB2数据库服务器,而国内到1997年约占5%。
除此之外,还有微软的 Access数据库、FoxPro数据库等。既然现在有这么多的数据库系统,那么在游戏编程时应该选择什么样的数据库呢?首要的原则就是根据实际需要,另一方面还要考虑游戏开发预算。现在常用的数据库有:SQL Server、My SQL、Oracle、FoxPro。其中MySQL是一个完全免费的数据库系统,其功能也具备了标准数据库的功能,因此,在独立制作时,建议使用。 Oracle虽然功能强劲,但它毕竟是为商业用途而存在的,目前很少在游戏中使用到。
以上就是关于数据库企业中用的最多的是哪个呢全部的内容,包括:数据库企业中用的最多的是哪个呢、数据库自主安全防护如何实现 数据库自主安全防护技术介绍【详解】、现在主流数据库等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)