
什么是数据仓库
目前,数据仓库一词尚没有一个统一的定义,著名的数据仓库专家 WHInmon 在其著作《 Building the Data Warehouse 》一书中给予如下描述:数据仓库( Data Warehouse )是一个面向主题的( Subject Oriented )、集成的( Integrate )、相对稳定的( Non-Volatile )、反映历史变化( Time Variant )的数据集合,用于支持管理决策。 对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的 *** 作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。
数据库是一个装数据(信息的原材料)的地方。
数据仓库是一种系统,这种系统也是用数据库装东西。
数据仓库系统(用数据库装东西)与其他基础业务系统(例如财务系统、销售系统、人力资源系统等,也是用数据库装东西)的区别是:
基础业务系统的特点是各管各的,例如财务系统生产了白菜,那么用一个数据库来装,人力资源系统生产了猪肉,再用一个数据库来装。我要做一道菜,需要分别到各个数据库去取,比较麻烦(现实的情况是大部分时候让种菜的农民伯伯送过来,但送过来的东西不一定是我想要的,而且不同的时候我想要不同的东西,经常会被农民伯伯骂,弄得双方都不开心)。另外一方面,各个数据库中放的是一些比较原始的东西,我要拿过来做菜,还需要经过很麻烦的清洗过程,一不小心里面可能就藏着一条大青虫。
那么,数据仓库系统就是建立一个大的超市,将各地农民伯伯出产的东西收集过来,清洗干净,分门别类地放好。这样,你要哪种菜的时候,直接从超市里面拿就可以了。
早期一直不理解数据仓库是什么困惑得很。
宏观一点讲,数据仓库就是堆放公司所有数据的地方,之所以把数据都堆在一起,是为了从中间找到有价值的东西。
数据仓库更多的是一个概念,不要把数据仓库想成那些号称是数据仓库的软件产品们。
数据仓库的物理上就是数据库。相对业务系统数据库叫 OLTP 数据库(用于业务处理),这种数据库叫 OLAP 数据库(用于业务分析)。
数据仓库的概念是针对以下基本需求产生的:
公司的业务系统很多,业务系统的历史数据不方便查询。不同的业务系统往往管理部门不同,地域不同。能不能将所有这些数据集中起来,再淘淘有没有有意义的业务规律。
数据仓库数据库往往很大,因为公司所有的数据集中得越多,越能淘到有价值的发现。例如随便就 100G 以上。
数据仓库的组成十分繁杂,既有业务系统的历史数据,又有人事、财务数据,还要自己建一些基础性的数据,例如,公共假期数据、地理信息、国家信息等等。
数据仓库概念包含从业务生产系统采集数据的程序,这个程序还不能影响业务系统的运行。(属于所谓 “ETL” 过程)
数据仓库包括业务系统长期的历史数据,例如 5 年,用来分析。(所谓 “ODS” 数据)
数据仓库包括针对某相业务值(例如销售量)重新打上标签的业务流水数据。(所谓 “ 事实表 ” 、 “ 维度表 ” )。
数据仓库概念兴许还包含报表生成工具(所谓 “BI” 工具)。这些工具能够达到几年前所谓 DSS (决策分析)的效果。
数据仓库的客户历史资量的分析,也许又与 CRM 系统粘点边。
总之,一点,一个公司想针对已有的历史业务数据,充分的利用它们,那么就上数据仓库项目。至于哪些吓唬人的大写字母的组合,只是达到这个目标的科学技术罢了。
牢记住数据仓库的基本需求,不要被供应商吓着。
数据仓库可以说是决策支持系统,能帮助老板了解企业的整体全貌,看到数据仓库提供的经过整理统计归纳的数据后老板凭自己的管理经验可以发现企业的问题或困难或成功因素在哪一方面,然后可以不断的追溯数据,直到确定到最具体的细节上,这样能够不断提升老板或管理层的管理水平,不断改善企业的管理。我们知道的最好的一个例子就是美国某大型超市啤酒和尿布的故事。
沃尔玛公司在美国的一位店面经理曾发现,每周,啤酒和尿布的销量都会有一次同比攀升,一时却搞不清是什么原因。后来,沃尔玛运用商业智能( Business Intelligence ,简称BI)技术发现,购买这两种产品的顾客几乎都是 25 岁到 35 岁、家中有婴儿的男性,每次购买的时间均在周末。沃尔玛在对相关数据分析后得知,这些人习惯晚上边看球赛、边喝啤酒,边照顾孩子,为了图省事而使用一次性的尿布。得到这个结果后,沃尔玛决定把这两种商品摆放在一起,结果,这两种商品的销量都有了显著增加。
数据库是数据仓库的基础。数据仓库实际上也是由数据库的很多表组成的。需要把存放大量 *** 作性业务数据的数据库经过筛选、抽取、归纳、统计、转换到一个新的数据库中。然后再进行数据展现。老板关注的是数据展现的结果。
数据仓库 (DATA WAREHOUSE/DATA MART) 的另一重要概念是数据从不同的数据库 (DATABASES) 里调出经过 ETL 工具 ( 如 POWERCENTRE , DECISIONSTREAM, SQL SERVER 2000 DTS, SQL SERVER 2005 SSIS) 过程进行清理,确证,整合并设计成多维 (dimensional framework) 。 以保证数据的正确、准确、完整 , 这是非常重要的一点。
我们现在的项目稳定运行了 6 年多,一直自己开发,最近慢慢开始使用 datastage 。很多大型项目之所以用工具,是因为工具的本身的特点是开发快,效率相对还可以,让你更好地有精力用在业务、数据库的优化以及数据测试上,和数据质量本身并没有关系。
而数据质量关系最密切的还是从设计(架构、模型等)、业务关系的理解、项目管理(含和客户的交流,以及遵从开发流程和测试流程)等一系列项目工程的过程。这也是为什么很多项目使用了 ETL 工具,但是数据质量还是提高不大的主要原因。
数据仓库的作用重在数据的集中管理。集中管理的最终目的是为了分析,预测。
所谓的 ETL 。不过是数据仓库的构建的一个必须过程。数据的抽取转换与装载,都是为了集中管理所做的基础工作,这些数据与动作的描述,都会有有响应的元数据进行描述。
在数据仓库建模的过程,我们一般都是采用多维模型,如星形,雪花型等等,这样做最大的特点就是效率高,数据的冗余度低。所以,把 OLAP 与数据仓库混为一谈我认为是片面的解释。
我们也可以选择业务逻辑模型建立数据仓库,这是很早以前的做法了,特点就是效率不高,数据的冗余度高,但他能实现非常难以表达的业务逻辑设计。
基于数据仓库最重要的是分析与预测,我认为,历史现在将来是数据仓库的精华。。
基于数据仓库的 DM , OLAP 都是为了分析与预测。为了让使用企业单位更好的把握现在,预测将来,因此他最实效的说法我认为是给决策者与管理者进行决策管理提供分析与预测的依据。
另外,数据仓库还会起到历史数据分类归档的目的(就像图书馆一样),届时可以通过检索条件方便的查询历史信息;而同类信息在 OLTP 中早已被更新了。
至于它的分析功能,就象气象考古研究工作,在不同深度的冰川中保存着当时的气象信息,否则拿什么预测气候变化趋势呢!
不过,要有相当的管理及技术储备以及管理层的强力支持才可以。先有需求,并具备了必要条件才可上马,否则您的数据仓库将不是超市而是个垃圾堆, “garbage in , then garbage out” !
所以,我认为是企业信息化建设及科学管理水平的提高催生了数据仓库的必然产生,不要赶时髦,炒概念,关键还是冷静分析自己企业的现实状况是否到了必须部署数据仓库的阶段了!
至于如何说服管理者,则需要您的努力了,不要站在您技术人员的立场阐述问题, CEO 对技术问题不感兴趣,站在他们的角度考虑问题,回答诸如 “ 我们投入如此大的资金、人力,同时面对升级系统的巨大风险,目的何在? ” 记住, CEO 和 CFO (甚至包括 CIO )是更希望用数字说话的,您分析一下公司的管理决策流程,就可以向他们提出很有价值的决策支持报表,而部门经理(或类似人员)每季度也不必头大的制作相关分析报表了,节省的精力可以做更多有价值的事情,这就是企业人力资源利用率的巨大提升,可以节省多少银子,恐怕 CEO 不会用你提示了吧!
先说说数据仓库和数据挖掘的关系,再说说数据库与数据仓库的关系
数据仓库与数据挖掘的联系
(1) 数据仓库为数据挖掘提供了更好的、更广泛的数据源。
(2) 数据仓库为数据挖掘提供了新的支持平台。
(3) 数据仓库为更好地使用数据挖掘这个工具提供了方便。
(4) 数据挖掘为数据仓库提供了更好的决策支持。
(5) 数据挖掘对数据仓库的数据组织提出了更高的要求。
(6) 数据挖掘还为数据仓库提供了广泛的技术支持。
数据仓库与数据挖掘的差别
(1) 数据仓库是一种数据存储和数据组织技术, 提供数据源。
(2) 数据挖掘是一种数据分析技术, 可针对数据仓库中的数据进行分析。
1、数据库:是一种逻辑概念,用来存放数据的仓库,通过数据库软件来实现。数据库由很多表组成,表是二维的,一张表里面有很多字段。字段一字排开,对数据就一行一行的写入表中。数据库的表,在于能够用二维表现多维的关系。如:oracle、DB2、MySQL、Sybase、MSSQL Server等。
2、数据仓库:是数据库概念的升级。从逻辑上理解,数据库和数据仓库没有区别,都是通过数据库软件实现存放数据的地方,只不过从数据量来说,数据仓库要比数据库更庞大德多。数据仓库主要用于数据挖掘和数据分析,辅助领导做决策;
区别主要总结为以下几点:
1数据库只存放在当前值,数据仓库存放历史值;
2数据库内数据是动态变化的,只要有业务发生,数据就会被更新,而数据仓库则是静态的历史数据,只能定期添加、刷新;
3数据库中的数据结构比较复杂,有各种结构以适合业务处理系统的需要,而数据仓库中的数据结构则相对简单;
4数据库中数据访问频率较高,但访问量较少,而数据仓库的访问频率低但访问量却很高;
5数据库中数据的目标是面向业务处理人员的,为业务处理人员提供信息处理的支持,而数据仓库则是面向高层管理人员的,为其提供决策支持;
6数据库在访问数据时要求响应速度快,其响应时间一般在几秒内,而数据仓库的响应时间则可长达数几小时
数据挖掘是从大量的数据中,抽取出潜在的、有价值的知识(模型或规则)的过程。
1数据挖掘能做什么
1)数据挖掘能做以下六种不同事情(分析方法):
分类()
估值(Estimation)
预言(Prediction)
相关性分组或关联规则(Affinitygroupingorassociationrules)
聚集(Clustering)
描述和可视化(Descriptionand)
2)数据挖掘分类
以上六种数据挖掘的分析方法可以分为两类:直接数据挖掘;间接数据挖掘
直接数据挖掘
目标是利用可用的数据建立一个模型,这个模型对剩余的数据,对一个特定的变量(可以
理解成数据库中表的属性,即列)进行描述。
间接数据挖掘
目标中没有选出某一具体的变量,用模型进行描述;而是在所有的变量中建立起某种关系
分类、估值、预言属于直接数据挖掘;后三种属于间接数据挖掘
3)各种分析方法的简介
分类()
首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分
类模型,对于没有分类的数据进行分类。
例子:
axyk申请者,分类为低、中、高风险
b分配客户到预先定义的客户分片
注意:类的个数是确定的,预先定义好的
估值(Estimation)
估值与分类类似,不同之处在于,分类描述的是离散型变量的输出,而估值处理连续值的
输出;分类的类别是确定数目的,估值的量是不确定的。
例子:
a根据购买模式,估计一个家庭的孩子个数
b根据购买模式,估计一个家庭的收入
c估计realestate的价值
一般来说,估值可以作为分类的前一步工作。给定一些输入数据,通过估值,得到未知的
连续变量的值,然后,根据预先设定的阈值,进行分类。例如:银行对家庭贷款业务,运
用估值,给各个客户记分(Score0~1)。然后,根据阈值,将贷款级别分类。
预言(Prediction)
通常,预言是通过分类或估值起作用的,也就是说,通过分类或估值得出模型,该模型用
于对未知变量的预言。从这种意义上说,预言其实没有必要分为一个单独的类。
预言其目的是对未来未知变量的预测,这种预测是需要时间来验证的,即必须经过一定时
间后,才知道预言准确性是多少。
相关性分组或关联规则(Affinitygroupingorassociationrules)
决定哪些事情将一起发生。
例子:
a超市中客户在购买A的同时,经常会购买B,即A=>B(关联规则)
b客户在购买A后,隔一段时间,会购买B(序列分析)
聚集(Clustering)
聚集是对记录分组,把相似的记录在一个聚集里。聚集和分类的区别是聚集不依赖于预先
定义好的类,不需要训练集。
例子:
a一些特定症状的聚集可能预示了一个特定的疾病
b租VCD类型不相似的客户聚集,可能暗示成员属于不同的亚文化群
聚集通常作为数据挖掘的第一步。例如,"哪一种类的促销对客户响应最好?",对于这一
类问题,首先对整个客户做聚集,将客户分组在各自的聚集里,然后对每个不同的聚集,回答问题,可能效果更好。
描述和可视化(Descriptionand)
是对数据挖掘结果的表示方式。
2数据挖掘的商业背景
数据挖掘首先是需要商业环境中收集了大量的数据,然后要求挖掘的知识是有价值的。有
价值对商业而言,不外乎三种情况:降低开销;提高收入;增加股票价格。
1)数据挖掘作为研究工具(Research)
2)数据挖掘提高过程控制(ProcessImprovement)
3)数据挖掘作为市场营销工具(Marketing)
4)数据挖掘作为客户关系管理CRM工具(CustomerManagement)
3数据挖掘的技术背景
1)数据挖掘技术包括三个主要部分:算法和技术;数据;建模能力
2)数据挖掘和机器学习(MachineLearning)
机器学习是计算机科学和人工智能AI发展的产物
机器学习分为两种学习方式:自组织学习(如神经网络);从例子中归纳出规则(如决
策树)
数据挖掘由来
数据挖掘是八十年代,投资AI研究项目失败后,AI转入实际应用时提出的。它是一个新兴
的,面向商业应用的AI研究。选择数据挖掘这一术语,表明了与统计、精算、长期从事预
言模型的经济学家之间没有技术的重叠。
3)数据挖掘和统计
统计也开始支持数据挖掘。统计本包括预言算法(回归)、抽样、基于经验的设计等
4)数据挖掘和决策支持系统
数据仓库
OLAP(联机分析处理)、DataMart(数据集市)、多维数据库
决策支持工具融合
将数据仓库、OLAP,数据挖掘融合在一起,构成企业决策分析环境。
4数据挖掘的社会背景
数据挖掘与个人预言:数据挖掘号称能通过历史数据的分析,预测客户的行为,而事实上
客户自己可能都不明确自己下一步要作什么。所以,数据挖掘的结果,没有人们想象中
神秘,它不可能是完全正确的。
客户的行为是与社会环境相关连的,所以数据挖掘本身也受社会背景的影响。比如说,在
美国对银行xyk客户信用评级的模型运行得非常成功,但是,它可能不适合中国
数据库是一个装数据(信息的原材料)的地方。 数据仓库是一种系统,这种系统也是用数据库装东西。(这有点没说清楚:个人理解数据库和数据仓库当然都是装数据的地方,关键的区别是装的什么样的数据,数据库装的原始数据,没经过任何加工;而数据仓库是为了满足分析需要,对源数据进行了Transform过程,具体是怎样一个处理过程,可以从Bill Inmon的仓库定义四个特性进行理解。)数据仓库系统(用数据库装东西)与其他基础业务系统(例如财务系统、销售系统、人力资源系统等,也是用数据库装东西)的区别是: 基础业务系统的特点是各管各的,例如财务系统生产了白菜,那么用一个数据库来装,人力资源系统生产了猪肉,再用一个数据库来装。我要做一道菜,需要分别到各个数据库去取,比较麻烦(现实的情况是大部分时候让种菜的农民伯伯送过来,但送过来的东西不一定是我想要的,而且不同的时候我想要不同的东西,经常会被农民伯伯骂,弄得双方都不开心)。另外一方面,各个数据库中放的是一些比较原始的东西,我要拿过来做菜,还需要经过很麻烦的清洗过程,一不小心里面可能就藏着一条大青虫。那么,数据仓库系统就是建立一个大的超市,将各地农民伯伯出产的东西收集过来,清洗干净,分门别类地放好。这样,你要哪种菜的时候,直接从超市里面拿就可以了。
数据仓库的特点是:
(1)数据仓库是面向主题的
(2)数据仓库是集成的
(3)数据仓库具有时间相关性
(4)数据仓库的数据是相对稳定的
数据仓库可以说是决策支持系统(个人不同意这个观点,决策支持系统(DDS)是在管理信息系统的基础上发展起来的,在数据仓库、OLAP技术和数据挖掘工具出现以前,就已经有DSS了,但其在实际应用开发过程中暴露出许多问题,DW为克服传统DDS存在的问题提供了技术上的支持,基于DW上的DSS效果自然有很大提升),能帮助老板了解企业的整体全貌,看到数据仓库提供的经过整理统计归纳的数据后老板凭自己的管理经验可以发现企业的问题或困难或成功因素在哪一方面,然后可以不断的追溯数据,直到确定到最具体的细节上,这样能够不断提升老板或管理层的管理水平,不断改善企业的管理。我们知道的最好的一个例子就是美国某大型超市啤酒和尿布的故事。 沃尔玛公司在美国的一位店面经理曾发现,每周,啤酒和尿布的销量都会有一次同比攀升,一时却搞不清是什么原因。后来,沃尔玛运用商业智能(Business Intelligence,简称BI)技术发现,购买这两种产品的顾客几乎都是25岁到35岁、家中有婴儿的男性,每次购买的时间均在周末。沃尔玛在对相关数据分析后得知,这些人习惯晚上边看球赛、边喝啤酒,边照顾孩子,为了图省事而使用一次性的尿布。得到这个结果后,沃尔玛决定把这两种商品摆放在一起,结果,这两种商品的销量都有了显著增加。 数据库是数据仓库的基础。数据仓库实际上也是由数据库的很多表组成的(这句话明显不成立,数据仓库里表分为事实表和维表,这和数据库里的表还是有本质区别的,组织方式完全不一样,一个是面向主题,一个是面向业务的)。需要把存放大量 *** 作性业务数据的数据库经过筛选、抽取、归纳、统计、转换到一个新的数据库中。然后再进行数据展现。老板关注的是数据展现的结果。
以上就是关于数据仓库的含义,数据仓库和数据库的区别.全部的内容,包括:数据仓库的含义,数据仓库和数据库的区别.、数据库,数据仓库和数据挖掘技术之间的区别、数据库,数据仓库和数据挖掘技术之间的区别等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)