商业智能的数据集成指的是什么意思

商业智能的数据集成指的是什么意思,第1张

数据集成可以大致分为三类,一类是企业独立的信息系统(erp,oa,crm)之间的数据集成,一类是

社交非结构化大数据与传统关系型数据库中的数据集成,还有一类就是单纯对不同格式,结构,交叉重复,错误的数据进行整理合并。

我们可以说数据集成支持了商业智能分析,也可以说是商业智能实施建设数据仓库或者集市从而实现了数据集成的过程。

更多详细的内容可以参照下面这篇文章《论商业智能数据集成对企业发展的重要性》,解释的很详细,希望对你有帮助~~

>

1、数据清洗

数据清洗是通过填补缺失值,平滑或删除离群点,纠正数据的不一致来达到清洗的目的。简单来说,就是把数据里面哪些缺胳膊腿的数据、有问题的数据给处理掉。

总的来讲,数据清洗是一项繁重的任务,需要根据数据的准确性、完整性、一致性、时效性、可信性和解释性来考察数据,从而得到标准的、干净的、连续的数据。

(1)缺失值处理

实际获取信息和数据的过程中,会存在各类的原因导致数据丢失和空缺。针对这些缺失值,会基于变量的分布特性和变量的重要性采用不同的方法。

若变量的缺失率较高(大于80%),覆盖率较低,且重要性较低,可以直接将变量删除,这种方法被称为删除变量;若缺失率较低(小于95%)且重要性较低,则根据数据分布的情况用基本统计量填充(最大值、最小值、均值、中位数、众数)进行填充,这种方法被称为缺失值填充。

对于缺失的数据,一般根据缺失率来决定“删”还是“补”。

(2)离群点处理

离群点(异常值)是数据分布的常态,处于特定分布区域或范围之外的数据通常被定义为异常或噪声。我们常用的方法是删除离群点。

(3)不一致数据处理

实际数据生产过程中,由于一些人为因素或者其他原因,记录的数据可能存在不一致的情况,需要对这些不一致数据在分析前进行清理。例如,数据输入时的错误可通过和原始记录对比进行更正,知识工程工具也可以用来检测违反规则的数据。

2、数据集成

随着大数据的出现,我们的数据源越来越多,数据分析任务多半涉及将多个数据源数据进行合并。数据集成是指将多个数据源中的数据结合、进行一致存放的数据存储,这些源可能包括多个数据库或数据文件。

在数据集成的过程中,会遇到一些问题,比如表述不一致,数据冗余等,针对不同的问题,下面简单介绍一下该如何处理。

(1)实体识别问题

在匹配来自多个不同信息源的现实世界实体时,如果两个不同数据库中的不同字段名指向同一实体,数据分析者或计算机需要把两个字段名改为一致,避免模式集成时产生的错误。

(2)冗余问题

冗余是在数据集成中常见的一个问题,如果一个属性能由另一个或另一组属性“导出”,则此属性可能是冗余的。

(3)数据值的冲突和处理

不同数据源,在统一合并时,需要保持规范化,如果遇到有重复的,要去重。

数据预处理的方法有哪些.中琛魔方大数据分析平台表示在实践中,我们得到的数据可能包含大量的缺失值、异常值等,这对数据分析是非常不利的。此时,我们需要对脏数据进行预处理,以获得标准、干净和连续的数据,这些数据可以用于数据分析、数据挖掘等。

数据审核的内容主要包括以下四个方面:

1、准确性审核。主要是从数据的真实性与精确性角度检查资料,其审核的重点是检查调查过程中所发生的误差。

2、适用性审核。主要是根据数据的用途,检查数据解释说明问题的程度。具体包括数据与调查主题、与目标总体的界定、与调查项目的解释等是否匹配。

3、及时性审核。主要是检查数据是否按照规定时间报送,如未按规定时间报送,就需要检查未及时报送的原因。

4、一致性审核。主要是检查数据在不同地区或国家、在不同的时间段是否具有可比性。

Q: 内存集成有哪些 : ?

内存集成包括:1、缓存集成,2、内存数据库集成,3、内存缓存服务器集成,4、内存分布式缓存集成,5、内存分布式数据库集成,6、内存虚拟机集成,7、内存存储系统集成,8、非关系型数据库集成,9、内存对象存储集成,10、内存键值存储集成。

以上就是关于商业智能的数据集成指的是什么意思全部的内容,包括:商业智能的数据集成指的是什么意思、什么是预处理数据、内存集成有哪些等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/sjk/9350491.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-04-27
下一篇2023-04-27

发表评论

登录后才能评论

评论列表(0条)

    保存