求一些"数据仓库和数据挖掘"的案例_工具

与商业智能相关的词汇有例如数据仓库，数据装载（ETL），数据挖掘（Data Mining），客户关系管理（CRM），SAS，PeopleSoft, SAP等。理清他们之间的关系才能准确制订个人职业发展规划。

到上个世纪九十年代，以数据存储为目的的联机分析处理系统（OLTP）已经发展得相当成熟，关系型数据库的应用已经非常普及，大型企业或部门积累了大量原始数据。这些数据是按照关系型结构存储，在更新，删除，有效存储（少冗余数据）方面表现出色，但在复杂查询方面效率却十分低下。为充分利用已有数据，提供复杂查询，提供更好的决策支持，出现了数据仓库（Data Warehouse）。数据仓库与数据库（这里的数据库指关系型数据库）的区别在于，数据仓库以方便查询（称为主题）为目的，打破关系型数据库理论中标准泛式的约束，将数据库的数据重新组织和整理，为查询，报表，联机分析等提供数据支持。数据仓库建立起来后，定期的数据装载（ETL）成为数据仓库系统一个主要的日常工作。

在数据仓库发展的同时，一项从大量数据中发现隐含知识的技术也在学术领域兴起,这就是数据挖掘。数据挖掘也称为数据库知识发现（Knowledge Discovery in Databases, KDD），就是将高级智能计算技术应用于大量数据中，让计算机在有人或无人指导的情况下从海量数据中发现潜在的，有用的模式（也叫知识）。最初的数据挖掘应用一般需要从组织数据做起，经历算法设计（建模），挖掘，评价，改进等步骤。其中组织整理数据占据大部分时间，大约占到整个数据挖掘项目80%的时间。

数据挖掘是近年来信息爆炸推动下的新兴产物，是从海量数据中提取有用知识的热门技术。传统的交易型系统，九十年代兴起的互连网技术及ERP系统在越来越廉价的存储设备配合下，产生了大量的数据。但与之相配合的数据分析和知识提取技术在相当长一段时间里没有大的进展，使得存储的大量原始数据没有被充分利用，转化成指导生产的“知识”，形成“数据的海洋，知识的荒漠”这样一种奇怪的现象。

数据挖掘(Data Mining)就是从大量数据中发现潜在规律、提取有用知识的方法和技术。因为与数据库密切相关，又称为数据库知识发现(Knowledge Discovery in Databases，KDD)。数据挖掘不但能够学习已有的知识，而且能够发现未知的知识；得到的知识是“显式”的，既能为人所理解，又便于存储和应用，因此一出现就得到各个领域的重视。从80年代末的初露头角到90年代末的广泛应用，以数据挖掘为核心的商业智能(BI)已经成为IT及其它行业中的一个新宠。目前数据挖掘技术在零售业的货篮数据（Basket data）分析、金融风险预测、产品产量、质量分析、分子生物学、基因工程研究、Internet站点访问模式发现以及信息搜索和分类等许多领域得到了成功的应用。如果你访问著名的亚马逊网上书店(>

方法是指：

1根据挖掘的数据库类型分类：数据挖掘系统可以根据挖掘的数据库类型分类。数据库系统本身可以根据不同的标准（如数据模型、数据类型或所涉及的应用）分类，每一类可能需要自己的数据挖掘技术。这样，数据挖掘系统就可以相应分类。

2根据挖掘的知识类型分类：数据挖掘系统可以根据所挖掘的知识类型分类，即根据数据挖掘的功能分类，如特征化、区分、关联和相关分析、分类、预测、聚类、离群点分析和演变分析，一个综合的数据挖掘系统通常提供多种和/或集成的数据挖掘功能。

此外，数据挖掘系统还可以根据所挖掘的知识的粒度或抽象层进行区分，包括广义知识（高抽象层）、原始层知识（原始数据层）或多层知识（考虑若干抽象层），一个高级数据挖掘系统应当支持多抽象层的知识发现。

数据挖掘系统还可以分类为挖掘数据的规则性（通常出现的模式）与挖掘数据的奇异性（如异常或离群点）。一般地概念描述、关联和相关分析、分类、预测和聚类挖掘数据的规则性，将离群点作为噪声排除。

3根据所用的技术类型分类：数据挖掘系统也可以根据所用的数据挖掘技术分类。

这些技术可以根据用户交互程度（例如自动系统、交互探查系统、查询驱动系统），或所用的数据分析方法（例如面向数据库或面向数据仓库的技术、机器学习、统计学、可视化、模式识别、神经网络等）描述。

4根据应用分类：数据挖掘系统也可以根据其应用分类。例如，可能有些数据挖掘系统特别适合金融、电信、DNA、股票市场、e-mail等，不同的应用通常需要集成对于该应用特别有效的方法。因此，泛化的全能的数据挖掘系统可能并不适合特定领域的挖掘任务。

数据挖掘（英语：Datamining），又译为资料探勘、数据采矿。它是数据库知识发现（英语：Knowledge-DiscoveryinDatabases，简称：KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。南邵IT培训发现数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统（依靠过去的经验法则）和模式识别等诸多方法来实现上述目标。

数据挖掘基于数据库理论，机器学习，人工智能，现代统计学的迅速发展的交叉学科，在很多领域中都有应用。涉及到很多的算法，源于机器学习的神经网络，决策树，也有基于统计学习理论的支持向量机，分类回归树，和关联分析的诸多算法。数据挖掘的定义是从海量数据中找到有意义的模式或知识。

大数据（bigdata），指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法（抽样调查）这样的捷径，而采用所有数据进行分析处理。大数据的5V特点（IBM提出）：Volume（大量）、Velocity（高速）、Variety（多样）、Value（价值）、Veracity（真实性）。

随着GIS技术在各个行业的应用以及数据挖掘空间数据采集技术数据库技术的迅速发展对从空间数据库发现隐含知识的需求日益增长从而出现了用于在空间数据库中进行知识发现的技术——空间数据挖掘(Spatial Data Mining 本文简称为SDM) 空间数据挖掘是从空间数据库中提取隐含的用户感兴趣的空间和非空间模式和普遍特征的过程

本文分析了空间数据库知识发现面临的困难研究了扩展传统数据挖掘方法如分类关联规则聚类等到空间数据库的方法并对空间数据库系统实现技术及空间数据挖掘系统开发模式等进行了比较分析

空间数据库知识发现面临的困难

从空间数据库发现知识的传统途径是通过专家系统数据挖掘空间分析等技术来实现的但是在空间数据库隐含知识的发现方面只单独依某一种技术往往存在着这样或那样的缺陷对于专家系统来讲专家系统不具备自动学习的能力 GIS中的专家系统也达不到真正的智能系统的要求仅能利用已有的知识进行推导对于数据挖掘来讲空间数据库与普通数据库的在数据存储机制的不同和空间数据的相互依赖性等特点决定了在空间数据库无法直接采用传统的数据挖掘方法对于空间分析来讲虽然空间分析中常用的统计方法可以很好地处理数字型数据但是它存在的问题很多如统计方法通常假设空间分布的数据间是统计上独立的而现实中空间对象间一般是相互关联的;其次统计模型一般只有具有相当丰富领域知识和统计方面经验的统计专家才能用;另外统计方法对大规模数据库的计算代价非常高所以在处理海量数据方面能力较低

从上面的分析可以看出由于空间数据具有诸多特点因此在空间数据库进行知识发现需要克服使用单一技术的缺陷即需要融合多种不同技术所以研究人员提出了空间数据挖掘技术来解决从空间数据库知识发现隐含知识的难题

空间数据挖掘是多学科和多种技术交综合的新领域它综合了机器学习空间数据库系统专家系统可移动计算统计遥感基于知识的系统可视化等领域的有关技术

空间数据挖掘利用空间数据结构空间推理计算几何学等技术把传统的数据挖掘技术扩充到空间数据库并提出很多新的有效的空间数据挖掘方法与传统空间分析方法相比它在实现效率与数据库系统的结合与用户的交互发现新类型的知识等方面的能力大大增强空间数据挖掘能与GIS的结合使GIS系统具有自动学习的功能能自动获取知识从而成为真正的智能空间信息系统

扩展传统数据挖掘方法到空间数据库

空间数据挖掘技术按功能划分可分为三类描述解释预测描述性的模型将空间现象的分布特征化如空间聚类解释性的模型用于处理空间关系如处理一个空间对象和影响其空间分布的因素之间的关系预测型的模型用来根据给定的一些属性预测某些属性预测型的模型包括分类回归等以下介绍将几个典型的数据挖掘技术聚类分类关联规则扩展到空间数据库的方法

聚类分析方法按一定的距离或相似性测度将数据分成一系列相互区分的组而空间数据聚类是按照某种距离度量准则在某个大型多维数据集中标识出聚类或稠密分布的区域从而发现数据集的整个空间分布模式经典统计学中的聚类分析方法对海量数据效率很低而数据挖掘中的聚类方法可以大大提高聚类效率文献[ ]中提出两个基于CLARANS聚类算法空间数据挖掘算法SD和ND 可以分别用来发现空间聚类中的非空间特征和具有相同非空间特征的空间聚类 SD算法首先用CLARANS算法进行空间聚类然后用面向属性归纳法寻找每个聚类中对象的高层非空间描述;ND算法则反之文献[ ]中提出一种将传统分类算法ID 决策树算法扩展到空间数据库的方法该算法给出了计算邻近对象非空间属性的聚合值的方法并且通过对空间谓词进行相关性分析和采用一种逐渐求精的策略使得计算时间复杂度大大降低 Koperski等[ ]将大型事务数据库的关联规则概念扩展到空间数据库用以找出空间对象的关联规则此方法采用一种逐渐求精的方法计算空间谓词首先在一个较大的数据集上用MBR最小边界矩形结构技术对粗略的空间谓词进行近似空间运算然后在裁剪过的数据集上用代价较高的算法进一步改进挖掘的质量

空间数据库实现技术

空间数据挖掘系统中空间数据库负责空间数据和属性数据的管理它的实现效率对整个挖掘系统有着举足轻重的影响所以下面详细介绍空间数据库的实现技术

根据空间数据库中空间数据和属性数据的管理方式空间数据库有两种实现模式集成模式和混合模式后者将非空间数据存储在关系数据库中将空间数据存放在文件系统中这种采用混合模式的空间数据库中空间数据无法获得数据库系统的有效管理并且空间数据采用各个厂商定义的专用格式通用性差而集成模式是将空间数据和属性数据全部存储在数据库中因此现在的GIS软件都在朝集成结构的空间数据库方向发展下面对集成结构的空间数据库技术中的两个主流技术基于空间数据引擎技术的空间数据库和以Oracle Spatial为代表的通用空间数据库进行比较分析

空间数据引擎是一种处于应用程序和数据库管理系统之间的中间件技术使用不同GIS厂商的客户可以通过空间数据引擎将自身的数据交给大型关系型DBMS统一管理;同样客户也可以通过空间数据引擎从关系型DBMS中获取其他类型GIS的数据并转化成客户可使用的方式它们大多是在Oracle i Spatial(较成熟的空间数据库版本于年月推出)推出之前由GIS软件开发商提供的将空间数据存入通用数据库的解决方案且该方案价格昂贵

Oracle Spatial提供一个在数据库管理系统中管理空间数据的完全开放体系结构 Oracle Spatial提供的功能与数据库服务器完全集成用户通过SQL定义并 *** 作空间数据且保留了Oracle的一些特性如灵活的n 层体系结构对象定义健壮的数据管理机制 Java存储过程它们确保了数据的完整性可恢复能力和安全性而这些特性在混合模式结构中几乎不可能获得在Oracle Spatial中用户可将空间数据当作数据库的特征使用可支持空间数据库的复制分布式空间数据库以及高速的批量装载而空间中间件则不能除了允许使用所有数据库特性以外 Spatial Cart ridge还提供用户使用行列来快速访问数据使用简单的SQL语句应用者就能直接选取多个记录 Spatial Cart ridge数据模型也给数据库管理员提供了极大的灵活性 DBA可使用常见的管理和调整数据库的技术

空间数据挖掘系统的开发

通用SDM系统

在空间数据挖掘系统的开发方面国际上最著名的有代表性的通用SDM系统有 GeoMiner Descartes和ArcView GIS的S PLUS接口 GeoMiner是加拿大Simon Fraser大学开发的著名的数据挖掘软件DBMiner的空间数据挖掘的扩展模块空间数据挖掘原型系统GeoMiner包含有三大模块空间数据立方体构建模块空间联机分析处理(OLAP)模块和空间数据采掘模块能够进行交互式地采掘并显示采掘结果空间数据采掘模块能采掘种类型的规则特征规则判别规则和关联规则 GeoMiner采用SAND体系结构采用的空间数据采掘语言是GMQL 其空间数据库服务器包括MapInfo ESRI/OracleSDE Informix Illustra以及其它空间数据库引擎

Descartes可支持可视化的分析空间数据它与开发此软件的公司所开发的数据挖掘工具Kepler结合使用 Kepler完成数据挖掘任务且拥有自己的表现数据挖掘结果的非图形界面 Kepler和Descarte动态链接把传统DM与自动作图可视化和图形表现 *** 作结合起来实现C 决策树算法聚类关联规则的挖掘

ArcView GIS的S PLUS接口是著名的ESRI公司开发的它提供工具分析空间数据中指定类

除了以上空间数据挖掘系统外还有GwiM等系统

从以上SDM系统可以看出它们的共同优点是把传统DM与地图可视化结合起来提供聚类分类等多种挖掘模式但它们在空间数据的 *** 作上实现方式不尽相同 Descartes是专门的空间数据可视化工具它只有与DM工具Kepler结合在一起才能完成SDM任务而GeoMiner是在MapInfo平台上二次开发而成系统庞大造成较大的资源浪费 S PLUS的局限在于它采用一种解释性语言(Script) 其功能的实现比用C和C++直接实现要慢得多所以只适合于非常小的数据库应用基于现存空间数据挖掘系统的结构所存在的缺陷我们提出空间数据挖掘系统一种新的实现方案

lishixinzhi/Article/program/SQL/201311/16146

基础理论：进程、线程、纤程、死锁、事务、日志、范式理论，这些知识建议看看数据库概论

实用技能里面：T-SQL语法，PL-SQL语法（T-sql在mssqlserver的帮助文档里就有，plsql在oracle的帮助文档里就有）

主流数据库的使用：/2005/2008，Oracle9i/10g，mysql5等等，各数据库的帮助文档里都有使用方法，小技巧之类的也可以下载电子书或者书店里随便选，到处都是。

技能提升：数据库运维、HA(高可用)、数据挖掘、数据仓库，这些知识内容，除了耐心看书以外，还要耐心工作积累实战经验。

以上就是关于求一些"数据仓库和数据挖掘"的案例全部的内容，包括:求一些"数据仓库和数据挖掘"的案例、描述性挖掘和数据挖掘的核心区别、数据挖掘是什么意思等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/sjk/9758787.html

求一些"数据仓库和数据挖掘"的案例

发表评论

评论列表（0条）