全面解析基于空间数据库的数据挖掘技术[1]

全面解析基于空间数据库的数据挖掘技术[1],第1张

随着GIS技术在各个行业的应用以及数据挖掘 空间数据采集技术 数据库技术的迅速发展 对从空间数据库发现隐含知识的需求日益增长 从而出现了用于在空间数据库中进行知识发现的技术——空间数据挖掘(Spatial Data Mining 本文简称为SDM) 空间数据挖掘是从空间数据库中提取隐含的 用户感兴趣的空间和非空间模式和普遍特征的过程

本文分析了空间数据库知识发现面临的困难 研究了扩展传统数据挖掘方法如分类 关联规则 聚类等到空间数据库的方法 并对空间数据库系统实现技术及空间数据挖掘系统开发模式等进行了比较分析

空间数据库知识发现面临的困难

从空间数据库发现知识的传统途径是通过专家系统 数据挖掘 空间分析等技术来实现的 但是在空间数据库隐含知识的发现方面 只单独依某一种技术 往往存在着这样或那样的缺陷 对于专家系统来讲 专家系统不具备自动学习的能力 GIS中的专家系统也达不到真正的智能系统的要求 仅能利用已有的知识进行推导 对于数据挖掘来讲 空间数据库与普通数据库的在数据存储机制的不同和空间数据的相互依赖性等特点决定了在空间数据库无法直接采用传统的数据挖掘方法 对于空间分析来讲 虽然空间分析中常用的统计方法可以很好地处理数字型数据 但是它存在的问题很多 如统计方法通常假设空间分布的数据间是统计上独立的 而现实中空间对象间一般是相互关联的;其次 统计模型一般只有具有相当丰富领域知识和统计方面经验的统计专家才能用;另外 统计方法对大规模数据库的计算代价非常高 所以在处理海量数据方面能力较低

从上面的分析可以看出 由于空间数据具有诸多特点 因此在空间数据库进行知识发现 需要克服使用单一技术的缺陷 即需要融合多种不同技术 所以研究人员提出了空间数据挖掘技术来解决从空间数据库知识发现隐含知识的难题

空间数据挖掘是多学科和多种技术交综合的新领域 它综合了机器学习 空间数据库系统 专家系统 可移动计算 统计 遥感 基于知识的系统 可视化等领域的有关技术

空间数据挖掘利用空间数据结构 空间推理 计算几何学等技术 把传统的数据挖掘技术扩充到空间数据库并提出很多新的有效的空间数据挖掘方法 与传统空间分析方法相比 它在实现效率 与数据库系统的结合 与用户的交互 发现新类型的知识等方面的能力大大增强 空间数据挖掘能与GIS的结合 使GIS系统具有自动学习的功能 能自动获取知识 从而成为真正的智能空间信息系统

扩展传统数据挖掘方法到空间数据库

空间数据挖掘技术按功能划分可分为三类 描述 解释 预测 描述性的模型将空间现象的分布特征化 如空间聚类 解释性的模型用于处理空间关系 如处理一个空间对象和影响其空间分布的因素之间的关系 预测型的模型用来根据给定的一些属性预测某些属性 预测型的模型包括分类 回归等 以下介绍将几个典型的数据挖掘技术聚类 分类 关联规则扩展到空间数据库的方法

聚类分析方法按一定的距离或相似性测度将数据分成一系列相互区分的组 而空间数据聚类是按照某种距离度量准则 在某个大型 多维数据集中标识出聚类或稠密分布的区域 从而发现数据集的整个空间分布模式 经典统计学中的聚类分析方法对海量数据效率很低 而数据挖掘中的聚类方法可以大大提高聚类效率 文献[ ]中提出两个基于CLARANS聚类算法空间数据挖掘算法SD和ND 可以分别用来发现空间聚类中的非空间特征和具有相同非空间特征的空间聚类 SD算法首先用CLARANS算法进行空间聚类 然后用面向属性归纳法寻找每个聚类中对象的高层非空间描述;ND算法则反之 文献[ ]中提出一种将传统分类算法ID 决策树算法扩展到空间数据库的方法 该算法给出了计算邻近对象非空间属性的聚合值的方法 并且通过对空间谓词进行相关性分析和采用一种逐渐求精的策略使得计算时间复杂度大大降低 Koperski等[ ]将大型事务数据库的关联规则概念扩展到空间数据库 用以找出空间对象的关联规则 此方法采用一种逐渐求精的方法计算空间谓词 首先在一个较大的数据集上用MBR最小边界矩形结构技术对粗略的空间谓词进行近似空间运算 然后在裁剪过的数据集上用代价较高的算法进一步改进挖掘的质量

空间数据库实现技术

空间数据挖掘系统中 空间数据库负责空间数据和属性数据的管理 它的实现效率对整个挖掘系统有着举足轻重的影响 所以下面详细介绍空间数据库的实现技术

根据空间数据库中空间数据和属性数据的管理方式 空间数据库有两种实现模式 集成模式和混合模式 后者将非空间数据存储在关系数据库中 将空间数据存放在文件系统中 这种采用混合模式的空间数据库中 空间数据无法获得数据库系统的有效管理 并且空间数据采用各个厂商定义的专用格式 通用性差 而集成模式是将空间数据和属性数据全部存储在数据库中 因此现在的GIS软件都在朝集成结构的空间数据库方向发展 下面对集成结构的空间数据库技术中的两个主流技术基于空间数据引擎技术的空间数据库和以Oracle Spatial为代表的通用空间数据库进行比较分析

空间数据引擎是一种处于应用程序和数据库管理系统之间的中间件技术 使用不同GIS厂商的客户可以通过空间数据引擎将自身的数据交给大型关系型DBMS统一管理;同样 客户也可以通过空间数据引擎从关系型DBMS中获取其他类型GIS的数据 并转化成客户可使用的方式 它们大多是在Oracle i Spatial(较成熟的空间数据库版本 于 年 月推出)推出之前由GIS软件开发商提供的将空间数据存入通用数据库的解决方案 且该方案价格昂贵

Oracle Spatial提供一个在数据库管理系统中管理空间数据的完全开放体系结构 Oracle Spatial提供的功能与数据库服务器完全集成 用户通过SQL定义并 *** 作空间数据 且保留了Oracle的一些特性 如灵活的n 层体系结构 对象定义 健壮的数据管理机制 Java存储过程 它们确保了数据的完整性 可恢复能力和安全性 而这些特性在混合模式结构中几乎不可能获得 在Oracle Spatial中 用户可将空间数据当作数据库的特征使用 可支持空间数据库的复制 分布式空间数据库以及高速的批量装载 而空间中间件则不能 除了允许使用所有数据库特性以外 Spatial Cart ridge还提供用户使用行列来快速访问数据 使用简单的SQL语句 应用者就能直接选取多个记录 Spatial Cart ridge数据模型也给数据库管理员提供了极大的灵活性 DBA可使用常见的管理和调整数据库的技术

空间数据挖掘系统的开发

通用SDM系统

在空间数据挖掘系统的开发方面 国际上最著名的有代表性的通用SDM系统有 GeoMiner Descartes和ArcView GIS的S PLUS接口 GeoMiner是加拿大Simon Fraser大学开发的著名的数据挖掘软件DBMiner的空间数据挖掘的扩展模块 空间数据挖掘原型系统GeoMiner包含有三大模块 空间数据立方体构建模块 空间联机分析处理(OLAP)模块和空间数据采掘模块 能够进行交互式地采掘并显示采掘结果 空间数据采掘模块能采掘 种类型的规则 特征规则 判别规则和关联规则 GeoMiner采用SAND体系结构 采用的空间数据采掘语言是GMQL 其空间数据库服务器包括MapInfo ESRI/OracleSDE Informix Illustra以及其它空间数据库引擎

Descartes可支持可视化的分析空间数据 它与开发此软件的公司所开发的数据挖掘工具Kepler结合使用 Kepler完成数据挖掘任务且拥有自己的表现数据挖掘结果的非图形界面 Kepler和Descarte动态链接 把传统DM与自动作图可视化和图形表现 *** 作结合起来 实现C 决策树算法 聚类 关联规则的挖掘

ArcView GIS的S PLUS接口是著名的ESRI公司开发的 它提供工具分析空间数据中指定类

除了以上空间数据挖掘系统外 还有GwiM等系统

从以上SDM系统可以看出 它们的共同优点是把传统DM与地图可视化结合起来 提供聚类 分类等多种挖掘模式 但它们在空间数据的 *** 作上实现方式不尽相同 Descartes是专门的空间数据可视化工具 它只有与DM工具Kepler结合在一起 才能完成SDM任务 而GeoMiner是在MapInfo平台上二次开发而成 系统庞大 造成较大的资源浪费 S PLUS的局限在于 它采用一种解释性语言(Script) 其功能的实现比用C和C++直接实现要慢得多 所以只适合于非常小的数据库应用 基于现存空间数据挖掘系统的结构所存在的缺陷 我们提出空间数据挖掘系统一种新的实现方案

lishixinzhi/Article/program/SQL/201311/16146

一)主要研究开发内容

空间数据的获取是GIS建设与运行的基础,数据源及数据获取方式的不同,对数据模型的生成产生很大的影响,如何根据不同的需要,采取合适的方法来获取数据,以及如果保证数据的精确度,最终使可视化程度更接近现实,提高系统的空间查询分析能力。

由于客观世界的多样性和复杂性,可视化要涉及多方面的数据集成,要采用较复杂的数据模型。为了有效的管理和分析三维GIS中的各种数据,要求三维GIS的数据模型有着很强的数据表达能力。三维GIS数据模型不但要满足三维空间分析的需要,也要满足三维图形空间生成和管理的需要。如何选择一种快速而且有效的建模方法来满足不同应用的需求。

如何使人们能够在一个虚拟的三维环境中,用动态交互的方式对场景进行全方位的审视,比如可以从任意角度、距离和精细程度观察场景,可以选择并切换多种运动模式,如行走、驾驶、飞翔等,还可以自己控制浏览的路线等等。

(二)技术关键

1、空间数据采集方法

空间数据采集是GIS建设和运行的基础,广义GIS空间数据不仅包括地理、测绘数据,还包括地质环境与工程设计数据。人类在认识自然和改造自然的过程中,发现和发明了一系列空间定位方法与定位工具,使得人类能够认识地球表面、内部及其外部空间。随着现代测绘技术、地质勘探和地球物理技术的发展,三维空间数据采集技术不断发展和丰富,极大地提高了人类认识自然的能力。

11 空间数据采集方法

空间数据的获取既可以直接在野外通过全站仪或者GPS、激光测距仪等进行测量,也可以间接地从航空影像或者遥感图像以及既有地图上得到。其中地图数字化和摄影测量是大规模空间数据采集最有效的两种方式,应用也最为普遍。

111 地图数字化技术

从现代意义上讲,以往的大比例尺、航测各种比例尺成图等,都是模拟的纸质图、胶片或影像。要进入GIS实现计算机管理,必须是数字化的电子地图。将现有图像负载的大量信息输入数据库的过程称为数字化。广义的数字化泛指将信息转化为计算机能接收的形式的过程,而狭义的数字化则指将地图/影像转变为符合要求的矢量数据结构的过程。目前,地图/影像数字化包括手扶跟踪数字化和扫描数字化两种方式。前者是借助计算机和平板状数字化仪,从已有纸质地图上进行重采样,并形成数字化的坐标点列数据的过程;后者借助计算机和平板式或滚筒式扫描仪,从已有纸质地图上进行重采样,并形成坐标点列数据的过程。

(1)手扶跟踪数字化

手扶跟踪数字化设备包括固定地图用的数字化板和采样用的游标,手扶数字化过程包括以下三步:图件的预处理:在进行图件的数字化之前,应根据图幅内容及图件各要素进行编号。编号时要按照编号系统的统一要求进行,通常以小比例尺分幅或经纬度位置分区域统一编号,以便于图幅的拼接和处理;也可以按行政区域的管理范围分区域编号。在区域编号时,对图斑、结点、链段、独立点均要事先分别编号,而主要链段上的特征点和特征线可在数字化时按顺序递增编号。编号结束后,应做必要的记录,以便查询。记录内容包括:图幅编号、图幅坐标及编号内容等。图幅编号之后,即可在数字化仪上进行图件定位。

图件的数字化:通常,数字化仪采用点模式、线模式和数据流模式采集数据。在点模式下,地图上的各个孤立点通过将游标定位于采集点的位置上并按下按钮进行记录;线模式下,直线段是通过数字化线段的两个端点来记录的,曲线则通过对组成它的一系列直线的数字化来记录;在数据流模式下,曲线是以时间或距离的规定间隔来自动采集曲线上点的坐标值。点模式和线模式的优点是尽可能减少特征点丢失,重采样精度高,缺点是采样效率低,一般适合地籍图、规划图的数字化。数据流模式的优点是重采样效率比较高,缺点是容易丢失特征点,一般适合地形图、等高线图的数字化。

图属关系连接:图件数字化仅仅获得了点、线、面要素的几何坐标数据,还必须输入点、线、面要素的属性信息,并生成点、线、面要素之间的拓扑关系,拓扑关系可以通过全多边形模式、手工模式或自动模式建立。

(2)扫描数字化

扫描数字化是使用扫描仪将整幅地图扫描成像之后,再进行矢量转换或屏幕跟踪的方法。这种方式通常要求对原始材料进行预处理。例如将地图中的各种色彩不同的地理特征先分色,复制在透明薄膜上,然后再进行扫描。目前已有自动的分色扫描仪,也有研究自动分层建库的文献。经过光学扫描仪的栅格扫描方法得到地图栅格数据结构,是以像素方式存储的,在使用之前,需要将它转换成矢量数据结构。矢量数据结构在数据冗余、地图缩放、漫游、存储空间、编辑、修改以及地图分析等方面具有栅格数据所不能比拟的优越性,所以根据系统设计时选择的地图数据存储格式还要进行必要的矢量化处理。栅格数据转换矢量数据的方法主要分为三类,即点状栅格的矢量化,线状栅格的矢量化和面状栅格的矢量化。

GPS是全球定位系统,主要确定点位,GIS是地理信息系统,是个数据处理平台,RS是遥感,主要是提供数据

总的来说GIS是基础,是对各种地理数据组织以及图形图像的展现;

RS是遥感,是获取地理数据或空间数据的一种方式而已

GPS是应用,比如车载GPS终端获取经纬度或车载速度等数据,然后把这些数据传给GIS系统,做相应的展现

以上就是关于全面解析基于空间数据库的数据挖掘技术[1]全部的内容,包括:全面解析基于空间数据库的数据挖掘技术[1]、3D GIS地理信息系统解决方案、GPS、RS、GIS之间的区别和联系等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/web/9613552.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-04-30
下一篇2023-04-30

发表评论

登录后才能评论

评论列表(0条)

    保存