如何处理非结构化数据_工具

非结构化数据已经存在相当长一段时间了，它出现的时间比计算机诞生的时间还要早。像古埃及的象形文字(升体书)、流传已久的各大宗教经文等等，都早在芯片出现以前就有了。而搜索引擎同样也存在了相当长一段，虽然没有印刷文字的历史那么久远。不过，要说揭开保存在这些非结构化数据里的宝贵信息的秘密，就算是用现在已经非常成熟的搜索引擎，也还没有得到什么理想效果。为什么会这样呢进去的是垃圾，出来的必是废物(Garbage In, Garbage Out)对搜索引擎而言，要解开非结构化数据中真正有用的东西，还缺乏一个重要的因素。为了让大家容易理解这个欠缺的因素，这里引用一下IT界里的一句明言“Garbage In, Garbage Out”，简称GIGO，类似于“种瓜得瓜，种豆得豆”的意思，也就是说如果你输入到计算机里的是一些乱七八糟的无用信息，那么计算机输出的结果也是无用的废品，也代表了信息技术最难解决的问题之一，体现了对数据质量的要求。当我们用一个强大的搜索引擎来对基本上未经净化、未经清洗、未经集成的文本数据进行搜索时，会出现什么结果呢就如上面的明言所示，搜索引擎最后返回给终端用户的结果也是未经清洗和集成的。为了使文本搜索变得真正有意义，在执行搜索 *** 作之前，必须把需要对其进行搜索的文本进行集成。如果完成了集成的步骤，那么你输进去的就不再是“垃圾”，而出来的也就不再是“废物”了。互联网对垒企业数据在互联网上搜索信息的时候，要进行数据清洗(data scrubbing)很难。试图清洗和集成遍布在互联网上的数据基本上是徒劳无益之举，就跟要把整个太平洋的水倒出来的难度差不多。但对于企业数据来说，又是另一回事了，原因有二。首先，涉及到企业数据的话，数据量就很有限了——相对于几乎无限的互联网数据而言。其二，和互联网数据不同，几乎所有的企业数据都是和企业的业务相关的。保守而言，互联网上只有很小一部分数据是和任一企业的业务相关的，即使是像IBM这样的规模庞大，经营业务繁杂的企业。因此，集成企业的文本数据，或者说为了搜索和分析而对这些数据进行预处理，其实现的可能性就非常大。1)客户资料——与客户沟通有关的数据2)安全数据——与事故、检修、维护、授权及其他安全相关的数据3)合同数据——与企业具体的合同相关的数据4)举证数据——与诉讼过程相关的数据5)法规数据——与敏感的企业事件和交易等相关的描述数据集成的好处集成企业文本数据的重要好处之一就是，这些数据一旦被集成了，就可以输入到数据库被重复使用。换言之，只需要对企业文本数据进行一次集成，就可以被重复用于搜索和分析 *** 作，不管重复利用多好次都没问题。

在信息社会,信息可以划分为两大类一类信息能够用数据或统一的结构加以表示,我们称之为结构化数据,如数字、符号；而另一类信息无法用数字或统一的结构表示,如文本、图像、声音、网页等,我们称之为非结构化数据结构化数据属于非结构化数据,是非结构化数据的特例

随着网络技术的发展,特别是internet和intranet技术的飞快发展,使得非结构化数据的数量日趋增大这时,主要用于管理结构化数据的关系数据库的局限性暴露地越来越明显因而,数据库技术相应地进入了“后关系数据库时代”,发展进入基于网络应用的非结构化数据库时代所谓非结构化数据库,是指数据库的变长纪录由若干不可重复和可重复的字段组成,而每个字段又可由若干不可重复和可重复的子字段组成简单地说,非结构化数据库就是字段可变的数据库

就是以数据诸如文字，声音，图像等为主要内容，以检索文献资料的内容而不是外表特征的一种检索技术·

主要该系统有TRS系统·天宇系统·等

与其他搜索引擎相比，全文搜索引擎的显著特点是它能够以文中任何一个有检索意义的词作为检索入口，而且取得的检索结果是原始文献，而不是文献线索

随着计算机产业的发展，以计算机存储设备为载体的电子信息愈来愈多，这些信息大致可分为两类：结构化数据和非结构化数据，结构化数据指的是诸如企业财务帐目和生产数据、学生的分数数据等等，非结构化数据的则是一些文本数据、图象声音等多媒体数据等等。据统计，非结构化数据占有整个信息量的80%以上。对于结构化数据，用RDBMS（关系数据库管理系统）技术来管理是目前最好的一种方式。但是由于RDBMS自身底层结构的缘故使得它管理大量非结构化数据显得有些先天不足，特别是查询这些海量非结构化数据的速度较慢。而通过全文检索技术就能高效地管理这些非结构化数据。

经过几年的发展，全文检索从最初的字符串匹配程序已经演进到能对超大文本、语音、图像、活动影像等非结构化数据进行综合管理的大型软件。由于内涵和外延的深刻变化，全文检索系统已成为新一代管理信息系统的代名词，衡量全文检索系统的基本指标也逐渐形成规范。

首先，我们关注的是查全率，即系统在进行某一检索时，检索出的相关资料量与系统资料库中相关资料总量的比率。查准率则是保证我们找到最有用资料的一个关键，是系统在进行某一检索时，检索出的有用资料数量与检索出资料总量的比率。检索速度或者说响应时间是提高工作效率的保障，指的是从提交检索课题到查出资料结果所需的时间。最基本的检索速度是应该达“千万汉字，秒级响应"。还有诸如收录范围（所查找的范围）、用户负担（用户在检索过程中付出精力的总和）、输出形式（输出信息表现形式）等指标也是衡量全文检索系统优劣的要素。

搜索引擎应该是全文检索技术最主要的一个应用。目前，搜索引擎的使用已成为排在收发电子邮件之后的第二大互联网应用技术。搜索引擎起源于传统的信息全文检索理论，即计算机程序通过扫描每一篇文章中的每一个词，建立以词为单位的到排文件，检索程序根据检索词在每一篇文章中出现的频率和每一个检索词在一篇文章中出现的概率，对包含这些检索词的文章进行排序，最后输出排序的结果。全文检索技术是搜索引擎的核心支撑技术。

一个好的检索引擎是一个理想站点的关键。很多人在访问一个站点时喜欢使用站点检索，站点检索应是分类目录导航和全文检索的完美结合，具体包括以下几个方面：

分类目录导航的关键是检索范围，检索范围的限制能使得检索结果不会太多、太滥；

全文检索对于站点检索是必不可少的，在通常情况下能够帮助人们很快地找到所要的网页；

有时利用分类目录导航和全文检索还很难定位到所要的信息，这时就要组合检索辅助；

必须有相关排序功能，因为当检索结果太多时，用户不可能一一浏览，大多数用户只浏览前面几条，没有相关排序，可能准确的检索结果排在后面，用户不能浏览到，而排在前面的检索结果却相关性很少，造成用户的错觉。

此外，我们还要考虑HTML/XML的特殊性、支持大量并发用户突发访问、Web站点的动态特性、要求索引维护效率很高等方面。

目前的技术实现有Lucene，Solr，ElasticSearch等。全文检索过程分为索引、搜索两个过程：

索引(Indexing)

从关系数据库中、互联网上、文件系统采集源数据(要搜索的目标信息)，源数据的来源是非常广泛的。

将源数据采集到一个统一的地方，例如存储系统，要创建索引，将索引创建到一个索引库（文件系统）中，从源数据库中提取关键信息，从关键信息中抽取一个一个词，词和源数据是有关联的。也即创建索引时，词和源数据有关联，索引库中记录了这个关联，如果找到了词就说明找到了源数据（>

新一轮油气资源评价数据库是建立在国家层面上的数据库，数据库设计首先立足于国家能源政策和战略制定的宏观要求，还要结合油气资源评价的工作特征和各个评价项目及资源的具体情况。使用当前最流行和最成熟的数据库技术进行数据库的总体结构设计。

数据库的设计以《石油工业数据库设计规范》为指导标准，以《石油勘探开发数据》为设计基础，借鉴前人的优秀设计理念和思路，参考国内外优秀的资源评价数据库和油气资源数据库的设计技术优势，结合本轮资源评价的具体特点，按照面向对象的设计和面向过程的设计相结合的设计方法，进行数据库的数据划分设计。

油气资源评价数据库要满足新一轮全国油气资源评价工作的常规油气资源评价、煤层气资源评价、油砂资源评价、油页岩资源评价四个油气资源评价的数据需求。进行数据库具体数据内容设计。

并且，数据库的设计要为油气资源评价的快速、动态评价和远程评价工作的需求保留足够数据扩展接口，数据库具有良好开放性、兼容性和可扩充性。

（一）数据划分

数据库内存放的数据将支持资源评价的整个过程。为了能更好地管理库中数据，需要对整个过程中将用到的数据进行分类管理。具体分类方式如下（图4-11）：

图4-11 数据分类示意图

1按照应用类型划分

按照数据在资源评价过程中的应用类型划分，可以划分为基础数据、参数数据和评价结果数据。

基础数据是指从勘探生产活动及认识中直接获取的原始数据，这些数据一般没有经过复杂的处理和计算过程。如分析化验数据、钻井地质数据、盆地基础数据等。这些数据是整个评价工作的基础。

参数数据是指在评价过程中各种评价方法和软件直接使用的参数数据。

评价结果数据是指资源评价中产生的各种评价结果数据，如资源量结果数据、地质评价结果数据等。

2按照评价对象划分

本次评价共分为大区、评价单元、计算单元三个层次，在研究中又使用了盆地、一级构造单元，在评价对象总体考虑中按照评价对象将数据划分为大区、评价单元、计算单元等类型。

3按照获取方式划分

按照获取方式可以将数据分为直接获取、研究获取、间接获取几类。

4按照存储类型划分

按照存储类型可以将数据划分为结构化数据和非结构化数据。

结构化数据是指能够用现有的关系数据库系统直接管理的数据，进一步又可以分为定量数据和定性数据两类。

非结构化数据是指不能用现有的关系数据库系统直接管理和 *** 作的数据，它必须借助于另外的工具管理和 *** 作。如图件数据、文档数据等。

库中数据类型的划分共分六个层次逐次划分，包括：数据存储类型→资源类型→评价对象→应用→获取方式→数据特征。

对于结构化存储的数据在应用层分为三类：基础数据、中间数据和结果数据，基础数据中包含用于类比的基础数据、用于统计分析的基础数据和直接用于公式运算的基础数据；结构化存储的数据在获取方式上可以继续划分，其中，用于公式运算的数据可以细化为专家直接录入、由地质类比获取、通过生产过程获取、通过地质研究过程获取及其他方式。中间数据可以从以下方式获取：标准、统计、类比、参数的关联。结果数据的获取有两种方式：公式运算结果和通过钻井、地质、综合研究等提交的文字报告。

对于非结构化存储的数据在应用层分为两类：图形数据和文档数据。

图形数据在获取方式上可以继续划分成四种方式：通过工程测量数据获取（如地理图件、井位坐标数据等）、通过地质研究过程获取（如沉积相图、构造区划图等）、由综合研究获取（如综合评价图等）、其他方式。

图形数据在表现方式上又可以进一步分为有坐标意义的图形（如构造单元划分图、地理图、井位图等）、数值图（如产烃率曲线图、酐洛根热降解图等）和无坐标含义图（如剖面图）等。

文档数据是指评价过程中产生的各种报告、项目运行记录等。

（二）数据库结构

从业务需求上，根据数据用途、数据类型和数据来源，可将本次的油气资源评价数据库分为三级：基础库、参数库、成果库（图4-12）。其结构如下：

图4-12 数据库结构示意图

1基础库

基础库是油气资源评价工作的最基础的原始数据，有实测数据（物探数据、测井数据、钻井数据、开发数据等）、实验数据和经验数据等。

确定基础数据实际上是一项涉及油田勘探、开发等领域的多学科的复杂工作，是油气资源评价工作的研究过程和研究成果在数据库中的具体表现方式。在设计数据库的过程中，需要与参数研究专家经过多次反复，才能最终确定基础数据库，确保基础数据库能满足目前所有评价工作中计算的需要。

2参数库

参数库用于存储油气资源评价工作所用到的参数数据，评价软件，直接从参数库中提取参数数据，用于计算。参数数据由基础数据汇总而来，也可以由专家根据经验直接得到。

本次评价中所涉及的参数大致可以分为以下几类：①直接应用的参数；②通过标准或类比借用的参数；③通过研究过程或复杂的预处理得到的参数。

3成果库

成果库用于存储资源评价结果，包括各种计算结果、各种文档、电子表格、、图册等数据。

数据库的体系结构采用分布式多层数据库结构，包括三个组成部分：应用服务层、应用逻辑层和数据服务层。

数据库体系结构如图4-13所示。

图4-13 体系结构结构图

（1）应用服务层：应用服务层包含复杂的事务处理逻辑，应用服务层主要由中间件组件构成。中间件是位于上层应用和下层服务之间的一个软件层，提供更简单、可靠和增值服务。并且能够实现跨库检索的关键技术。它能够使应用软件相对独立于计算机硬件和 *** 作系统平台，把分散的数据库系统有机地组合在一起，为应用软件系统的集成提供技术基础，中间件具有标准程序接口和协议，可以实现不同硬件和 *** 作系统平台上的数据共享和应用互 *** 作。而在具体实现上，中间件是一个用API定义的分布式软件管理框架，具有潜在的通信能力和良好的可扩展性能。中间件包含系统功能处理逻辑，位于应用服务器端。它的任务是接受用户的请求，以特定的方式向应用服务器提出数据处理申请，通过执行相应的扩展应用程序与应用服务层进行连接，当得到应用服务器返回的处理结果后提交给应用服务器，再由应用服务器传送回客户端。根据国内各大石油公司具体的需求开发相应的地质、油藏、生产等应用软件功能程序模块和各种算法模块。

（2）应用逻辑层：逻辑数据层是扩展数据服务层逻辑处理层，针对当前的底层数据库的数据结构，根据具体的需求，应用各种数据库技术，包括临时表、视图、存储过程、游标、复制和快照等技术手段从底层数据库中提取相关的数据，构建面向具体应用的逻辑数据库或者形成一个虚拟的数据库平台。逻辑数据层包含底层数据库的部分或全部数据处理逻辑，并处理来自应用服务层的数据请求和访问，将处理结果返回给逻辑数据层。

形成一个虚拟的数据库平台我们可以应用数据库系统中的多个技术来实现。如果系统中的一个节点中的场地或分片数据能够满足当前虚拟数据库，可以在应用服务层中使用大量的查询，生成一个以数据集结果为主的虚拟数据库平台，并且由数据集附带部分数据库的管理应用策略。或者对节点上的数据库进行复制方法进行虚拟数据库的建立。对与需要对多个节点上的数据库进行综合筛选，则要对各个节点上的数据库进行复制，合并各个复制形成一个应用逻辑层，从而建立一个虚拟数据平台。

（3）数据服务层：即数据库服务器层，其中包含系统的数据处理逻辑，位于不同的 *** 作系统平台上，不同数据库平台（异构数据库），具体完成数据的存储、数据的完整性约束。也可以直接处理来自应用服务层的数据请求和访问，将处理结果返回给逻辑数据层或根据逻辑数据层通过提交的请求，返回数据信息和数据处理逻辑方法。

（三）数据建设标准

1评价数据标准

系统数据库中的数据格式、大小、类型遵从国家及行业标准，参考的标准如表4-23。

表4-23 数据库设计参考标准

续表

系统中数据的格式及单位参考《常规油气资源评价实施方案》、《煤层气资源评价实施方案》、《油砂资源评价实施方案》、《油页岩资源评价实施方案》及数据字典。

2图形图件标准

对于地质研究来说，地质类图件是比较重要的。各种地质评价图形遵循以下标准（表4-24）。

表4-24 系统图形遵循的相关标准

系统对图形的要求为必须为带有地理坐标意义的、满足上述标准体系要求的矢量图形，且采用统一的地理底图。图形格式采用：MapGIS图形交换格式、GeoInfo图形格式、ArcInfo图形交换格式、MapInfo图形交换格式和GeoMap图形交换格式。

图件的比例尺要求：

全国性图件：1∶400万或1:600万

大区图件：1:200万

盆地图件：1:40万或1:50万

评价单元图件：1:10万或1:20万

图件的内容要求符合《常规油气资源评价实施方案》、《煤层气资源评价实施方案》、《油砂资源评价实施方案》和《油页岩资源评价实施方案》的规定。

（四）数据内容

数据库中存储的数据包括常规油气相关数据、煤层气相关数据、油砂相关数据和油页岩相关数据；还有可采系数研究涉及的数据，包括研究所需基础数据和研究成果数据；以及趋势预测相关数据。

结构

基础设施层：由支持计算机信息系统运行的硬件、系统软件和网络组成。

资源管理层：包括各类结构化、半结构化和非结构化的数据信息，以及实现信息采集、存储、传输、存取和管理的各种资源管理系统，主要有数据库管理系统、目录服务系统、内容管理系统等。

业务逻辑层：由实现各种业务功能、流程、规则、策略等应用业务的一组信息处理代码构成。

应用表现层：是通过人机交互等方式，将业务逻辑和资源紧密结合在一起，并以多媒体等丰富的形式向用户展现信息处理的结果。

扩展资料：

信息系统的五个基本功能：输入、存储、处理、输出和控制。

1、输入功能：信息系统的输入功能决定于系统所要达到的目的及系统的能力和信息环境的许可。

2、存储功能：存储功能指的是系统存储各种信息资料和数据的能力。

3、处理功能：基于数据仓库技术的联机分析处理(OLAP)和数据挖掘(DM)技术。

4、输出功能：信息系统的各种功能都是为了保证最终实现最佳的输出功能。

参考资料百度百科-信息系统

我们可以把科技信息划分为结构化信息与非结构化信息。

结构化信息是可以数字化的数据信息，可以方便地通过计算机和数据库技术进行管理。

无法完全数字化的信息称为非结构化信息，如文档文件、、图纸资料、缩微胶片等。这些资源中拥有大量的有价值的信息。现在这类非结构化信息正以成倍的速度增长。

另一种定义：

对于来源繁多的信息资料，专业人士根据信息的格式加以划分，将其分为结构化信息和非结构化信息两大类。

结构化信息，我们通常接触的数据库所管理的信息，包括生产、业务、交易、客户信息等方面的记录。

非结构化信息，专业术语为内容，所涵盖的信息更为广泛，可分为：营运内容（operational content）：如合约、发票、书信与采购记录；部门内容（workgroup content）：如文书处理、电子表格、简报档案与电子邮件；Web内容：如HTML与XML等格式的信息；多媒体内容（Rich Media Content）：如声音、影片、图形等。

如果说结构化信息更多的忠实、详实地记录了企业的生产交易活动，是显性的表示，那么非结构化信息则隐性包含了掌握着企业命脉的关键，隐含着许多提高企业效益的机会。对于企业来说，企业内部，以及企业与供应商、客户、合作伙伴和员工数字化共享所有形式的数据资源，已越来越重要。

希望我的回答对你有所帮助！

祝你好运！~

以上就是关于如何处理非结构化数据全部的内容，包括:如何处理非结构化数据、什么是结构化数据，非结构化数据、全文检索技术的特征等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/sjk/9428682.html

如何处理非结构化数据

发表评论

评论列表（0条）