
(一)数据源是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于RDBMS中的各种业务处理数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等等;(二)数据的存储与管理是整个数据仓库系统的核心。数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)。(三)OLAP(联机分析处理)服务器对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。其具体实现可以分为:ROLAP(关系型在线分析处理)、MOLAP(多维在线分析处理)和HOLAP(混合型线上分析处理)。ROLAP基本数据和聚合数据均存放在RDBMS之中;MOLAP基本数据和聚合数据均存放于多维数据库中;HOLAP基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。(四)前端工具主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以数据挖掘及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具主要针对数据仓库。-----------------------------由安信公司历经4年研发的监测数据管理平台,采用独创的技术架构,在B/S架构上融入C/S模式,囊括了实验室管理系统、监测站公自动化、监测站综合业务管理系统、监测数据上报系统等诸多系统,把各个系统有机融合在一起,不同的业务科室展现不同工作页面,内部却又实现了数据共享。系统页面简单大方, *** 作轻松方便,在不增加实验室工作量的情况下,能够让监测数据进入系统中,原始记录单等诸多实验室报表可协助生成(不完全生成,需人工签字),随后科室比如质控、综合、主管领导即可对数据进行多层次利用查询,并自动生成各类监测报表。系统采用流程化工作模式,对不同监测任务实施不同工作流,保证工作的科学和严谨,对于单位内部职工每天待事宜清晰显示,让内部职工对每天工作都一目了然。系统工作流程可自由配置,工作单可根据按照配置流转相应单位,并且可以对工作流程进行追踪查询,作为领导可以查看到每一项安排工作的流转情况、完成情况和监测结果。系统支持短信功能,对于领导等科室一些紧急任务可在系统下达后,立刻用短信通知相应工作人员,对于单位紧急通知等也可以进行短信通知,让监测站的工作更加快捷高效。系统提供深层次数据挖掘功能,能够根据监测数据,快速提供某监测点的多方位数据,比如历年来某月COD的监测数据变化,几年来某项监测数据的月平均值变化等等,为监测站领导决策提供科学依据。系统生成报表功能强大,除自身已包含众多报表外,可迅速生成WORD下各种客户要求的监测报表,并且查阅维护方便。系统作为平台拓展性强,可以融合其他系统与平台上,并且后期功能升级方便不影响前期功能。目前系统已经在多个地方监测站运行,从使用效果来看是比较实用的。
1 制定调查资源整合方案
通过合理编码方式理顺各类数据间的关系,保证不同类别数据的紧密性,完整体现地学资料数据的多源性和空间性。
2数据库建设标准
根据资源整合方案,利用关系数据库技术和空间数据库技术,建立CO2地质储存调查数据库,有效储存和管理各种空间数据和属性数据,保证数据间的逻辑合理性,达到充分利用调查数据,并快速输出数据的目的。
3数据质量检查标准及方法
根据资源整合方案,制定数据质量标准,开发相应质量检查软件,对数据进行质量检查,确保入库数据的有效性和合法性。
如何提高数据质量
大数据时代带来了海量、多样、非结构化的数据,我们得以进行更加广泛且深入的分析,但这必须建立在高质量的数据上才有意义。本期以企业级的视角,介绍数据质量的评价、提升与监控。
大数据的时代,数据资产及其价值利用能力逐渐成为构成企业核心竞争力的关键要素;然而,大数据应用必须建立在质量可靠的数据之上才有意义,建立在低质量甚至错误数据之上的应用有可能与其初心南辕北辙背道而驰。因此,数据质量正是企业应用数据的瓶颈,高质量的数据可以决定数据应用的上限,而低质量的数据则必然拉低数据应用的下限。
数据质量一般指数据能够真实、完整反映经营管理实际情况的程度,通常可在以下几个方面衡量和评价:
准确性:数据在系统中的值与真实值相比的符合情况,数据应符合业务规则和统计口径。常见数据准确性问题如:
与实际情况不符:数据来源存在错误,难以通过规范进行判断与约束;
与业务规范不符:在数据的采集、使用、管理、维护过程中,业务规范缺乏或执行不力,导致数据缺乏准确性。
完整性:数据的完备程度。常见数据完整性问题如:
系统已设定字段,但在实际业务 *** 作中并未完整采集该字段数据,导致数据缺失或不完整;
系统未设定字段:存在数据需求,但未在系统中设定对应的取数字段。
一致性:系统内外部数据源之间的数据一致程度,数据是否遵循了统一的规范,数据集合是否保持了统一的格式。常见一致性问题如:
缺乏系统联动或联动出错:系统间应该相同的数据却不一致,缺乏必要的联动和核对。
及时性:数据在采集、传送、处理等环节快速支持应用的程度,考察数据的时间特性对应用的满足程度。及时性关系到系统能否在规定的时间内获取到系统需要的特定时间产生的数据,以完成系统功能。常见及时性问题如:
缺乏时效性:未按照规定的数据更新时间要求对数据进行更新。
可用性:用来衡量数据项整合和应用的可用程度。常见可用性问题如:
缺乏应用功能,没有相关的数据处理、加工规则或数据模型的应用功能,获取目标数据;
缺乏整合共享,数据分散,不易有效整合和共享。
其他衡量标准再如有效性可考虑对数据格式、类型、标准的遵从程度,合理性可考虑数据符合逻辑约束的程度。此前一项对某企业数据质量问题进行的调研显示常见数据质量问题中准确性问题占33%,完整性问题占28%,可用性问题占24%,一致性问题占8%,在一定程度上代表了国内企业面临的数据问题。
提高数据质量的首要任务是定义一套标准化的数据规范,对具体数据项的定义、口径、格式、取值、单位等进行规范说明,形成对该数据项的具体质量要求。依托这套规范作为衡量和提高数据质量的标尺,可在数据采集、加工和应用的各环节对关键数据项进行预防性或监测性的核检。广义的企业级数据字典可以作为数据标准化规范的载体,对企业运营过程中涉及的数据项名称、业务定义和规则等要素进行收录、规范和编制,对数据项描述信息进行标准化处理,统一定义对安全性和数据质量的要求,进而为业务运营提供可靠的数据服务、提高整体数据质量奠定基础。理想情况下广义的企业级数据字典是完备的,企业各系统全部数据项都被数据字典收录,不存在同名不同义或同义不同名的情况。与此相对,狭义的数据字典通常是针对单一系统的技术属性标准,为单一系统的开发和应用服务。
企业级数据字典通常分为三层:数据项、值域和域取值。数据项层面的规范主要包括名称、业务规则定义、数据安全要求和数据质量要求等。
数据项名称:包括数据项的中文名称、英文名称和英文简称,含义不同的数据项名称不同,物理数据库应沿用数据字典定义的全局唯一的英文简称对字段命名
业务规则定义:包括数据的业务含义、转换规则、加工规则等安全元数据:包含数据来源、所有者和访问权限等安全要求的定义
数据质量要求:在数据规范定义基础之上,提出满足业务需要的数据长度、格式、取值、数据处理、勾稽关系等要求,以此作为数据质量管理的落脚点
值域可细分为代码域、编码域、文本域、金额域、数值域、时间域等。例如“出生地”数据项对应值域为“行政区划”代码域,引用国家标准GB-T2260-2016《中华人民共和国行政区划代码》,对应的域取值为该国标定义的代码表。再如“借记卡号”数据项对应值域为“19位卡号”编码域,定义16位卡号和19位卡号两种编码方式,不需列举对应具体的域取值。
数据质量管理是指在数据创建、加工、使用和迁移等过程中,通过开展数据质量定义、过程控制、监测、问题分析和整改、评估与考核等一系列管理活动,提高数据质量以满足业务要求。数据质量管理工作遵循业务引领的原则,确定重点质量管控范围,并动态调整阶段性管控重点,持续优化。可按照“谁创建、谁负责;谁加工、谁负责;谁提供、谁负责”的原则界定数据质量管理责任,由数据流转环节的各责任方对管辖范围内的数据质量负责。对数据质量规则优先采取系统程序的自动化控制措施,并尽可能前移管控点,从源头上控制数据质量。
数据质量监控点通常针对关键数据项设置实施,定义数据质量监控规则,生成监控报警,按严重性等级分级报告,由相应层级进行处理和响应。关键数据项根据经验判断,一般影响较广如涉及多业务条线,或应用于关键业务环节如合约签订、会计核算、绩效分析、产品定价、资金收付等,或应用于内部经营管理、对外信息披露和行业监管要求,例如财务报告数据和新资本协议实施中明确提出的重要指标项。
数据质量监控点的控制手段分为预防型和监测型:
预防性控制防止错误数据的产生,一般部署在数据采集点,用于控制手工输入的源数据,以及批量导入的源数据校验:
数据输入校验:例如贷款利率的输入校验;
数据阈值:例如数据非空,数据取值超出值域定义合理范围,数据格式不符合标准等;
质量控制方式:系统自动校验/双人手工复核;
系统校验方式:强制,如不符合规则无法通过。
监测型控制监测错误数据,发现数据质量问题进行报警。一般部署在数据加工和应用环节,验证数据完整性、一致性和准确性等:
数据输出校验:例如贷款余额总分核对
数据一致性:例如交易头寸与总帐系统记录的交易头寸一致
质量控制方式:系统自动校验
系统校验方式:非强制,错误及差异提示
对选定的关键数据项,需定义数据质量规则以及数据质量等级。数据质量等级可利用“阈值”和“容忍度”进行分级:
良好:数据项质量评分高于“阈值”
可容忍:数据项质量评分低于“阈值”,但高于“容忍度”
报警:数据项质量评分低于“容忍度”
严重报警:数据项的质量问题将带来非常严重的影响,人工经验判断
关键数据项监控点的详细信息应在企业级数据字典中维护更新,与其开发、实施和测试情况保持同步。
在进行数据质量分等级报告及响应纠错时应遵守如下原则:
及时性。对导致数据质量等级进入“可容忍”、“报警”和“严重报警”状态的数据质量事件能够及时发现、报告和处理;
规范性:针对分级别的数据质量问题,汇报至利益相关方,配置相应资源;
高效性:数据质量问题,在分级别规定时间内被解决。应按照“可容忍”、“报警”和“严重报警”酌情规定响应时间;
有序性。在开展数据质量分等级报告工作时,应有序上报、统一领导、分级负责。
部署在UDP层面的数据质量监控程序实时或定期监测关键数据项的质量,对其数据质量进行评分,通过比较该监控点的“阈值”和“容忍度”,将数据质量进行分级,对于非“良好”的评价结果,数据质量监控程序将发送报警消息通知数据质量管理人员。报警消息内容包括问题定位头文件和具体描述。数据质量管理人员根据报警信息调查问题数据项,验证报警内容,生成预警信息通知下游用户,同时填制纠错工单通知相关责任人员。相关责任人员依据纠错通知提示的具体内容,开展数据质量问题调查,提出数据质量改进需求和解决方案,由实施运维团队在数据应用层面修正,或在数据采集和集成层面修正。若纠错告警问题由数据质量要求过于严苛或控制规则错误引起,应修改关键数据项清单及其相关监控规则,并由实施运维团队修改或取消已部署的对应监控点。
数据质量包括数据质量控制和数据治理。
数据是组织最具价值的资产之一。企业的数据质量与业务绩效之间存在着直接联系,高质量的数据可以使公司保持竞争力并在经济动荡时期立于不败之地。有了普遍深入的数据质量,企业在任何时候都可以信任满足所有需求的所有数据。
一个战略性和系统性的方法能帮助企业正确研究企业的数据质量项目,业务部门与 IT 部门的相关人员将各自具有明确角色和责任,配备正确的技术和工具,以应对数据质量控制的挑战。
扩展资料:
控制方法:
1、探查数据内容、结构和异常
第一步是探查数据以发现和评估数据的内容、结构和异常。通过探查,可以识别数据的优势和弱势,帮助企业确定项目计划。一个关键目标就是明确指出数据错误和问题,例如将会给业务流程带来威胁的不一致和冗余。
2、建立数据质量度量并明确目标
Informatica的数据质量解决方案为业务人员和IT人员提供了一个共同的平台建立和完善度量标准,用户可以在数据质量记分卡中跟踪度量标准的达标情况,并通过电子邮件发送URL来与相关人员随时进行共享。
3、设计和实施数据质量业务规则
明确企业的数据质量规则,即,可重复使用的业务逻辑,管理如何清洗数据和解析用于支持目标应用字段和数据。业务部门和IT部门通过使用基于角色的功能,一同设计、测试、完善和实施数据质量业务规则,以达成最好的结果。
4、将数据质量规则构建到数据集成过程中
Informatica Data Quality支持普遍深入的数据质量控制,使用户可以从扩展型企业中的任何位置跨任何数量的应用程序、在一个基于服务的架构中作为一项服务来执行业务规则。
数据质量服务由可集中管理、独立于应用程序并可重复使用的业务规则构成,可用来执行探查、清洗、标准化、名称与地址匹配以及监测。
5、检查异常并完善规则
在执行数据质量流程后,大多数记录将会被清洗和标准化,并达到企业所设定的数据质量目标。然而,无可避免,仍会存在一些没有被清洗的劣质数据,此时则需要完善控制数据质量的业务规则。Informatica Data Quality可捕获和突显数据质量异常和异常值,以便更进一步的探查和分析。
5、对照目标,监测数据质量
数据质量控制不应为一次性的“边设边忘”活动。相对目标和在整个业务应用中持续监测和管理数据质量对于保持和改进高水平的数据质量性能而言是至关重要的。
Informatica Data Quality包括一个记分卡工具,而仪表板和报告选项则具备更为广泛的功能,可进行动态报告以及以更具可视化的方式呈现。
参考资料来源:百度百科——数据质量
3个环节。
1、数据采集
在大数据时代,当新的数据产生或者现有数据出现更新时,组织机构要及时对内部数据与外部数据进行采集。并且在数据采集之前,为了挖掘出更多的数据价值要规划好数据采集策略。
策略一:当业务出现数据需求时,才进行数据采集与整合。优点是只需较小成本即可满足业务需求,缺点是可能无法获得额外的数据价值。
策略二:将所有与组织机构相关的数据,都采集与整合。此采集策略需要投入较多人力、技术与存储的资源成本投入,需要对数据进行甄选,从中挖掘出隐藏的数据价值,更好地服务大众,支撑商业决策和发展规划。
2、数据治理
数据治理的整个流程包括实时计算存储、数据标准管理、数据安全管理、数据质量管理、数据资产管理主数据管理、元数据管理、数据集成、数据交换等等模块。
在此过程中,睿治智能数据治理平台将采集到数据库中的数据经过传输、加载、清洗、转换和整合处理,将散、乱、差、标准不统一的低质量数据整合成结构化标准统一的高质量数据;还支持自定义调度和图形化监控,实现统一调度、统一监控,满足运维可视化需求,提高运维管理工作效率。
并且数据安全管理贯穿于数据治理全过程,提供对隐私数据的加密、脱敏、模糊化处理、数据库授权监控等多种数据安全管理措施,全方位保障数据的安全运作。
3、分析与应用
大数据建设的目的在于数据分析与应用,只有进行分析与应用,才能体现数据价值。亿信华辰深耕商务智能和大数据领域15年,着眼于打造数据全生命周期的智能化产品线,致力于帮助企业和政府解决数据应用难题,实现企业生产力和政府治理能力的数字化转型,让数据驱动进步。在政务、金融、能源、卫生等领域,让数据真正的实现了价值最大化。
一、编写目的
建立山东半岛城市群地质-生态环境空间数据库,是“山东半岛城市群地区地质-生态环境综合调查评价及可持续发展研究”项目的设计要求,而山东半岛城市群地质-生态环境空间数据库建设,涉及地质、环境、水文、矿产等专业,并涉及单位较多,需要提交入库的数据也较多,为了指导和规范数据库项目的建设,特编写本指南,重点从建库的数据整理与格式转换阶段规范工作流程,明确最终提交成果,同时对元数据的填写做出了详细规定,本指南对山东半岛城市群空间数据库建设具有指导作用。
二、适用范围
本指南适用于山东半岛城市群地质-生态环境空间数据库建设工作。
三、编写依据及参考标准
1国家及行业标准
GB/T2260—1999中华人民共和国行政区划代码
GB/T17798—1999地球空间数据交换格式
GB/T13923—92国土基础信息数据分类与代码
GB/T17766—1999固体矿产资源/储量分类
GB/T13989—92国家基本比例尺地形图分幅和编号
GB/T9649—88地质矿产术语分类代码
GB/T964916—1998地质矿产术语分类代码矿床学
DZ/T0197—1997数字化地质图图层及属性文件格式
2部门标准
GX199900X-200X国土资源信息高层分类编码及数据文件命名规则国土资源部省级矿产资源规划编制指南国
国土资源部矿产资源储量数据库标准
中国地质调查局空间数据库工作指南20版
版山东半岛城市群地质-生态环境空间数据库建库标准(试行稿)
四、数据库框架设计
1数据库需求分析
山东半岛城市群数据库是在“山东半岛城市群生态环境地质”项目研究成果的基础上研制、基于Arcinfo平台的空间数据库系统,其总体目标是存储和管理“山东半岛城市群生态环境地质”项目研究成果的资料、信息、地图及提供查询服务,为山东半岛城市群的空间布局管理、规划和决策以及重大项目建设和经济社会可持续发展提供依据。为达成这一总体目标,对数据库建设的需求应该包括以下方面:
1)对项目成果图件及其他数据存储管理的需求,需要构建一个符合要求的空间数据库。
2)提供对山东半岛城市群生态环境地质研究成果的管理、查询与展示。
3)提供山东半岛城市群生态、环境的现状与分级分布情况。
4)组织山东半岛城市群生态环境专题图件,直观地为决策咨询提出相应的对策和解决方案。
(1)功能需求
通过需求分析,得到软件的功能需求。除基本的数据输入、编辑和管理功能外,本系统还应具有以下4个方面的要求:
1)对现有地质-生态环境问题的展示、查询;
2)地质-生态环境质量现状的分析;
3)对地质-生态环境与可持续发展关系的分析评价;
4)保持经济增长和地质-生态环境相协调的对策与建议。
(2)性能需求
本数据库系统的性能需求为:
1)系统稳定性好;
2)可扩展性好;
3) *** 作简单;
4)可移植性好;
5)保密性。
根据“山东半岛城市群地区地质-生态环境综合调查评价及可持续发展研究”项目需求分析,数据库涉及的基础图件和数据、项目研究的成果数据如下:
1)基础地理、地质图件,采用1∶20万的地理底图和经过简化的地质底图。
2)各专题项目编汇的成果图件,包括:
山东半岛城市群地区地质图;
山东半岛城市群地区卫星遥感影像图;
山东半岛城市群地区区域稳定性综合评价图;
山东半岛城市群地区土地资源环境质量评价图;
山东半岛城市群地区矿产资源综合评价图;
山东半岛城市群地区地表水评价图;
山东半岛城市群地区地下水环境评价图;
山东半岛城市群地区海岸带地质灾害分布图;
山东半岛城市群地区生态环境综合评价图;
山东半岛城市群地区地质灾害易发区分布图;
山东半岛城市群地区地质生态与经济可持续发展对策图;
烟台地区地壳稳定性评价分区图;
烟台地区地质-生态环境分析与评价图;
烟台地区生态功能区划与生态市建设规划图;
青岛地区地壳稳定性评价分区图;
青岛地区海岸带地质环境质量评价图;
青岛地区地质-生态环境评价分区图。
3)属性数据;
4)文字报告;
5)专题图件数据。
2数据库系统架构
根据以上对数据库需求的分析,结合目前项目的需要和经费情况,采用的系统架构见图12-1。
图12-1 数据库系统架构
本项目采用 ArcGIS Desktop 来搭建系统平台,用以实现定义好的空间数据和非空间数据的存储和管理。系统的核心采用地理数据库 GeoDataBase 体系结构。在后台通过 ArcCat-alog 应用模块来组织和管理所有的 GIS 信息,比如地图、数据集、模型、元数据、服务等; 通过 ArcToolBox 工具来完成数据转换、叠加处理、地理编码、统计分析和投影变换等数据处理。
客户端采用定制的 ArcMap,用以完成数据的显示、分析和编辑。另外可以通过 Arc-GIS 的扩展模块来实现对空间数据进行高效率的可视化和分析; 用 ArcGIS Spatial Analyst实现栅格数据的显示和处理。ArcGIS Desktop 系统平台表现示例见图 12 -2。
在系统数据库建成之后,如项目的后期需要进行数据的共享和发布,可采用 ArcSDE +ArcIMS 的搭配来实现 B / S 构架的数据共享。
图12-2 ArcGIS Desktop系统平台表现示例
3数据库系统功能软件的系统功能分为基本系统数据管理功能和专业应用扩展功能两大部分。根据需求分析,确定各部分的功能。
1)基本功能部分:包括系统管理,数据输入、编辑、查询和输出,数据处理和图形符号库管理等。
2)扩展功能部分:包括现状展示、分析评价、可持续发展评价和决策支持等。系统的功能模块构成见图12-3。
图12-3 系统的功能模块构成
4系统软件平台
在本项目的研究中,结合调查评价研究项目的工作实际,选取了美国ESRI公司的ArcGIS软件作为数据库开发的GIS软件平台,同时考虑到各专题研究单位的实际情况,选取MapGIS作为电子图件的绘制软件。在汇总各专题研究单位提交的MapGIS数字图件后,进行MapGIS格式数据向ArcGIS格式数据的转换,将研究成果加载到项目统一的地质-生态环境空间数据库中。本项目选择的ArcGIS软件平台包括ArcGISDesktop、ArcS-DE、ArcIMS等组件。
5硬件平台选择
除按系统平台的选择原则外,硬件选择从以下方面考虑:
1)硬件的性能:能够满足系统软件平台的运行需求;
2)与其他硬件的兼容性:各种硬件设备可以协同工作;
3)与软件的兼容性:要兼容 *** 作系统、数据库软件或其他应用软件。
可利用现有的计算机硬件,适当增设需要的硬件来构造系统的硬件环境。
6系统实现步骤
(1)系统设计
1)总体结构设计:主要指系统中各子系统之间关系的设计。
2)系统各子系统或子功能模块的描述:各功能模块要划分到软件单元的层次,要求描述清晰,以满足编码、编译和测试的需要。
3)系统外部接口设计:完成系统外部接口、各软件单元之间的详细设计。
4)数据结构和数据库设计:主要指规划数据组织与表达方式的设计。
5)界面设计:主要指应用系统的 *** 作界面设计。
6)软、硬件设计:主要指系统软硬件运行环境的设计。
7)系统单元测试的详细计划:包括测试集、测试用例和测试步骤。
(2)软件编程
完成程序代码的编写及数据库建库任务。
1)遵照软件设计说明书的要求,利用编程工具编制程序代码,并完成程序代码的测试工作。
2)按照半岛城市群项目数据库标准及数据库建库规范的要求,完成数据建库工作。
(3)系统集成与测试
完成系统集成及测试,生成可实际运行的系统,编写用户使用手册。
1)系统集成。
2)系统集成测试。集成测试的步骤为:
①制定系统各单元、模块、子系统的集成计划和集成测试计划,内容包括测试要求、步骤、数据和时间表等;②编写系统集成、测试文档;③按计划进行系统集成与集成测试,修改错误,再测试,直到符合设计要求;④编写测试报告。
3)编写用户使用手册。
五、数据入库工作流程
工作流程主要用于对规划数据库数据入库方法和过程进行指导。项目数据库的数据入库流程见图12-4。
图12-4 数据入库流程
1资料收集
主要包括图件、表格和文字资料等项目所涉及的数据和成果。
2资料预处理
数据预处理就是在全面收集资料的基础上,对资料进行系统的分析研究、综合整理及筛选等。
3建库文档准备
主要是指对建库所需的文档进行准备,主要为数据整理记录表、属性填卡表准备,MapGIS编图的花纹符号库、线型库、颜色库设定等。
4数据采集
数据的采集主要包括图件的输入、建立分层文件、属性的输入。
5数据整理
数据整理的主要内容为:检查数据分层,重新命名分层文件,补充新增图层、调整部分地理、地质和规划专题属性结构,增加部分属性表格,以及整理附加文档等,完成上述工作后要填写元数据采集表并完成对元数据的录入,最后,对所有文件要进行标准化命名。
6空间数据格式转换
按照项目建库的统一要求,各子项目在MapGIS平台下完成的成果图件,数据需要向ArcInfo格式进行转换。
六、数据质量监控
1质量监控体系
项目承担单位和实施单位要建立完善的规划数据库建设质量监控体系,并制定相应的制度。
(1)自互检
建立完整的自互检表,每个作业人员的建库工作都要进行100%的自检,并将自检所发现的问题及时改正。在自检的基础上,由项目负责人安排其他作业人员进行60%以上的互检,并将互检结果和修改处理结果如实、完整地记录下来。
(2)抽检
每张图完成后,由项目负责抽取10%进行检查,并确保检查内容全部符合质量要求。
(3)阶段性检查
对建库的每个阶段性成果要进行严格检查把关,如图件扫描矢量化后的图元检查;属性录入后的图元、属性一致性检查等。
2数据质量监控
(1)空间数据质量检查
空间数据质量检查主要是对成果图上的内容进行质量检查,要分别对MapGIS和ArcInfo格式的所有图层进行逐项检查,包括入库数据图层套合精度、拓扑、命名的标准化规范化、分层的正确性、数据的完整性、属性表结构的正确性、图元与属性的对应性、属性代码的准确性等。
(2)图面质量检查
图面检查是指对提交的成果数据图进行图面内容检查,发现错误应及时修改完善,直至准确无误。
(3)数据表数据质量检查
是指对非空间数据表和空间属性数据表检查数据的正确性,检查数据结构的一致性,并对照规划文本检查与规划实施相关内容的完整性和正确性。
(4)文档检查
资料文档检查主要是检查数据库所要求的文本、研究报告、编制说明、附表等资料文档是否齐全,内容是否正确,并检查元数据采集表及入库数据内容是否合乎要求。
3数据质量监控指标
上述内容的检查总错误率小于2%,其中,图元(包括点、线、面、注释)错误率小于1%,属性(包括文字、代码、ID号对应、记录个数等)错误率小于2%,凡错误率大于该两值的,或发生图层缺失、附表缺失、文档缺失以及未提交正确的元数据采集表和入库数据的,一律不予通过。
七、提交数据要求
1提交格式
成果图件:MapGIS格式,含工程、图层和系统库文件。
文档:包括编制说明、研究报告及其他文档资料(Word和Html两种格式)。表格:Access和Excel两种格式。
元数据采集表:Word格式。
2提交形式
汇交数据存储介质为光盘。在提交成果之前,要进行全面查杀毒,确保数据安全。
数据的准确性无非就是两个方面:1、数据源本身准确无误;2、使用数据源的逻辑准确无误
1、对于数据源本身质量,由于数据分析师接触到的数据基本上是经过了数据清洗、数仓建模之后的数据,换言之,已经是加工后的数据,已经处于数据链的下游,所以数据准确性更多的是数仓层面保证,数据分析师要做的就是根据自己的业务sense对数据做核验,发现数据中是否有异常数据
2、对于计算逻辑,还可以分为数据表逻辑和清洗规则了解,以及自己算的指标准确性,具体来说:1)要清楚所用数据表的逻辑和清洗规则,保证取了对的数据;2)要保证自己的计算逻辑无误,比如数据是否可累加,保证自己算对了指标。
以上就是关于数据仓库的数据质量主要包括哪些内容全部的内容,包括:数据仓库的数据质量主要包括哪些内容、数据库建设方案及数据质量检查标准、如何提高数据质量等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)