
①结构化数据:指关系模型数据,即以关系数据库表形式管理的数据,结合到典型场景中更容易理解,比如企业ERP、OA、HR里的数据。
②非结构化数据:指数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。如word、pdf、ppt及各种格式的、视频等。
其实除了结构化数据和非结构化数据,还有一类是半结构化数据,那什么是半结构化数据?
③半结构化数据:指非关系模型的、有基本固定结构模式的数据,例如日志文件、XML文档、JSON文档、E-mail等;
延伸问题:要如何处理这三种异构数据?
1、针对多元结构化数据的融合,主要关注在数据的ETL处理以及时效性上:
①表结构不同,需要做到不同类型的字段映射
②假如要新增表字段的时候,需要新增列
③若有表字段需要进行二次处理规范,需要支持字段转换,比如公式或其他
④新增表设计时,需要保证三大范式,这里就不展开讲了,可参考:数据库三大范式
⑤数据同步的时效性,例如实时同步、半小时一次、或者一天一次、或者说是需要实时同步融合,这个要根据具体业务场景来确认。
2、针对半结构化、非结构化数据,因为数据分散,缺乏统一管理,需要借用专业工具
目前有两种方式来处理半结构、非结构化数据:
①提取半结构、非结构化数据中的关键信息,到结构化数据中进行二次利用,比较好处理的是半结构化(json、xml)、excel、csv,因为这种数据的结构比较统一。
②向word、PDF这种文件提取关键信息,假如是单个文本的话,市面上有些工具可能可以实现,但假如是大批量的话,可能就需要通过程序,去自定义一些正则表达式,去进行关键信息的提取。这种一般来说,因为格式不一致,以及用途不一致,所以程序自定义的比较多。
针对这种的话,会综合考虑数据价值和投入产出比,因为这部分的数据处理较为复杂。
若想提高投入产出比,可用例如FineDataLink这类专业工具,去支持结构化/半结构化数据的融合集成,面向ETL数据处理场景,也可以让数据编排更简单一些,提高数据的使用价值。
以上就是关于数据的形式包括全部的内容,包括:数据的形式包括、、等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)