
首先对需求进行分析,按照传统模式,可以采用POI+JDBC的方式来进行导入数据。但是这种方式比较繁琐,同时插入效率在数据量很大时,相对来说还是不够高。还有一种更方便快速的方式实现该功能,就是利用Clickhouse自有的插入数据功能,类似于Mysql的load data语法实现的快速导入大批量数据的功能。
数据库(DataBase,DB)是按照数据结构来组织、存储和管理数据的仓库。随着信息技术和市场的发展,特别是20世纪90年代以后,数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方式。数据库有很多种类型,从最简单的存储有各种数据的表格到能够进行海量数据存储的大型数据库系统,在各个方面都得到了广泛的应用。
数据库是一个长期存储在计算机内的、有组织的、有共享的、统一管理的数据集合。它是一个按数据结构来存储和管理数据的计算机软件系统。也就是说,数据库包含有两种含义:保管数据的“仓库”,以及管理数据的方法和技术。
通用的采集软件都可以进行采集数据的发布,介绍三款软件,自己选择:网络神采 共享版 采集规则自定义,可采集任意网站数据。可发布access、mssql、mysql,付费后还可发布到oracle。但网络神采共享版对采集任务数据由最大限制,好像是只能采集300条数据,用起来很不爽,其他的版本价格个人认为偏高。
火车头 免费版 采集规则配置起来略微复杂,也可发布access、sqlserver、mysql及oracle。但免费版受限较大,此方面可以参看http://www.locoy.com/product/buy.html 进行版本功能比较。
Soukey采摘 唯一一款开源免费的软件,功能与火车头网络神采类似 ,支持采集规则自定义,在此方面与火车头网络神采类似,数据库发布支持Access、sqlserver及Mysql。如果具备一定的技术基础,建议使用soukey采摘,灵活不受限制,可以针对自己的网站规则进行修正。源代码可在https://sourceforge.net/projects/soukeygetdata/ 下载。
我个人采集经验,采集的数据一般很难满足数据库要求规则,一般都需要进行数据加工,或者采用web方式发布数据。所以,建议选择可以带有一定数据加工的采集软件,会很方便的。
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)