mysql数据增量同步到hive

mysql数据增量同步到hive,第1张

同步业务库的数据到ODS层,之前一直是全量同步数据,主要考虑IO太大,耗时太长,重复拉取同样的数据,现在考虑增量同步的方式实现,同时对库表数据做分区。

增量同步主要分为两步,第一步,存量数据一次性同步;第二步,在存量数据的基础之上,做增量;后期的每一次同步都是增量同步。以下是具体同步方案:

用Sqoop同步表中全部数据到Hive表中;

a.根据hive中最大更新时间,用Sqoop提取更新时间为这个时间之后的增量数据;

1)获取表的所有列,把datetime和timestamp类型,统一在java中映射成TIMESTAMP类型,脚本如下:

2) 用sqoop import拉取数据,脚本如下:

1)创建增量同步的sqoop job,脚本如下:

a、从hive中获取表的最大更新时间

b、以上面获取的最大更新时间,作为起点,创建sqoop job,脚本如下:

c、创建sqoop job之后,就是执行job了,脚本如下:

具体参数详解,参考: https://www.cnblogs.com/Alcesttt/p/11432547.html

增量同步和全量同步是数据库同步的两种方式。全量同步是一次性同步全部数据,增量同步则只同步两个数据库不同的部分。

数据库简介:

数据库(Database)是按照数据结构来组织、存储和管理数据的仓库,它产生于距今六十多年前,随着信息技术和市场的发展,特别是二十世纪九十年代以后,数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方式。数据库有很多种类型,从最简单的存储有各种数据的表格到能够进行海量数据存储的大型数据库系统都在各个方面得到了广泛的应用。


欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/sjk/6924855.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-03-30
下一篇2023-03-30

发表评论

登录后才能评论

评论列表(0条)

    保存