hbase 数据迁移_框架

hbase snapshot数据迁移问题

不需要提前建表，分区也会自动同步

HBase自身也提供了ExportSnapshot的方法可以从HDFS文件层基于某个快照快速的导出HBase的数据，并不会对RegionServer造成影响，但该源生的方法不支持增量

1、在源集群执行

snapshot 'src_table', 'snapshot_src_table'

snapshot的流程主要有三个步骤

加锁: 加锁对象是regionserver的memstore，目的是禁止在创建snapshot过程中对数据进行insert,update,delete *** 作

刷盘：刷盘是针对当前还在memstore中的数据刷到HDFS上，保证快照数据相对完整，此步也不是强制的，如果不刷会，快照中数据有不一致风险

创建指针: snapshot过程不拷贝数据，但会创建对HDFS文件的指针，snapshot中存储的就是这些指针元数据

2、在源集群执行，属于推送方式，在目标集群执行数据拉取方式

hbase orgapachehadoophbasesnapshotExportSnapshot -snapshot test_snap -copy-from hdfs://HDFS80386/hbase -copy-to hdfs://shyt-hadoop-4031xxcomcn:8020/apps/hbase/data -mappers 20 -bandwidth 5

3、在目标集群执行使用hbase用户

disable 'dalishen:bbs_member'

restore_snapshot 'bbs_member_snap'

使用restore命令在目标集群自动新建表，以及与archive里的HFile建立link

执行该步骤的时候，可能会遇到权限问题，需要赋权限

Caused by: orgapachehadoopipcRemoteException(orgapachehadoopsecurityAccessControlException): Permission denied: user=hbase, access=WRITE, inode="/apps/hbase/data/archive/data/dalishen/bbs_member/f9406f2ff1fe4d542a5cc36b850c2689/f/links-91a554a73b1e41a7a0b33208331d62df":hadoop:hdfs:drwxr-xr-x

源集群

groups hadoop hdfs 可以发现导入的是源集群的权限

所以需要赋权限

hdfs dfs -chmod -R 777 /apps/hbase/data/archive/data/dalishen/bbs_member/

enable 'dalishen:bbs_member'

不需要提前建表，分区也会自动同步，支持增量备份，需要指定要备份的时间范围

copyTable也是属于HBase数据迁移的工具之一，以表级别进行数据迁移。copyTable的本质也是利用MapReduce进行同步的，与DistCp不同的时，它是利用MR去scan 原表的数据，然后把scan出来的数据写入到目标集群的表。这种方式也有很多局限，如一个表数据量达到T级，同时又在读写的情况下，全量scan表无疑会对集群性能造成影响。

13->11 高到低版本不需要提前建表，分区也会自动同步

检查是否开启同步

echo "list_replicated_tables" | hbase shell -n |grep dalishen:app_deviceid

没有的话执行

enable_table_replication 'tname'

1源集群hadoop查询数据量，如太大先别迁移超过5000w

hbase orgapachehadoophbasemapreduceRowCounter 'dalishen:app_deviceid'

2源集群上执行替换表名

hbase orgapachehadoophbasemapreduceCopyTable -Dhbaseclientscannercaching=1000 -Dmapredmaptasksspeculativeexecution=false -D mapreducetasktimeout=6000000 --families=f:f --peeradr=10522442:2181:/hbase-unsecure --newname=dalishen:app_deviceid dalishen:app_deviceid

3目标集群上执行数据量对比下

hbase orgapachehadoophbasemapreduceRowCounter 'dalishen:app_deviceid'

4指定时间戳进行增量同步

hbase orgapachehadoophbasemapreduceCopyTable -Dhbaseclientscannercaching=1000 -Dmapredmaptasksspeculativeexecution=false -D mapreducetasktimeout=6000000 --starttime=1600792683760 --endtime=1600792684760 --families=f:f --peeradr=17218127:2181:/hbase --newname=testwang testwang

在源集群进入hbase shell

1、 add_peer '1', 'shyt-hadoop-4032xxxcomcn,shyt-hadoop-4031xxxcomcn,shyt-hadoop-4030xxxcomcn:2181:/hbase-unsecure'

2、修改REPLICATION_SCOPE属性=1，全局模式，此数据会被复制给所有peer

alter 'testwang',{NAME => 'f' ,REPLICATION_SCOPE => '1'}

3、hbase(main):006:0> enable_table_replication 'testwang'

0 row(s) in 00860 seconds

The replication swith of table 'testwang' successfully enabled

验证在源集群 put 'testwang','1005','f:name','1005'

在目标集群 get 'testwang','1005'

校验数据量：通count

hbase orgapachehadoophbasemapreduceRowCounter 'testwang'

查看同步状态： status 'replication'

建议大表先进行snapshot方式同步，然后再利用copy进行增量数据同步，小表直接copy table数据迁移，最后配置hbase replication peer实时同步

创建testjava 文件包含如下内容：

在命令行中编译和执行

Phoenix Thick驱动的JDBC的URL格式如下（[]内的元素可选择的）

最简单的例子：

最复杂的例子：

请注意，URL中的每个可选元素都需要前面所有可选元素。例如，去指定Hbase的zk节点，那么zk的端口必须是指定的。

这些信息最初包含在该页。

Phoenix Thin驱动（与Phoenix查询服务一起使用）JDBC格式如下：

这里暴露了数个key供客户端使用。最经常使用的key为 url 和 serialization 。url key直接影响到需要查询的Phoenix查询服务器的地址。

最简单的URL例子：

非常复杂的URL例子：

这里记录着所有有关于Thin 客户端JDBC URL涉及到的支持项，可以参考 Apache Avatica documentation 和 Query Server Documentation 。

查看相关例子。

CSV数据可以批量导入通过psql的通用功能。一般插入的速度在20K-50K行数据每秒。（取决于一行数据有多大）。

创建表例子：

插入数据例子：

你可以创建Phoenix 表（table）和视图（view）通过 CREATE TABLE/CREATE VIEW 在已存在的HBase表上执行DLL语句。两种情况下都不会改变Hbase的元数据。对于 CREATE TABLE ,我们会创建任何不存在的元数据(table,column families)。我们会增加空键在每一行，所以查询的行为符合预期（不需要所有的列都进行扫描）。

需要注意的是字节的序列化必须匹配Phoenix的字节序列化。比如varchar、char和unsigned_ 类型，我们使用Hbase字节方法。char类型预期只有单字节字符和无符号类型预期值大于或者等于0。 对于有符号的类型（tinyint,smallint,integer 和bigint），phoenix会翻转第一个字节，这样负值会在正值之前排序。 因为Hbase排序row key按照ASCII正序排列，负值的第一位是1 而正值的第一位是0，那么负值大于正值，党我们不进行第一位翻转时。所以你存储整数时通过Hbase本地API接口和想通过Phoenix访问整数，确认你的数据类型是否是无符号类型。

我们复合row key可以将简单的值进行拼接在一起，在可变长类型上使用0字节作为分隔符。

如果你创建Hbase表如下：

如果你已经有了一张带有名称为't1'和列簇为'f1'的Hbase表。那么请记住，在Hbase中你不用对可能的键值和row key结构进行建模。这是你在phoenix指定的表和列簇之外的信息。所以在phoenix，你不需要像这样创建view:

这个‘pk’列定义，你的row key是varchar类型（类似字符串），而'f1'val列定义你的Hbase表包含键值形式和列成员及列限定符为'f1'val还有他们的类型为varchar。

注意，你不需要使用双引号，当你创建你的hbase表包含所有的大写名称（Phoenix会标准化字符串，将字符串转大写）。比如：

你可以这样创建phoenix视图：

或者如果你创建了新的hbase表，不需要借助hbase shell，直接在phoenix *** 作。

注意：理想情况下4核CPU的16个region server，可以选择salt buckets在32-64最佳性能。

始于Phoenix 21版本，Phoenix开始支持索引在可变和不可变的数据中。注意，Phoenix在20x中仅支持不可变数据的索引。索引写性能在不可变索引表中，稍微快一些于可变数据表，不可变数据表即是数据不支持更新。

例子：

更新行信息在test表中，Phoenix查询优化器会选择正确的索引去使用。你可以查看 explain plan 如果Phoenix使用这个索引表。你还可以在Phoenix查询中给出使用特定索引的提示。

除非查询中使用到的所有列都在二级索引中，否作不会使用二级索引（作为直接索引，或者覆盖索引）。构成数据表中的主键全部列都会自动包含在索引中。

在lastname不是索引或者覆盖所有一部分时，索引是没有被使用到。这点可以在 "explain plan" 中被证实。在创建索引时固定lastname字段存在索引中一部分，或者时覆盖索引的覆盖字段。

例子：

Phoenix速度非常快，全表扫描100M的数据，通常情况下在20秒内完成（中等规模的集群上的小表）。如果查询包含到关键列的过滤器，则降低到毫秒级。你可以添加索引在导致性能等同于过滤键的列上，使用索引列作为键的一部分复制表。

为什么Phoenix即使做了全扫描，速度依然快：

检阅Anil Gupta的优秀文章。

Hadoop2的配置存在Phoenix的pomxml中即可。

在默认情况下，Phoenix让Hbase管理时间戳，并只让你查看最后的版本数据。但是，Phoenix也给用户提供支持任意的时间戳。要做到这一点，使用连接属性"CurrentSCN"，像这样：

上面的 *** 作等同于Hbase API中的：

通过指定CurrentSCN,你可以告诉Phoenix。所有东西在这次连接中按该时间戳被完成。注意的是，这也适用于对连接执行的查询。举个例子，一个查询在myTable表的数据是不会看到刚插入的数据，因为它只看到创建连接时指定CurrentSCN属性之前的数据。这样提供了一种类似于快照的功能，或者是时间点查询。

请记住，创建个新的连接不是一个很昂贵的 *** 作。相同的底层Hbase的连接用于全部连接的相同的集群，所以或多或少实例出一些对象。

RANGE SCAN :意味着只扫描表中一部分数据。如果使用主键约束中的一个或者多个组成主键的列会出现这种情况。没有过滤PK列的查询，例子： select from test where pk2='x' and pk3='y'; 将会出现全扫描，然而在 select from test where pk1='x' and pk2='y'; 中却是范围扫描(range scan)。注意，你可以添加二级索引在"pk2"和"pk3"列上，会触发范围扫描(range scan)在第一次查询中。

DEGENERATE SCAN :意味着一个查询不能返回行数据。如果我们决定在编译时完成。我们甚至不需要运行扫描。

FULL SCAN :意味着所有行都被扫描到。(如果你有一个where子句，可能会应用到一个过滤器)

SKIP SCAN :将扫描一个表中的子集或者全部行。无论如何它将会根据过滤器跳过大分组的行。可以查看博客了解更多。如果主键上没有过滤器的列，那我们就不做SKIP SCAN，但是你可以强制SKIP SCAN通过使用/+ SKIP_SCAN/去命中。在一些条件下，也就是说当你的主键基数比较少时，它将会更有效超过FULL SCAN。

不，它不是必须的Phoenix jDBC连接池。

Phoenix的连接对象时不同大部分的JDBC连接，原因在于底层是Hbase的连接。Phoenix连接对象在设计时就是为了更精细便宜的代价去创建。如果Phoenix的连接被再利用，底层的HBase连接可能并不总是由前一个用户保持在健康状态。更好的方式是去创建一个新的Phoenix连接，保证避免潜在的问题。

实行Phoenix连接池可以简单的创建实例化委派，对外部而言，创建出新的Phoenix连接，实际是需要时从池中获取，对外部而言的关闭，实际是返回到池中去，可以参考 Phoenix-2388 。

空键值或者伪键值（_01列限定符）必须的，去保证列都有有效的在全部行中。

数据存储在Hbase是以键值对形式存在，意味着存储每个列值完整的行键。这还意味着，除非至少存储了一个列，否则根本不存储行键。

现在考虑到JDBC的行存在int类型的主键，和若干列可能是空（null）的。为了可以存储主键，键值必须去存储去展示这行数据的全部（现在的时间戳，考虑的时间戳版本）。你会注意到这些列是空列。这允许执行“SELECT FROM TABLE”并接收所有行的记录，即使那些非pk列为空的记录也是如此。

即使对于某些(或所有)记录只有一个列为空，也会出现相同的问题。在Phoenix上的扫描将包括空列，以确保只包含主键的行(所有非键列都为空)将包含在扫描结果中。

3个。数据类型long，单元值有时间版本，用时间戳(Timestamp)标识，默认数量3个。hbase添加数据时使用的时间戳默认使用的是数据添加时的时间，在存储实时数据的时候是很方便。

以上就是关于hbase 数据迁移全部的内容，包括:hbase 数据迁移、Apache Phoenix(一)答疑、hbase时间戳默认数量等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/web/9378146.html

hbase 数据迁移

发表评论

评论列表（0条）