Spark 读取 Hbase 数据_sql

下面这种方式是全表扫描，Spark如果通过RS来访问Hbase数据进行数据分析，对RS会产生很大的压力。不太建议使用下面的方式

在本地测试时返现运行的很慢，后来看到以下日志

由于Hbase表中只有两个region，所以只启动两个Task，此时并行度为二！

那么也就是说Spark读取Hbase的并行度取决于这个表有多少个region。然后根据region的startkey和endkey来获取数据

本文主要讲述了spark对hbase进行独写的两种方式，这两种方式分别为：

1.利用spark提供的 newAPIHadoopRDD api 对hbase进行读写

2.SparkOnHbase，这种方式其实是利用Cloudera-labs开源的一个HbaseContext的工具类来支持spark用RDD的方式批量读写hbase

hbase 表格式如下：

部分数据集如下：

文中的spark 的版本为2.3.2,hbase 的版本为1.2.6

因为hbase数据集的数据都是序列化的，所以spark 默认读取Hbase的数据时会报数据序列化的错误，不管哪种方式，在读取hbase数据之前，为spark配置序列化方式，如图所示：

主要是利用TableInputFormat，TableOutPutFormat的方式对hbase进行读写。

下边是对hbase进行读

运行结果如图：

通过maven 将hbase-spark jar 报导入

由于hbase-spark 运用的spark 版本为1.6 而实际的spark 版本为2.3.2,所以执行spark 任务会报没有 org.apache.spark.logging 类没有定义，这是因为 spark 2.3.2 这个类名已经改变，因此需要重新构造这个类并打成jar包放入到spark 的jar目录里即可

以下为读方式：

sparkOnHbase 对于第一种方式的优势在于：

1>无缝的使用Hbase connection

2>和Kerberos无缝集成

3>通过get或者scan直接生成rdd

4>利用RDD支持hbase的任何组合 *** 作

5>为通用 *** 作提供简单的方法，同时通过API允许不受限制的未知高级 *** 作

6>支持java和scala

7>为spark和 spark streaming提供相似的API

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/sjk/9632912.html

Spark 读取 Hbase 数据

发表评论

评论列表（0条）