HadoopLZO压缩配置

HadoopLZO压缩配置,第1张

1)hadoop本身并不支持lzo压缩,故需要使用twitter提供的hadoop-lzo开源组件。hadoop-lzo需依赖hadoop和lzo进行编译,编译步骤如下。

2)将编译好后的hadoop-lzo-0.4.20.jar 放入hadoop-3.1.3/share/hadoop/common/

3)同步hadoop-lzo-0.4.20.jar到hadoop103、hadoop104

4)core-site.xml增加配置支持LZO压缩

5)同步core-site.xml到hadoop103、hadoop104

1)创建LZO文件的索引,LZO压缩文件的可切片特性依赖于其索引,故我们需要手动为LZO压缩文件创建索引。若无索引,则LZO文件的切片只有一个。

对上传的LZO文件建索引

     (4)再次执行WordCount程序

Hadoop原生不支持lzo 要手动指定jar包sonnpy原生支持不用指定

3)注意:如果以上任务,在运行过程中报如下异常

解决办法:在hadoop102的/opt/module/hadoop-3.1.3/etc/hadoop/yarn-site.xml文件中增加如下配置,然后分发到hadoop103、hadoop104服务器上,并重新启动集群。

Hadoop中的文件格式大致上分为面向行和面向列两类:

面向行:TextFile、SequenceFile、MapFile、Avro Datafile

二进制格式文件大小比文本文件大。

生产环境常用,作为原始表的存储格式,会占用更多磁盘资源,对它的 解析开销一般会比二进制格式高 几十倍以上。

Hadoop API 提供的一种二进制文件,它将数据以<key,value>的形式序列化到文件中。这种二进制文件内部使用Hadoop 的标准的Writable 接口实现序列化和反序列化。它与Hadoop API中的MapFile 是互相兼容的。

MapFile即为排序后的SequeneceFile,它会额外生成一个索引文件提供按键的查找。文件不支持复写 *** 作,不能向已存在的SequenceFile(MapFile)追加存储记录,在执行文件写 *** 作的时候,该文件是不可读取的。

Avro是一种用于支持数据密集型的二进制文件格式。它的文件格式更为紧凑,若要读取大量数据时,Avro能够提供更好的序列化和反序列化性能。并且Avro数据文件天生是带Schema定义的,所以它不需要开发者在API 级别实现自己的Writable对象。最近多个Hadoop 子项目都支持Avro 数据格式,如Pig 、Hive、Flume、Sqoop和Hcatalog。

面向列:Parquet 、RCFile、ORCFile

RCFile是Hive推出的一种专门面向列的数据格式。 它遵循“先按列划分,再垂直划分”的设计理念。当查询过程中,针对它并不关心的列时,它会在IO上跳过这些列。

ORCFile (Optimized Record Columnar File)提供了一种比RCFile更加高效的文件格式。其内部将数据划分为默认大小为250M的Stripe。每个Stripe包括索引、数据和Footer。索引存储每一列的最大最小值,以及列中每一行的位置。

Parquet 是一种支持嵌套结构的列式存储格式。Parquet 的存储模型主要由行组(Row Group)、列块(Column Chuck)、页(Page)组成。

1、行组,Row Group:Parquet 在水平方向上将数据划分为行组,默认行组大小与 HDFS Block 块大小对齐,Parquet 保证一个行组会被一个 Mapper 处理。

2、列块,Column Chunk:行组中每一列保存在一个列块中,一个列块具有相同的数据类型,不同的列块可以使用不同的压缩。

3、页,Page:Parquet 是页存储方式,每一个列块包含多个页,一个页是最小的编码的单位,同一列块的不同页可以使用不同的编码方式。

一般原始表数据使用文本格式存储,其他的都是列式存储。

目前在Hadoop中常用的几种压缩格式:lzo,gzip,snappy,bzip2,主要特性对比如下:

其性能对比如下:

2.1 lzo

hadoop中最流行的压缩格式,压缩/解压速度也比较快,合理的压缩率,支持split。适用于较大文本的处理。

对于lzo压缩,常用的有LzoCodec和lzopCodec,可以对sequenceFile和TextFile进行压缩。对TextFile压缩后,mapred对压缩后的文件默认是不能够进行split *** 作,需要对该lzo压缩文件进行index *** 作,生成lzo.index文件,map *** 作才可以进行split。如果设置LzoCodec,那么就生成.lzo后缀的文件,可以用LzoIndexer 进行支持split的index计算,如果设置LzopCodec,那么生成.lzo_deflate后缀的文件,不支持建立index。

一、压缩分类

1、Lossless conpression(无损压缩)

压缩和解压缩过程中没有任何数据的丢失

2、Lossy conpression(有损压缩)

JPEG,MP3,MPEG 压缩和解压缩过程中有任何数据的丢失

二、压缩场景

输入

中间

输出

三、压缩注意事项

CPU是否够用,压缩加压缩都耗费资源

四、压缩格式

五、压缩比

原始文件大小1.4G

Snappy的压缩比:50%

LZ4的压缩比:49%

LZO的压缩比:48%

GZIP的压缩比:32%

BZIP2的压缩比:28%

六、总结

1、压缩比越高压缩时间就越长,不同压缩场景需要选用不同的压缩。

2、选用压缩就是空间与时间的选择

3、如果是老数据/冷数据就采用BZIP2压缩,如果老数据偶尔还会用的到还需考虑是否分片

4、

七、Hadoop配置Mapreduce的压缩

core-site.xml

mapred-site.xml

上面配置的是Bzip2的压缩,进入

j进行wordcount的测试

查看结果文件是带有bz2后缀的

八、Hive的压缩测试

1、创建表

2、加载数据

查看原表的大小

3、

新建表

查看新表的大小

4、

新建表

查看大小

5、

新建表

查看大小

以上为临时生效压缩,真正使用需要将具体使用哪种压缩配置到Hive配置文件


欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/tougao/12078370.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-05-20
下一篇2023-05-20

发表评论

登录后才能评论

评论列表(0条)

    保存