HadoopLZO压缩配置_教程

1）hadoop本身并不支持lzo压缩，故需要使用twitter提供的hadoop-lzo开源组件。hadoop-lzo需依赖hadoop和lzo进行编译，编译步骤如下。

2）将编译好后的hadoop-lzo-0.4.20.jar 放入hadoop-3.1.3/share/hadoop/common/

3）同步hadoop-lzo-0.4.20.jar到hadoop103、hadoop104

4）core-site.xml增加配置支持LZO压缩

5）同步core-site.xml到hadoop103、hadoop104

1）创建LZO文件的索引，LZO压缩文件的可切片特性依赖于其索引，故我们需要手动为LZO压缩文件创建索引。若无索引，则LZO文件的切片只有一个。

对上传的LZO文件建索引

（4）再次执行WordCount程序

Hadoop原生不支持lzo 要手动指定jar包sonnpy原生支持不用指定

3）注意：如果以上任务，在运行过程中报如下异常

解决办法：在hadoop102的/opt/module/hadoop-3.1.3/etc/hadoop/yarn-site.xml文件中增加如下配置，然后分发到hadoop103、hadoop104服务器上，并重新启动集群。

Hadoop中的文件格式大致上分为面向行和面向列两类：

面向行：TextFile、SequenceFile、MapFile、Avro Datafile

二进制格式文件大小比文本文件大。

生产环境常用，作为原始表的存储格式，会占用更多磁盘资源，对它的解析开销一般会比二进制格式高几十倍以上。

Hadoop API 提供的一种二进制文件，它将数据以<key,value>的形式序列化到文件中。这种二进制文件内部使用Hadoop 的标准的Writable 接口实现序列化和反序列化。它与Hadoop API中的MapFile 是互相兼容的。

MapFile即为排序后的SequeneceFile，它会额外生成一个索引文件提供按键的查找。文件不支持复写 *** 作，不能向已存在的SequenceFile(MapFile)追加存储记录，在执行文件写 *** 作的时候，该文件是不可读取的。

Avro是一种用于支持数据密集型的二进制文件格式。它的文件格式更为紧凑，若要读取大量数据时，Avro能够提供更好的序列化和反序列化性能。并且Avro数据文件天生是带Schema定义的，所以它不需要开发者在API 级别实现自己的Writable对象。最近多个Hadoop 子项目都支持Avro 数据格式，如Pig 、Hive、Flume、Sqoop和Hcatalog。

面向列：Parquet 、RCFile、ORCFile

RCFile是Hive推出的一种专门面向列的数据格式。它遵循“先按列划分，再垂直划分”的设计理念。当查询过程中，针对它并不关心的列时，它会在IO上跳过这些列。

ORCFile （Optimized Record Columnar File)提供了一种比RCFile更加高效的文件格式。其内部将数据划分为默认大小为250M的Stripe。每个Stripe包括索引、数据和Footer。索引存储每一列的最大最小值，以及列中每一行的位置。

Parquet 是一种支持嵌套结构的列式存储格式。Parquet 的存储模型主要由行组（Row Group）、列块（Column Chuck）、页（Page）组成。

1、行组，Row Group：Parquet 在水平方向上将数据划分为行组，默认行组大小与 HDFS Block 块大小对齐，Parquet 保证一个行组会被一个 Mapper 处理。

2、列块，Column Chunk：行组中每一列保存在一个列块中，一个列块具有相同的数据类型，不同的列块可以使用不同的压缩。

3、页，Page：Parquet 是页存储方式，每一个列块包含多个页，一个页是最小的编码的单位，同一列块的不同页可以使用不同的编码方式。

一般原始表数据使用文本格式存储，其他的都是列式存储。

目前在Hadoop中常用的几种压缩格式：lzo，gzip，snappy，bzip2,主要特性对比如下：

其性能对比如下：

2.1 lzo

hadoop中最流行的压缩格式，压缩/解压速度也比较快，合理的压缩率，支持split。适用于较大文本的处理。

对于lzo压缩，常用的有LzoCodec和lzopCodec，可以对sequenceFile和TextFile进行压缩。对TextFile压缩后，mapred对压缩后的文件默认是不能够进行split *** 作，需要对该lzo压缩文件进行index *** 作，生成lzo.index文件，map *** 作才可以进行split。如果设置LzoCodec，那么就生成.lzo后缀的文件，可以用LzoIndexer 进行支持split的index计算，如果设置LzopCodec，那么生成.lzo_deflate后缀的文件，不支持建立index。

一、压缩分类

1、Lossless conpression(无损压缩)

压缩和解压缩过程中没有任何数据的丢失

2、Lossy conpression（有损压缩）

JPEG，MP3，MPEG 压缩和解压缩过程中有任何数据的丢失

二、压缩场景

输入

中间

输出

三、压缩注意事项

CPU是否够用，压缩加压缩都耗费资源

四、压缩格式

五、压缩比

原始文件大小1.4G

Snappy的压缩比：50%

LZ4的压缩比：49%

LZO的压缩比：48%

GZIP的压缩比：32%

BZIP2的压缩比：28%

六、总结

1、压缩比越高压缩时间就越长，不同压缩场景需要选用不同的压缩。

2、选用压缩就是空间与时间的选择

3、如果是老数据/冷数据就采用BZIP2压缩，如果老数据偶尔还会用的到还需考虑是否分片

4、

七、Hadoop配置Mapreduce的压缩

core-site.xml

mapred-site.xml

上面配置的是Bzip2的压缩，进入

j进行wordcount的测试

查看结果文件是带有bz2后缀的

八、Hive的压缩测试

1、创建表

2、加载数据

查看原表的大小

3、

新建表

查看新表的大小

4、

新建表

查看大小

5、

新建表

查看大小

以上为临时生效压缩，真正使用需要将具体使用哪种压缩配置到Hive配置文件

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/tougao/12078370.html

HadoopLZO压缩配置

发表评论

评论列表（0条）