
2)将编译好后的hadoop-lzo-0.4.20.jar 放入hadoop-3.1.3/share/hadoop/common/
3)同步hadoop-lzo-0.4.20.jar到hadoop103、hadoop104
4)core-site.xml增加配置支持LZO压缩
5)同步core-site.xml到hadoop103、hadoop104
1)创建LZO文件的索引,LZO压缩文件的可切片特性依赖于其索引,故我们需要手动为LZO压缩文件创建索引。若无索引,则LZO文件的切片只有一个。
对上传的LZO文件建索引
(4)再次执行WordCount程序
Hadoop原生不支持lzo 要手动指定jar包sonnpy原生支持不用指定
3)注意:如果以上任务,在运行过程中报如下异常
解决办法:在hadoop102的/opt/module/hadoop-3.1.3/etc/hadoop/yarn-site.xml文件中增加如下配置,然后分发到hadoop103、hadoop104服务器上,并重新启动集群。
Hadoop中的文件格式大致上分为面向行和面向列两类:
面向行:TextFile、SequenceFile、MapFile、Avro Datafile
二进制格式文件大小比文本文件大。
生产环境常用,作为原始表的存储格式,会占用更多磁盘资源,对它的 解析开销一般会比二进制格式高 几十倍以上。
Hadoop API 提供的一种二进制文件,它将数据以<key,value>的形式序列化到文件中。这种二进制文件内部使用Hadoop 的标准的Writable 接口实现序列化和反序列化。它与Hadoop API中的MapFile 是互相兼容的。
MapFile即为排序后的SequeneceFile,它会额外生成一个索引文件提供按键的查找。文件不支持复写 *** 作,不能向已存在的SequenceFile(MapFile)追加存储记录,在执行文件写 *** 作的时候,该文件是不可读取的。
Avro是一种用于支持数据密集型的二进制文件格式。它的文件格式更为紧凑,若要读取大量数据时,Avro能够提供更好的序列化和反序列化性能。并且Avro数据文件天生是带Schema定义的,所以它不需要开发者在API 级别实现自己的Writable对象。最近多个Hadoop 子项目都支持Avro 数据格式,如Pig 、Hive、Flume、Sqoop和Hcatalog。
面向列:Parquet 、RCFile、ORCFile
RCFile是Hive推出的一种专门面向列的数据格式。 它遵循“先按列划分,再垂直划分”的设计理念。当查询过程中,针对它并不关心的列时,它会在IO上跳过这些列。
ORCFile (Optimized Record Columnar File)提供了一种比RCFile更加高效的文件格式。其内部将数据划分为默认大小为250M的Stripe。每个Stripe包括索引、数据和Footer。索引存储每一列的最大最小值,以及列中每一行的位置。
Parquet 是一种支持嵌套结构的列式存储格式。Parquet 的存储模型主要由行组(Row Group)、列块(Column Chuck)、页(Page)组成。
1、行组,Row Group:Parquet 在水平方向上将数据划分为行组,默认行组大小与 HDFS Block 块大小对齐,Parquet 保证一个行组会被一个 Mapper 处理。
2、列块,Column Chunk:行组中每一列保存在一个列块中,一个列块具有相同的数据类型,不同的列块可以使用不同的压缩。
3、页,Page:Parquet 是页存储方式,每一个列块包含多个页,一个页是最小的编码的单位,同一列块的不同页可以使用不同的编码方式。
一般原始表数据使用文本格式存储,其他的都是列式存储。
目前在Hadoop中常用的几种压缩格式:lzo,gzip,snappy,bzip2,主要特性对比如下:
其性能对比如下:
2.1 lzo
hadoop中最流行的压缩格式,压缩/解压速度也比较快,合理的压缩率,支持split。适用于较大文本的处理。
对于lzo压缩,常用的有LzoCodec和lzopCodec,可以对sequenceFile和TextFile进行压缩。对TextFile压缩后,mapred对压缩后的文件默认是不能够进行split *** 作,需要对该lzo压缩文件进行index *** 作,生成lzo.index文件,map *** 作才可以进行split。如果设置LzoCodec,那么就生成.lzo后缀的文件,可以用LzoIndexer 进行支持split的index计算,如果设置LzopCodec,那么生成.lzo_deflate后缀的文件,不支持建立index。
一、压缩分类1、Lossless conpression(无损压缩)
压缩和解压缩过程中没有任何数据的丢失
2、Lossy conpression(有损压缩)
JPEG,MP3,MPEG 压缩和解压缩过程中有任何数据的丢失
二、压缩场景
输入
中间
输出
三、压缩注意事项
CPU是否够用,压缩加压缩都耗费资源
四、压缩格式
五、压缩比
原始文件大小1.4G
Snappy的压缩比:50%
LZ4的压缩比:49%
LZO的压缩比:48%
GZIP的压缩比:32%
BZIP2的压缩比:28%
六、总结
1、压缩比越高压缩时间就越长,不同压缩场景需要选用不同的压缩。
2、选用压缩就是空间与时间的选择
3、如果是老数据/冷数据就采用BZIP2压缩,如果老数据偶尔还会用的到还需考虑是否分片
4、
七、Hadoop配置Mapreduce的压缩
core-site.xml
mapred-site.xml
上面配置的是Bzip2的压缩,进入
j进行wordcount的测试
查看结果文件是带有bz2后缀的
八、Hive的压缩测试
1、创建表
2、加载数据
查看原表的大小
3、
新建表
查看新表的大小
4、
新建表
查看大小
5、
新建表
查看大小
以上为临时生效压缩,真正使用需要将具体使用哪种压缩配置到Hive配置文件
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)