基于spark+hudi测试腾讯cos&hdfs读写小文件性能_随笔

基于spark+hudi测试腾讯cos&hdfs读写小文件性能

背景：

使用spark读写hudi on cos时发现读写速度非常慢，但因业务场景需要使用二级分区，必定会产生很多小文件，于是测试spark读取cos与hdfs上小文件的性能

环境：

spark 3.1.2

hudi 0.9

hadoop 3.2.2

腾讯云 cos

结果：

资源大小数据量目录数耗时5 * 8c * 16g48823737二级分区，路径20054个cos ：读取 33min ; 写入 19min ；
hdfs ：读取 23min ; 写入 10min ；4 * 8c * 16g48823737二级分区，路径20054个cos：读取 41min ; 写入 20+min ；
hdfs：读取 21min ; 写入 17min ；10 * 4c * 8g48823737一级分区，路径206个cos：读取 < 1min ; 写入 3min ；
hdfs：读取 < 1min ; 写入 1.5min ；

结论：

读取大量小文件时，hdfs的性能比cos好一点，但远远低于读取同数据量的大文件；

所以，在分区内文件较小时，尽量减少分区数并合并文件，可以大大提高性能

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/zaji/5575147.html

基于spark+hudi测试腾讯cos&hdfs读写小文件性能

发表评论

评论列表（0条）