运行Hadoop MapReduce作业时，如何获取文件名文件内容作为MAP的键值输入？

calibration•2022-12-12•随笔•阅读37

运行Hadoop MapReduce作业时，如何获取文件名/文件内容作为MAP的键/值输入？

解决方案是创建自己的FileInputFormat类来执行此 *** 作。您可以从此FileInputFormat接收的FileSplit（getPath）访问输入文件的名称。确保否决FileInputformat的isSplitable以始终返回false。

您还将需要一个自定义的RecordReader，它以单个“ Record”值返回整个文件。

处理太大的文件时要小心。您将有效地将整个文件加载到RAM中，并且任务跟踪器的默认设置是仅具有200MB RAM。

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/zaji/5490526.html

文件输入返回作业否决

打赏

微信扫一扫

支付宝扫一扫

calibration一级用户组

为WebView强制网站的移动版本

上一篇 2022-12-13

用Java创建通用数组

下一篇2022-12-12

发表评论

登录后才能评论

评论列表（0条）