运行Hadoop MapReduce作业时,如何获取文件名文件内容作为MAP的键值输入?

运行Hadoop MapReduce作业时,如何获取文件名文件内容作为MAP的键值输入?,第1张

运行Hadoop MapReduce作业时,如何获取文件名/文件内容作为MAP的键/值输入

解决方案是创建自己的FileInputFormat类来执行此 *** 作。您可以从此FileInputFormat接收的FileSplit(getPath)访问输入文件的名称。确保否决FileInputformat的isSplitable以始终返回false。

您还将需要一个自定义的RecordReader,它以单个“ Record”值返回整个文件。

处理太大的文件时要小心。您将有效地将整个文件加载到RAM中,并且任务跟踪器的默认设置是仅具有200MB RAM。



欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/zaji/5490526.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2022-12-13
下一篇2022-12-12

发表评论

登录后才能评论

评论列表(0条)

    保存