
解决方案是创建自己的FileInputFormat类来执行此 *** 作。您可以从此FileInputFormat接收的FileSplit(getPath)访问输入文件的名称。确保否决FileInputformat的isSplitable以始终返回false。
您还将需要一个自定义的RecordReader,它以单个“ Record”值返回整个文件。
处理太大的文件时要小心。您将有效地将整个文件加载到RAM中,并且任务跟踪器的默认设置是仅具有200MB RAM。
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)