
Beeline支持嵌入模式(embedded mode)和远程模式(remote mode)。在嵌入式模式下,运行嵌入式的Hive(类似Hive CLI),而远程模式可以通过Thrift连接到独立的HiveServer2进程上。从Hive 0.14版本开始,Beeline使用HiveServer2工作时,它也会从HiveServer2输出日志信息到STDERR。
-f 对应查询的脚本 script.q
--outputformat=csv2 以逗号分隔
--silent=true 静默方式执行,注意:输出文件的时候必须以静默方式运行,否则输出的型清肢文本中带有很多程序执行信息。
上述命令执行完成后发现输出的文件中仍然有许多空白行,好像没有参数控制,无奈之下又使用shell命令来过滤空白行。
通过下面任意一行命令来过滤空白行,最后输出结果正常。
在写MapReduce程序时,在本地运行使用cat file.data | python mapper.py | sort k1,1 | python reducer.py >result.data进行测试时,程序可以输出正确结果,程序运行正常,但是在编写shell脚本提交在hadoop集群进行运算时,出现了"PipeMapRed.waitOutputThreads(): subprocess failed with code 1"的报错,在查询解决方法的过程中,找到了如下几种解决问题的思路:1、输入输出文件没有读写权限,导致出现这个报错,但是我在查看自己的文件目录的权限,发现不是自己的文件权限问题,具体权限是否会导致这种问题,我也不太清楚,仅凯脊供参考;
2、不同机器的python的环境路径不同,这个我把程序都改成了#!/usr/bin/python,再次执行,发现同样没有解决问题,依然报同样的错误;
3、查询Stack Overflow上面有的说法是python程序可能有问题,这个说法我一开始是不赞成的,因为我已经本地测试通过的。
于是在这个问题上卡了两个小时,在找到如盯敬渗何将日志文件拖到本体的方法后,拖取命令如下: yarn logs -applicationId application_1519803790630_15391 >temp1.log ,其中的application_1519803790630_15391根据自己任务的名称替换,查看其中Traceback部分错误提示,发现是自己在本地写的一个包在集群上找不到,提示import错误。把import包中函数放入mapper程序后,再次运行,问题被解决!!!!!!!
故:遇到这种报错的解决思路:首先取到程序运行日志,再分析日志中出现错误的原因,据测试,这种报错基本是由稿并于程序错误导致的!!!!即使本地测试通过,在提交hadoop执行后,一旦报错也要根据错误日志进行程序更改!
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)