hive beeline详解

hive beeline详解,第1张

Hive客户端工具后续将使用Beeline 替代HiveCLI ,并且后续版本也会废弃掉HiveCLI 客户端工卜世具,Beeline是 Hive 0.11版本引入的新命令行客户端工具,它是基于SQLLine CLI的正州JDBC客户端。

Beeline支持嵌入模式(embedded mode)和远程模式(remote mode)。在嵌入式模式下,运行嵌入式的Hive(类似Hive CLI),而远程模式可以通过Thrift连接到独立的HiveServer2进程上。从Hive 0.14版本开始,Beeline使用HiveServer2工作时,它也会从HiveServer2输出日志信息到STDERR。

-f 对应查询的脚本 script.q

--outputformat=csv2 以逗号分隔

--silent=true 静默方式执行,注意:输出文件的时候必须以静默方式运行,否则输出的型清肢文本中带有很多程序执行信息。

上述命令执行完成后发现输出的文件中仍然有许多空白行,好像没有参数控制,无奈之下又使用shell命令来过滤空白行。

通过下面任意一行命令来过滤空白行,最后输出结果正常。

在写MapReduce程序时,在本地运行使用cat file.data | python mapper.py | sort k1,1 | python reducer.py >result.data进行测试时,程序可以输出正确结果,程序运行正常,但是在编写shell脚本提交在hadoop集群进行运算时,出现了"PipeMapRed.waitOutputThreads(): subprocess failed with code 1"的报错,在查询解决方法的过程中,找到了如下几种解决问题的思路:

1、输入输出文件没有读写权限,导致出现这个报错,但是我在查看自己的文件目录的权限,发现不是自己的文件权限问题,具体权限是否会导致这种问题,我也不太清楚,仅凯脊供参考;

2、不同机器的python的环境路径不同,这个我把程序都改成了#!/usr/bin/python,再次执行,发现同样没有解决问题,依然报同样的错误;

3、查询Stack Overflow上面有的说法是python程序可能有问题,这个说法我一开始是不赞成的,因为我已经本地测试通过的。

于是在这个问题上卡了两个小时,在找到如盯敬渗何将日志文件拖到本体的方法后,拖取命令如下: yarn logs -applicationId application_1519803790630_15391 >temp1.log ,其中的application_1519803790630_15391根据自己任务的名称替换,查看其中Traceback部分错误提示,发现是自己在本地写的一个包在集群上找不到,提示import错误。把import包中函数放入mapper程序后,再次运行,问题被解决!!!!!!!

故:遇到这种报错的解决思路:首先取到程序运行日志,再分析日志中出现错误的原因,据测试,这种报错基本是由稿并于程序错误导致的!!!!即使本地测试通过,在提交hadoop执行后,一旦报错也要根据错误日志进行程序更改!


欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/tougao/12279724.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-05-22
下一篇2023-05-22

发表评论

登录后才能评论

评论列表(0条)

    保存