hive beeline详解_教程

Hive客户端工具后续将使用Beeline 替代HiveCLI ，并且后续版本也会废弃掉HiveCLI 客户端工卜世具,Beeline是 Hive 0.11版本引入的新命令行客户端工具,它是基于SQLLine CLI的正州JDBC客户端。

Beeline支持嵌入模式(embedded mode)和远程模式(remote mode)。在嵌入式模式下，运行嵌入式的Hive(类似Hive CLI)，而远程模式可以通过Thrift连接到独立的HiveServer2进程上。从Hive 0.14版本开始，Beeline使用HiveServer2工作时，它也会从HiveServer2输出日志信息到STDERR。

-f 对应查询的脚本 script.q

--outputformat=csv2 以逗号分隔

--silent=true 静默方式执行，注意：输出文件的时候必须以静默方式运行，否则输出的型清肢文本中带有很多程序执行信息。

上述命令执行完成后发现输出的文件中仍然有许多空白行，好像没有参数控制，无奈之下又使用shell命令来过滤空白行。

通过下面任意一行命令来过滤空白行，最后输出结果正常。

在写MapReduce程序时，在本地运行使用cat file.data | python mapper.py | sort k1,1 | python reducer.py >result.data进行测试时，程序可以输出正确结果，程序运行正常，但是在编写shell脚本提交在hadoop集群进行运算时，出现了"PipeMapRed.waitOutputThreads(): subprocess failed with code 1"的报错，在查询解决方法的过程中，找到了如下几种解决问题的思路：

1、输入输出文件没有读写权限，导致出现这个报错，但是我在查看自己的文件目录的权限，发现不是自己的文件权限问题，具体权限是否会导致这种问题，我也不太清楚，仅凯脊供参考；

2、不同机器的python的环境路径不同，这个我把程序都改成了#!/usr/bin/python，再次执行，发现同样没有解决问题，依然报同样的错误；

3、查询Stack Overflow上面有的说法是python程序可能有问题，这个说法我一开始是不赞成的，因为我已经本地测试通过的。

于是在这个问题上卡了两个小时，在找到如盯敬渗何将日志文件拖到本体的方法后，拖取命令如下： yarn logs -applicationId application_1519803790630_15391 >temp1.log ，其中的application_1519803790630_15391根据自己任务的名称替换，查看其中Traceback部分错误提示，发现是自己在本地写的一个包在集群上找不到，提示import错误。把import包中函数放入mapper程序后，再次运行，问题被解决！！！！！！！

故：遇到这种报错的解决思路：首先取到程序运行日志，再分析日志中出现错误的原因，据测试，这种报错基本是由稿并于程序错误导致的！！！！即使本地测试通过，在提交hadoop执行后，一旦报错也要根据错误日志进行程序更改！

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/tougao/12279724.html

hive beeline详解

发表评论

评论列表（0条）