
hadoop 2.6.0
oozie 4.1.0
spark 2.3.0
spark1(集群自带的可以直接添加jar)做任务调度
spark2 需要进行配置后(伍局添加spark2 所需要的jar到oozie 的sharelib中)才能进行调度
详细步骤可以参考:
https://blog.csdn.net/worldchinalee/article/details/80594593
特别注意事项1:
a、spark程序jar包路径,因为jar是传到HDFS上面的,cluster方式提交的时候,jar name栏目需要写jar包再hdfs上面的全路径,
见上图方框中内容。
b、需改集群oozie配置项 Spark on Yarn 服务 改为 none ,默认是 yarn。不然运行时候会报错。
e.g hdfs://nameserviceHa/user/hue/oozie/workspaces/hue-oozie-1505120868.97/spark-examples_2.11-2.3.0.cloudera2.jar
特别注意事项2:运行spark程序时候,oozie自动默认spark。需要通过配置参数 oozie.action.sharelib.for.spark 设置为spark2,指定运spark时候添加的jar包为spark2.。
小伙伴会疑问为社么直接通过通过shell小组件调用shell脚本?
shell组件的中的shell脚本不支持交互是查询。ssh远程命令不支持,如果spark环境不在oozie组件的主梁薯机上,此方法行不通。
*********************************下面重点介绍怎么通过ssh远程执行shell命令***********************************
使用oozie提供的小组件
现在有几个问题需要解决:
1、oozie调度时候使用的是oozie账户,当你执行ssh时候发现回报登陆错误。解决办法配置免密
2、怎么配置免密
su oozie 的时候报以下提示,因为chd生成的用户名问题,本人再这里花费了很多时间处理此问题。
This account is currently not available.
解决办法:使用sudo -u oozie 命令执行免密登陆设置
sudo -u oozie ssh-keygen
生成秘钥
cat /var/lib/oozie/.ssh/id_rsa.pub >>/root/.ssh/authorized_keys (写入的是你需要免密的服务器,这里展示的是本机写法)
验证免密登录
到这里,你就可以随心所欲的书写脚本,并存到再服务器。通过oozie ssh远程执行此脚本,以此达到调度的效果腔渣让。
Apache HUE 已经为我们提供了如 beeswax 、 jobbrowser 、 oozie 等诸多的应用。但在使掘腔陵用中,我们可能需要去在 hue 中自己定义满足自身业判戚务和项目圆激需要的功能。这时候,就需要我们自己去创建 app。话不多说,直接教程。
此时,创建、注册 app 的步骤基本完成了。但是,我们还需要去完成两件事情。
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)