Spark提交任务，两个集群kerberos互信_软件运维

spark向集群1中芹渗的yarn提交任务，任务运行在集群1的yarn容器中。数据写入集群2的hdfs。局首团集群1与集群2开通kerberos互信 *** 作。

关于大数据方面技术问题可以咨询，替你解决你的苦恼。桐橘参考： https://www.jianshu.com/p/d148af2bda64

错误的说法是：Spark运行的基本流程是先初始化程序，然后将数据加载到内存中，最后用户可以使用任何算法对数据进行处理。

Spark的基本流程并不是如此简单，它的流程包括：创建Spark上下文，加载数据集，转换数据，使用算法进行分析，将结果输出，最后释放旅盯资源。

首先，在Spark程序中，需要考虑创建一个Spark上下文，它是一个运行Spark程序指镇悄的基本环境，它能够提供Spark程序所需要的一切资源，包括集群管理器、资源管理器、Scheduler等。

其次，需要加载要处理的数据集，这些数据可以从本地文件系统或者远程的HDFS文件系统中获取，并将其加载到Spark中。

接着，将加载的数据转换成可以被Spark处理的数据，这里可以使用Spark的RDD API或者DataFrame API进行数据转换，将数据转换成可以被Spark处理的形式。

然后，可以使用Spark MLlib中提供的各种机器学习算法进行数据分析，计算出分析结果，并将结果输出到指定的文件中。

最后，在程序完成后，需要释放资源，将Spark上下文中加载的数据及各唯渣种资源占用情况清空，以便在下次运行时能够重新使用。

因此，以上错误的说法不能概括Spark的基本流程，Spark的基本流程涉及到更多的步骤，如上所述。

可以的，spark提交job的方式有client和cluster两种，同时提枝手陵交多个的话最好用cluster方式，但是需要注意的是：如果集群的资源不能同时支持两个job运行，则后提交的job会一直等待资源，直到第一个job运行薯燃完成释放出足够的资源。具体的行为依赖资源管理框架（如yarn）猛戚

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/yw/12316768.html

Spark提交任务，两个集群kerberos互信

发表评论

评论列表（0条）