为什么SparkSession对一个动作执行两次?

为什么SparkSession对一个动作执行两次?,第1张

为什么SparkSession对一个动作执行两次?

这是因为您不提供的架构

DataframeReader
。结果,Spark必须急切地扫描数据集以推断输出模式

由于

mappedRdd
未缓存,因此将对其进行两次评估:

  • 一次用于模式推断
  • 一次致电
    data.show

如果要阻止,则应为阅读器提供架构(Scala语法):

val schema: org.apache.spark.sql.types.StructType = ???spark.read.schema(schema).json(mappedRdd)


欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/zaji/5499644.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2022-12-12
下一篇2022-12-12

发表评论

登录后才能评论

评论列表(0条)

    保存