为什么SparkSession对一个动作执行两次？

诺基亚6700c•2022-12-12•随笔•阅读24

这是因为您不提供的架构

DataframeReader

。结果，Spark必须急切地扫描数据集以推断输出模式。

由于

mappedRdd

未缓存，因此将对其进行两次评估：

如果要阻止，则应为阅读器提供架构（Scala语法）：

val schema: org.apache.spark.sql.types.StructType = ???spark.read.schema(schema).json(mappedRdd)

欢迎分享，转载请注明来源：内存溢出

打赏

微信扫一扫

支付宝扫一扫

上一篇 2022-12-12

下一篇2022-12-12

登录后才能评论