
这是因为您不提供的架构
DataframeReader。结果,Spark必须急切地扫描数据集以推断输出模式。
由于
mappedRdd未缓存,因此将对其进行两次评估:
- 一次用于模式推断
- 一次致电
data.show
如果要阻止,则应为阅读器提供架构(Scala语法):
val schema: org.apache.spark.sql.types.StructType = ???spark.read.schema(schema).json(mappedRdd)
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)