
很大程度上取决于数据本身。一般来说,当必须读取较大的,不可拆分的文件时,Spark的性能不是特别好。不过,您可以尝试使用
binaryFilesmethod并将其与标准Python工具结合使用。让我们从虚拟数据开始:
import tempfileimport pandas as pdimport numpy as npoutdir = tempfile.mkdtemp()for i in range(5): pd.Dataframe( np.random.randn(10, 2), columns=['foo', 'bar'] ).to_pickle(tempfile.mkstemp(dir=outdir)[1])
接下来,我们可以使用
bianryFiles方法读取它:
rdd = sc.binaryFiles(outdir)
并反序列化单个对象:
import picklefrom io import BytesIOdfs = rdd.values().map(lambda p: pickle.load(BytesIO(p)))dfs.first()[:3]## foo bar## 0 -0.162584 -2.179106## 1 0.269399 -0.433037## 2 -0.295244 0.119195
一个重要的注意事项是,与诸如之类的简单方法相比,它通常需要更多的内存
textFile。
另一种方法是仅并行化路径,并使用可以直接从诸如hdfs3之类的分布式文件系统读取的库。这通常意味着较低的内存需求,但代价是数据局部性会大大降低。
考虑到这两个事实,通常最好以可以加载更高粒度的格式序列化数据。
注意事项 :
SparkContext提供
pickleFile方法,但名称可能会误导。它可以用来读取
SequenceFiles包含腌制对象而不是普通的Python腌制。
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)