
解决方案,如果需要一次创建一个大文件,
Dataframe如果需要一次处理所有数据(可能,但不推荐):
然后将concat用于df的所有块,因为函数的输出类型为:
df = pd.read_csv('Check1_900.csv', sep='t', iterator=True, chunksize=1000)是不是数据帧,而是
pandas.io.parsers.TextFileReader-源。
tp = pd.read_csv('Check1_900.csv', sep='t', iterator=True, chunksize=1000)print tp#<pandas.io.parsers.TextFileReader object at 0x00000000150E0048>df = pd.concat(tp, ignore_index=True)我认为有必要在函数中添加参数忽略索引
concat,因为避免了索引的重复。
编辑:
但是如果要处理诸如聚合之类的大数据,最好使用
dask,因为它提供了高级并行性。
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)