熊猫分组后并行应用

度点•2022-12-16•随笔•阅读27

熊猫分组后并行应用

尽管确实应该将其内置到熊猫中，但这似乎可行

import pandas as pdfrom joblib import Parallel, delayedimport multiprocessingdef tmpFunc(df):    df['c'] = df.a + df.b    return dfdef applyParallel(dfGrouped, func):    retLst = Parallel(n_jobs=multiprocessing.cpu_count())(delayed(func)(group) for name, group in dfGrouped)    return pd.concat(retLst)if __name__ == '__main__':    df = pd.Dataframe({'a': [6, 2, 2], 'b': [4, 5, 6]},index= ['g1', 'g1', 'g2'])    print 'parallel version: '    print applyParallel(df.groupby(df.index), tmpFunc)    print 'regular version: '    print df.groupby(df.index).apply(tmpFunc)    print 'ideal version (does not work): '    print df.groupby(df.index).applyParallel(tmpFunc)

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/zaji/5623441.html