Python

Python,第1张

Python

通常,

iterrows
仅应在非常特殊的情况下使用。这是执行各种 *** 作的一般优先顺序:

1) vectorization2) using a custom cython routine3) apply    a) reductions that can be performed in cython    b) iteration in python space4) itertuples5) iterrows6) updating an empty frame (e.g. using loc one-row-at-a-time)

使用自定义的

cython
例程通常太复杂了,所以现在就跳过它。

1)矢量化始终是首选。但是,有一小部分案例无法以明显的方式进行向量化(主要涉及复发)。此外,在较小的框架上,执行其他方法可能会更快。

3)应用包括可通常是通过在用

Cython
空间迭代器(这在pandas内部完成的)来进行(这是一个)的情况下。

这取决于

apply
表达式内部发生的情况。例如,
df.apply(lambda x: np.sum(x))
将很快执行(当然
df.sum(1)
更好)。但是,类似:的 *** 作
df.apply(lambda x: x['b'] + 1)
将在python空间中执行,因此速度较慢。

4)

itertuples
不会将数据装箱成一个系列,而只是将其作为元组返回

5)是否

iterrows
将数据包装到系列中。除非你真的需要此方法,否则请使用其他方法。

6)一次更新一个空行。我已经看到这种方法使用了太多的方法。这是迄今为止最慢的。它可能很常见(对于某些

python
结构来说相当快),但是
Dataframe
对索引进行了大量检查,因此每次更新一行总是很慢。创建新的结构和方法更好
concat



欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/zaji/4908291.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2022-11-12
下一篇2022-11-12

发表评论

登录后才能评论

评论列表(0条)

    保存