Python_随笔_内存溢出

Python

通常，

iterrows

仅应在非常特殊的情况下使用。这是执行各种 *** 作的一般优先顺序：

1) vectorization2) using a custom cython routine3) apply    a) reductions that can be performed in cython    b) iteration in python space4) itertuples5) iterrows6) updating an empty frame (e.g. using loc one-row-at-a-time)

使用自定义的

cython

例程通常太复杂了，所以现在就跳过它。

1）矢量化始终是首选。但是，有一小部分案例无法以明显的方式进行向量化（主要涉及复发）。此外，在较小的框架上，执行其他方法可能会更快。

3）应用包括可通常是通过在用

Cython

空间迭代器（这在pandas内部完成的）来进行（这是一个）的情况下。

这取决于

apply

表达式内部发生的情况。例如，

df.apply(lambda x: np.sum(x))

将很快执行（当然

df.sum(1)

更好）。但是，类似：的 *** 作

df.apply(lambda x: x['b'] + 1)

将在python空间中执行，因此速度较慢。

4）

itertuples

不会将数据装箱成一个系列，而只是将其作为元组返回

5）是否

iterrows

将数据包装到系列中。除非你真的需要此方法，否则请使用其他方法。

6）一次更新一个空行。我已经看到这种方法使用了太多的方法。这是迄今为止最慢的。它可能很常见（对于某些

python

结构来说相当快），但是

Dataframe

对索引进行了大量检查，因此每次更新一行总是很慢。创建新的结构和方法更好

concat

。

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/zaji/4908291.html

Python

发表评论

评论列表（0条）