Python运行效率低的原因有哪些_软件运维

1.Python是动态语言

动态语言是一类在运行时可以衡丛绝改变其结构的语言，如新的函数、对象、代码可以被引入，已有的函数可以被删除或其他结构上的变化等，该类语言更具有活性，但是不可避免的因为运行时的不确定性也影响运行效率。

2.Python是解释执行

相比于C语言编译性语言编写的程序，Python是解释执行语言，其运行过程是Python运行文件程序时，Python解释器将源代码转换为字节码，然后再由Python解释器来执行这些字节码。其每次运行都要进行转换成字节码，然后再由虚拟机把字节码转换成机器语言，最后才能在硬件上运行，与编译性语言相比，其过程更复杂，性能肯定会受影响。

3.Python中一切都是对象

Python是一门面向对象的编程语言，其设计理念是一郑消切皆是对象，如数咐姿字、字符串、元组、列表、字典、函数、方法、类、模块等都是对象，包括代码，每个对象都需要维护引用计数，因此，增加了额外工作，影响了性能。

4.Python GIL

GIL是Python最为诟病的一点，因为GIL，Python中的多线程并不能真正的并发，即使在单线程，GIL也会带来很大的性能影响，因为python每执行100个opcode就会尝试线程的切换，因此，影响Python运行效率。

5.垃圾回收

Python采用标记和分代的垃圾回收策略，每次垃圾回收的时候都会中断正在执行的程序，造成所谓的顿卡，影响运行效率。

最近编写并运行了一个处理1500万个数据的程序，本来最初每秒可以处理150个左右的数据，预计大概15个小时的时间就可以处理完，晚上的时候就开始运行，本以为等到第二天中午就可以得到结果呢，，，

可是，等我第二天的时候一看，什么？？？还没处理完，当前的数据处理速度变成了一秒5个左右，然后还需要等待300个小时。

然后就查了一下这个问题，原来同样也有很多人在处理培察蔽大数据的时候遇到了这个问题，大多数的文章分析的原因都是说由于GC（垃圾回收）造成的性能下降。

Python的垃圾回收机制的工作原理为每个对象维护一个引用计数，每次内存对象的创建与销毁都必须修改引用计数，从而在大量的对象创建时，需要大量的执行修改引用计数 *** 作，对于程序执行过程中，额外的性能开销是令人可怕的。回收的触发时机有两种可能，一是用户主动调用gc.collect(),二是对象数量超过阈值。

所以正是GC拖慢了程序的性能，所以我们可以考虑在处理的时候禁止垃圾回收。

通过这样的改进之后速度确度会有很大的提升。但是又有也会另外的一个问题，内存溢出，由于运行的过程中生成大量的对象，一次使用后就没有了引用，由于关闭了垃圾回收机制，一直存在内存中得不到清理，然后程序的内存使用量越来越大。解决的方法就是定期打开gc.enable()再关配州闭或者主动调用gc.collect(),这样就可以了。

通过上述的改进后程序确实了很多，可是我的程序还是运行的越来越慢，我都怀疑人生了，然后分别测试了各个步骤所花费的时间才知道了原因，我使用了pandas创建一个DataFrame,然后每次迭代得到的结果都添加新的数据到DataFrame中，随着里边的数据越来越多，添加的速度也就越来越慢了，严重的拖累的运行速度。这里的解决方法有两个：

1 分段保存结果，间隔一段时间就保存一次结果，最后再将多次的结果合并。

2 换一个数据存储方法，我是直接使用了python的没和字典进行保存结果，它随着数据的增多添加的速度也会变慢，但是差别不是很大，在可接受的范围内，可以使用；或者再加上方法1，分段进行保存再合并也是可以的。

pre{overflow-x: auto}

Python 是世界上使用最广泛的编程语言之一。它是一种解释型高级通用编程语言，具有广泛的用途，几乎可以将其用于所有事物。其以简单的语法、优雅的代码和丰富的第三方库而闻名。python除了有很多优点外，但在速度上还有一个非常大的缺点。

虽然Python代码运行缓慢，但可以通过下面分享的5个小技巧提升Python运行速度！

首先，定义一个计时函数timeshow，通过简单的装饰，可以打印指定函数的运行时间。

这个函数在下面的例子中会被多次使用。

def timeshow(func): from time import time def newfunc(*arg, **kw): t1 = time() 誉竖斗 res = func(*arg, **kw) t2 = time() print(f"{func.__name__: >10} : {t2-t1:.6f} sec") return res return newfunc @timeshow def test_it(): print("hello pytip") test_it() 1. 选择合适的数据结构

使用正确的数据结构对python脚本的运行时间有显着影响。Python 有四种内置的数据结构：

列表 : List

元组 : Tuple

集合 : Set

字典 : Dictionary

但是，大多数开发人员在所有情况下都使用列表。这是不正确的做法，应纤凳该根据任务使用合适数据结构。

运行下面的代码，可以看到元组执行简单检索 *** 作的速度比列表快。其中dis模块反汇编了一个函数的字节码，这有利于查看列表和元组之间的区别。

import dis def a(): data = [1, 2, 庆磨3, 4, 5,6,7,8,9,10] x =data[5] return x def b(): data = (1, 2, 3, 4, 5,6,7,8,9,10) x =data[5] return x print("-----:使用列表的机器码:------") dis.dis(a) print("-----:使用元组的机器码:------") dis.dis(b)

运行输出:

-----:使用列表的机器码:------

3 0 LOAD_CONST 1 (1)

2 LOAD_CONST 2 (2)

4 LOAD_CONST 3 (3)

6 LOAD_CONST 4 (4)

8 LOAD_CONST 5 (5)

10 LOAD_CONST 6 (6)

12 LOAD_CONST 7 (7)

14 LOAD_CONST 8 (8)

16 LOAD_CONST 9 (9)

18 LOAD_CONST 10 (10)

20 BUILD_LIST 10

22 STORE_FAST 0 (data)

4 24 LOAD_FAST 0 (data)

26 LOAD_CONST 5 (5)

28 BINARY_SUBSCR

30 STORE_FAST 1 (x)

5 32 LOAD_FAST 1 (x)

34 RETURN_VALUE

-----:使用元组的机器码:------

7 0 LOAD_CONST 1 ((1, 2, 3, 4, 5, 6, 7, 8, 9, 10))

2 STORE_FAST 0 (data)

8 4 LOAD_FAST 0 (data)

6 LOAD_CONST 2 (5)

8 BINARY_SUBSCR

10 STORE_FAST 1 (x)

9 12 LOAD_FAST 1 (x)

14 RETURN_VALUE

看下列表的机器码，冗长而多余！

2. 善用强大的内置函数和第三方库

如果你正在使用python并且仍在自己编写一些通用函数(比如加法、减法)，那么是在侮辱python。 Python有大量的库和内置函数来帮助你不用编写这些函数。如果研究下，那么你会惊奇地发现几乎90%的问题已经有第三方包或内置函数来解决。

可以通过访问官方文档查看所有内置函数。你也可以在wiki python上找到更多使用内置函数的场景。

比如，现在我们想合并列表中的所有单词为一个句子，比较法自己编写和调用库函数的区别:

# ❌ 正常人能想到的方法 @timeshow def f1(list): s ="" for substring in list: s += substring return s # ✅ pythonic 的方法 @timeshow def f2(list): s = "".join(list) return s l = ["I", "Love", "Python"] * 1000 # 为了看到差异，我们把这个列表放大了 f1(l) f2(l)

运行输出:

f1 : 0.000227 sec

f2 : 0.000031 sec

3. 少用循环

用列表推导式代替循环

用迭代器代替循环

用 filter() 代替循环

减少循环次数，精确控制，不浪费CPU

## 返回n以内的可以被7整除的所有数字。 # ❌ 正常人能想到的方法: @timeshow def f_loop(n): L=[] for i in range(n): if i % 7 ==0: L.append(i) return L # ✅ 列表推导式 @timeshow def f_list(n): L = [i for i in range(n) if i % 7 == 0] return L # ✅ 迭代器 @timeshow def f_iter(n): L = (i for i in range(n) if i % 7 == 0) return L # ✅ 过滤器 @timeshow def f_filter(n): L = filter(lambda x: x % 7 == 0, range(n)) return L # ✅ 精确控制循环次数 @timeshow def f_mind(n): L = (i*7 for i in range(n//7)) return L n = 1_000_000 f_loop(n) f_list(n) f_iter(n) f_filter(n) f_mind(n)

输出为:

f_loop : 0.083017 sec

f_list : 0.056110 sec

f_iter : 0.000015 sec

f_filter : 0.000003 sec

f_mind : 0.000002 sec

谁快谁慢，一眼便知！

filter 配合 lambda 大法就是屌！！！

4. 避免循环重复计算

如果你有一个迭代器，必须用它的元素做一些耗时计算，比如匹配正则表达式。你应该将正则表达式模式定义在循环之外，因为最好只编译一次模式，而不是在循环的每次迭代中一次又一次地编译它。

只要有可能，就应该尝试在循环外进行尽可能多的运算，比如将函数计算分配给局部变量，然后在函数中使用它。

# ❌ 应改避免的方式： @timeshow def f_more(s): import re for i in s: m = re.search(r'a*[a-z]?c', i) # ✅ 更好的方式： @timeshow def f_less(s): import re regex = re.compile(r'a*[a-z]?c') for i in s: m = regex.search(i) s = ["abctestabc"] * 1_000 f_more(s) f_less(s)

输出为:

f_more : 0.001068 sec

f_less : 0.000365 sec

5. 少用内存、少用全局变量

内存占用是指程序运行时使用的内存量。为了让Python代码运行得更快，应该减少程序的内存使用量，即尽量减少变量或对象的数量。

Python 访问局部变量比全局变量更有效。在有必要之前，应该始终尝试忽略声明全局变量。一个在程序中定义过的全局变量会一直存在，直到整个程序编译完成，所以它一直占据着内存空间。另一方面，局部变量访问更快，且函数完成后即可回收。因此，使用多个局部变量比使用全局变量会更好。

# ❌ 应该避免的方式： message = "Line1\n" message += "Line2\n" message += "Line3\n" # ✅ 更好的方式： l = ["Line1","Line2","Line3"] message = '\n'.join(l) # ❌ 应该避免的方式： x = 5 y = 6 def add(): return x+y add() # ✅ 更好的方式： def add(): x = 5 y = 6 return x+y add()

总结

本篇文章就到这里了，希望能够给你带来帮助，也希望您能够多多关注的更多内容!

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/yw/12352385.html

Python运行效率低的原因有哪些

发表评论

评论列表（0条）