python之多线程原理_框架

并发：逻辑上具备同时处理多个任务的能力。

并行：物理上在同一时刻执行多个并发任务。

举例：开个QQ，开了一个进程，开了微信，开了一个进程。在QQ这个进程里面，传输文字开一个线程、传输语音开了一个线程、d出对话框又开了一个线程。

总结：开一个软件，相当于开了一个进程。在这个软件运行的过程里，多个工作同时运转，完成了QQ的运行，那么这个多个工作分别有多个线程。

线程和进程之间的区别：

进程在python中的使用，对模块threading进行 *** 作，调用的这个三方库。可以通过 help(threading) 了解其中的方法、变量使用情况。也可以使用 dir(threading) 查看目录结构。

current_thread_num = threadingactive_count() # 返回正在运行的线程数量

run_thread_len = len(threadingenumerate()) # 返回正在运行的线程数量

run_thread_list = threadingenumerate() # 返回当前运行线程的列表

t1=threadingThread(target=dance) #创建两个子线程，参数传递为函数名

t1setDaemon(True) # 设置守护进程，守护进程：主线程结束时自动退出子线程。

t1start() # 启动子线程

t1join() # 等待进程结束 exit()`# 主线程退出，t1子线程设置了守护进程，会自动退出。其他子线程会继续执行。

在Python语言中Python线程可以从这里开始与主线程对GIL的竞争，在t_bootstrap中，申请完了GIL，也就是说子线程也就获得了GIL，使其始终保存着活动线程的状态对象。

当PyEval_AcquireThread结束之后，子线程也就获得了GIL，并且做好了一切执行的准备。接下来子线程通过PyEval_ CallObjectWithKeywords，将最终调用我们已经非常熟悉的PyEval_EvalFrameEx。

也就是Python的字节码执行引擎。传递进PyEval_CallObjectWithKeywords的boot->func是一PyFunctionObject对象，正是therad1py中定义的threadProc编译后的结果。在PyEval_CallObjectWithKeywords结束之后，子线程将释放GIL，并完成销毁线程的所有扫尾工作，到了这里，子线程就结束了。

从t_bootstrap的代码看上去，似乎子线程会一直执行，直到子线程的所有计算都完成，才会通过PyThreadState_DeleteCurrent释放GIL。如此一来，那主线程岂非一直都会处于等待GIL的状态？如果真是这样，那Python线程显然就不可能支持多线程机制了。

实际上在PyEval_EvalFrameEx中，图15-2中显示的Python内部维护的那个模拟时钟中断会不断地激活线程的调度机制，在子线程和主线程之间不断地进行切换。从而真正实现多线程机制，当然，这一点我们将在后面详细剖析。现在我们感兴趣的是子线程在PyEval_AcquireThreade中到底做了什么。

到这里，了解了PyEval_AcquireThread，似乎创建线程的机制都清晰了。但实际上，有一个非常重要的机制——线程状态保护机制——隐藏在了一个毫不起眼的地方：PyThreadState_New。

[threadmodulec] static PyObject thread_PyThread_start_new_thread(PyObject self, PyObject fargs) { PyObject func, args, keyw = NULL; struct bootstate boot; long ident; PyArg_UnpackTuple(fargs, "start_new_thread", 2, 3, &func, &args, &keyw); //[1]：创建bootstate结构 boot = PyMem_NEW(struct bootstate, 1); boot->interp = PyThreadState_GET()->interp; boot->funcfunc = func; boot->argsargs = args; boot->keywkeyw = keyw; //[2]：初始化多线程环境 PyEval_InitThreads(); / Start the interpreter's thread-awareness / //[3]：创建线程 ident = PyThread_start_new_thread(t_bootstrap, (void) boot); return PyInt_FromLong(ident); [threadc] / Support for runtime thread stack size tuning A value of 0 means using the platform's default stack size or the size specified by the THREAD_STACK_SIZE macro / static size_t _pythread_stacksize = 0; [thread_nth] long PyThread_start_new_thread(void (func)(void ), void arg) { unsigned long rv; callobj obj; objid = -1; / guilty until proved innocent / objfunc = func; objarg = arg; objdone = CreateSemaphore(NULL, 0, 1, NULL); rv = _beginthread(bootstrap, _pythread_stacksize, &obj); / use default stack size / if (rv == (unsigned long)-1) { //创建raw thread失败 objid = -1; } else { WaitForSingleObject(objdone, INFINITE); } CloseHandle((HANDLE)objdone); return objid; }

这个机制对于理解Python线程的创建和维护是非常关键的。要剖析线程状态的保护机制，我们首先需要回顾一下线程状态。在Python中，每一个Python线程都会有一个线程状态对象与之关联。

在线程状态对象中，记录了每一个线程所独有的一些信息。实际上，在剖析Python的初始化过程时，我们曾经见过这个对象。每一个线程对应的线程状态对象都保存着这个线程当前的PyFrameObject对象，线程的id这样一些信息。有时候，线程是需要访问这些信息的。

比如考虑一个最简单的情形，在某种情况下，每个线程都需要访问线程状态对象中所保存的thread_id信息，显然，线程A获得的应该是A的thread_id，线程B亦然。倘若线程A获得的是B的thread_id，那就坏菜了。这就意味着Python线程内部必须有一套机制，这套机制与 *** 作系统管理进程的机制非常类似。

我们知道，在 *** 作系统从进程A切换到进程B时，首先会保存进程A的上下文环境，再进行切换；当从进程B切换回进程A时，又会恢复进程A的上下文环境，这样就保证了进程A始终是在属于自己的上下文环境中运行。

这里的线程状态对象就等同于进程的上下文，Python同样会有一套存储、恢复线程状态对象的机制。同时，在Python内部，维护着一个全局变量：PyThreadState _PyThread- State_Current。

当前活动线程所对应的线程状态对象就保存在这个变量里，当Python调度线程时，会将被激活的线程所对应的线程状态对象赋给_PyThreadState_Current，使其始终保存着活动线程的状态对象。

这就引出了这样的一个问题：Python如何在调度进程时，获得被激活线程对应的状态对象？Python内部会通过一个单向链表来管理所有的Python线程的状态对象，当需要寻找一个线程对应的状态对象时。

最近在做一个爬虫相关的项目，单线程的整站爬虫，耗时真的不是一般的巨大，运行一次也是心累，，，所以，要想实现整站爬虫，多线程是不可避免的，那么python多线程又应该怎样实现呢？这里主要要几个问题（关于python多线程的GIL问题就不再说了，网上太多了）。

一、既然多线程可以缩短程序运行时间，那么，是不是线程数量越多越好呢？

显然，并不是，每一个线程的从生成到消亡也是需要时间和资源的，太多的线程会占用过多的系统资源（内存开销，cpu开销），而且生成太多的线程时间也是可观的，很可能会得不偿失，这里给出一个最佳线程数量的计算方式：

最佳线程数的获取：

1、通过用户慢慢递增来进行性能压测，观察QPS（即每秒的响应请求数，也即是最大吞吐能力。），响应时间

2、根据公式计算:服务器端最佳线程数量=((线程等待时间+线程cpu时间)/线程cpu时间) cpu数量

3、单用户压测，查看CPU的消耗，然后直接乘以百分比，再进行压测，一般这个值的附近应该就是最佳线程数量。

二、为什么要使用线程池？

对于任务数量不断增加的程序，每有一个任务就生成一个线程，最终会导致线程数量的失控，例如，整站爬虫，假设初始只有一个链接a，那么，这个时候只启动一个线程，运行之后，得到这个链接对应页面上的b，c，d，，，等等新的链接，作为新任务，这个时候，就要为这些新的链接生成新的线程，线程数量暴涨。在之后的运行中，线程数量还会不停的增加，完全无法控制。所以，对于任务数量不端增加的程序，固定线程数量的线程池是必要的。

三、如何使用线程池

过去使用threadpool模块，现在一般使用concurrentfutures模块，这个模块是python3中自带的模块，但是，python27以上版本也可以安装使用，具体使用方式如下：

注意到：

concurrentfuturesThreadPoolExecutor，在提交任务的时候，有两种方式，一种是submit（）函数，另一种是map（）函数，两者的主要区别在于：

以前python的threading 模块写多线程也用的挺多的，但是一般就是同时执行多个函数

通过上面的函数我们不难发现一个问题，我们无法获取到每一个线程执行之后的返回值

主要是通过重写Thread里面的run()方法,改变了多线程的执行方式，通过get_result得到函数运行的返回值

以上就是关于python之多线程原理全部的内容，包括:python之多线程原理、python thread 怎么区分主线程、python 线程池的使用等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/web/9725215.html

python之多线程原理

发表评论

评论列表（0条）