Process and Coroutine

Jian YE 收录于 OS

2023-07-13 2023-07-13 约 2573 字预计阅读 6 分钟 - 次阅读

警告

本文最后更新于 2023-07-13，文中内容可能已过时。

进程和线程的区别

进程、线程、协程的概念

进程：

是并发执行的程序在执行过程中分配和管理资源的基本单位，是一个动态概念，竞争计算机系统资源的基本单位。

线程：

是进程的一个执行单元，是进程内科调度实体。比进程更小的独立运行的基本单位。线程也被称为轻量级进程。

协程：

是一种比线程更加轻量级的存在。一个线程也可以拥有多个协程。其执行过程更类似于子例程，或者说不带返回值的函数调用。

进程和线程的区别

地址空间：

线程共享本进程的地址空间，而进程之间是独立的地址空间。

资源：

线程共享本进程的资源如内存、I/O、cpu等，不利于资源的管理和保护，而进程之间的资源是独立的，能很好的进行资源管理和保护。

健壮性：

多进程要比多线程健壮，一个进程崩溃后，在保护模式下不会对其他进程产生影响，但是一个线程崩溃整个进程都死掉。

执行过程：

每个独立的进程有一个程序运行的入口、顺序执行序列和程序入口，执行开销大。
但是线程不能独立执行，必须依存在应用程序中，由应用程序提供多个线程执行控制，执行开销小。

可并发性：

两者均可并发执行。

切换时：

进程切换时，消耗的资源大，效率高。所以涉及到频繁的切换时，使用线程要好于进程。同样如果要求同时进行并且又要共享某些变量的并发操作，只能用线程不能用进程。

其他：

线程是处理器调度的基本单位，但是进程不是。

协程和线程的区别

协程避免了无意义的调度，由此可以提高性能，但程序员必须自己承担调度的责任。同时，协程也失去了标准线程使用多CPU的能力。

线程（thread）

相对独立
有自己的上下文
切换受系统控制；

协程（coroutine）

相对独立
有自己的上下文
切换由自己控制，由当前协程切换到其他协程由当前协程来控制。

何时使用多进程，何时使用多线程？

对资源的管理和保护要求高，不限制开销和效率时，使用多进程。

要求效率高，频繁切换时，资源的保护管理要求不是很高时，使用多线程。

为什么会有线程？

每个进程都有自己的地址空间，即进程空间，在网络或多用户换机下，一个服务器通常需要接收大量不确定数量用户的并发请求，为每一个请求都创建一个进程显然行不通（系统开销大响应用户请求效率低），因此操作系统中线程概念被引进。

*python多线程存在的问题

存在问题：

python由于历史遗留的问题，严格说多个线程并不会同时执行（没法有效利用多核处理器，python的并发只是在交替执行不同的代码）。

多线程在Python中只能交替执行，即使100个线程跑在100核CPU上，也只能用到1个核。所以python的多线程并发并不能充分利用多核，并发没有java的并发严格。

原因：

原因就在于GIL ，在Cpython 解释器（Python语言的主流解释器）中，有一把全局解释锁（GIL, Global Interpreter Lock），在解释器解释执行Python 代码时，任何Python线程执行前，都先要得到这把GIL锁。

这个GIL全局锁实际上把所有线程的执行代码都给上了锁。

这意味着，python在任何时候，只可能有一个线程在执行代码。

其它线程要想获得CPU执行代码指令，就必须先获得这把锁，如果锁被其它线程占用了，那么该线程就只能等待，直到占有该锁的线程释放锁才有执行代码指令的可能。

多个线程一起执行反而更加慢的原因：

同一时刻，只有一个线程在运行，其它线程只能等待，即使是多核CPU，也没办法让多个线程「并行」地同时执行代码，只能是交替执行，因为多线程涉及到上线文切换、锁机制处理（获取锁，释放锁等），所以，多线程执行不快反慢。

什么时候GIL被释放？

当一个线程遇到I/O 任务时，将释放GIL。

计算密集型（CPU-bound）线程执行100次解释器的计步（ticks）时（计步可粗略看作Python 虚拟机的指令），也会释放GIL。

即，每执行100条字节码，解释器就自动释放GIL锁，让别的线程有机会执行。

Python虽然不能利用多线程实现多核任务，但可以通过多进程实现多核任务。多个Python进程有各自独立的GIL锁，互不影响。

参考博客

*进程的几种通信方式

管道：

速度慢，容量有限，只有父子进程能通讯

FIFO：

任何进程间都能通讯，但速度慢

消息队列：

容量受到系统限制，且要注意第一次读的时候，要考虑上一次没有读完数据的问题

信号量：

不能传递复杂消息，只能用来同步

共享内存区：

能够很容易控制容量，速度快，但要保持同步，比如一个进程在写的时候，另一个进程要注意读写的问题，相当于线程中的线程安全，当然，共享内存区同样可以用作线程间通讯，不过没这个必要，线程间本来就已经共享了同一进程内的一块内存

*举例说明进程、线程、协程

程序：

例如main.py这是程序，是一个静态的程序。

python进程：

一个程序运行起来后，代码+用到的资源称之为进程，它是操作系统分配资源的基本单元。

multiprocessing.Process实现多进程

进程池：

如果要启动大量的子进程，可以用进程池的方式批量创建子进程。

multiprocessing.Pool

进程间通信：

各自在独立的地址空间，并不能直接进行全局的数据共享，在创建子进程的时候会将父进程的数据复制到子进程中一份。

进程间通信 Python的multiprocessing模块包装了底层的机制，提供了Queue、Pipes等多种方式来交换数据。

python线程：

thread是比较低级,底层的模块，threading是高级模块，对thread进行了封装,可以更加方便的被使用。

python协程：

线程和进程的操作是由程序触发系统接口，最后的执行者是系统；协程的操作则是程序员,当程序中存在大量不需要CPU的操作时（例如 I/O），适用于协程。

例如yield

其中 yield 是python当中的语法。

当协程执行到yield关键字时，会暂停在那一行，等到主线程调用send方法发送了数据，协程才会接到数据继续执行。

但是，yield让协程暂停，和线程的阻塞是有本质区别的。

</font color=red>协程的暂停完全由程序控制，线程的阻塞状态是由操作系统内核来进行切换。

因此，协程的开销远远小于线程的开销。

最重要的是，协程不是被操作系统内核所管理，而完全是由程序所控制(也就是在用户态执行)。

这样带来的好处就是性能得到了很大的提升，不会像线程切换那样消耗资源。

python可以通过 yield/send 的方式实现协程。在python 3.5以后，async/await 成为了更好的替代方案。

Buy me a coffee~

赞赏

支付宝

微信