python - 进程

发布时间：2020-12-17 00:02:46 所属栏目：Python 来源：网络整理

导读：一，理论知识 1，什么是进程进程（Process）是计算机中的程序关于某数据集合上的一次运行活动，是系统进行资源分配和调度的基本单位，是结构的基

一，理论知识

1，什么是进程

进程（Process）是计算机中的程序关于某数据集合上的一次运行活动，是系统进行资源分配和调度的基本单位，是结构的基础。在早期面向进程设计的计算机结构中，进程是程序的基本执行实体；在当代面向线程设计的计算机结构中，进程是线程的容器。程序是指令、数据及其组织形式的描述，进程是程序的实体。

注意：同一个程序执行两次，就会在操作系统中出现两个进程，所以我们可以同时运行一个软件，分别做不同的事情也不会混乱。

2，进程调度

要想多个进程交替运行，操作系统必须对这些进程进行调度，这个调度也不是随即进行的，而是需要遵循一定的法则，由此就有了进程的调度算法。

先来先服务（FCFS）调度算法是一种最简单的调度算法，该算法既可用于作业调度，也可用于进程调度。FCFS算法比较有利于长作业（进程），而不利于短作业（进程）。由此可知，本算法适合于CPU繁忙型作业，而不利于I/O繁忙型的作业（进程）。

短作业（进程）优先调度算法（SJ/PF）是指对短作业或短进程优先调度的算法，该算法既可用于作业调度，也可用于进程调度。但其对长作业不利；不能保证紧迫性作业（进程）被及时处理；作业的长短只是被估算出来的。

1) 应设置多个就绪队列，并为各个队列赋予不同的优先级。第一个队列的优先级最高，第二个队列次之，其余各队列的优先权逐个降低。该算法赋予各个队列中进程执行时间片的大小也各不相同，在优先权愈高的队列中，为每个进程所规定的执行时间片就愈小。例如，第二个队列的时间片要比第一个队列的时间片长一倍，……，第i+2(3) 仅当第一队列空闲时，调度程序才调度第二队列中的进程运行；仅当第1～(i-1)队列均空时，才会调度第i队列中的进程运行。如果处理机正在第i队列中为某进程服务时，又有新进程进入优先权较高的队列(第1～(i-1)中的任何一个队列)，则此时新进程将抢占正在运行进程的处理机，即由调度程序把正在运行的进程放回到第i队列的末尾，把处理机分配给新到的高优先权进程。

3，进程的并行与并发

并行?:?并行是指两者同时执行，比如赛跑，两个人都在不停的往前跑；（资源够用，比如三个线程，四核的CPU ）

并发?:?并发是指资源有限的情况下，两者交替轮流使用资源，比如一段路(单核CPU资源)同时只能过一个人，A走一段后，让给B，B用完继续给A ，交替使用，目的是提高效率。

区别:

并行是从微观上，也就是在一个精确的时间片刻，有不同的程序在执行，这就要求必须有多个处理器。并发是从宏观上，在一个时间段上可以看出是同时执行的，比如一个服务器同时处理多个session。

4，同步异步阻塞非阻塞

状态介绍

在了解其他概念之前，首先要了解进程的几个状态。在程序运行的过程中，由于被操作系统的调度算法控制，程序会进入几个状态：就绪，运行和阻塞。

　　（1）就绪(Ready)状态

　　当进程已分配到除CPU以外的所有必要的资源，只要获得处理机便可立即执行，这时的进程状态称为就绪状态。

　　（2）执行/运行（Running）状态当进程已获得处理机，其程序正在处理机上执行，此时的进程状态称为执行状态。

　　（3）阻塞(Blocked)状态正在执行的进程，由于等待某个事件发生而无法执行时，便放弃处理机而处于阻塞状态。引起进程阻塞的事件可有多种，例如，等待I/O完成、申请缓冲区不能满足、等待信件(信号)等。

?

同步和异步

? ? ??所谓同步就是一个任务的完成需要依赖另外一个任务时，只有等待被依赖的任务完成后，依赖的任务才能算完成，这是一种可靠的任务序列。要么成功都成功，失败都失败，两个任务的状态可以保持一致。

　　所谓异步是不需要等待被依赖的任务完成，只是通知被依赖的任务要完成什么工作，依赖的任务也立即执行，只要自己完成了整个任务就算完成了。至于被依赖的任务最终是否真正完成，依赖它的任务无法确定，所以它是不可靠的任务序列。

第一种：前者(排队等候)就是同步等待消息通知，也就是我要一直在等待银行办理业务情况；

第二种：后者(等待别人通知)就是异步等待消息通知。在异步消息处理中，等待消息通知者(在这个例子中就是等待办理业务的人)往往注册一个回调机制，在所等待的事件被触发时由触发机制(在这里是柜台的人)通过某种机制(在这里是写在小纸条上的号码，喊号)找到等待该事件的人。

阻塞和非阻塞

? ? ??阻塞和非阻塞这两个概念与程序（线程）等待消息通知(无所谓同步或者异步)时的状态有关。也就是说阻塞与非阻塞主要是程序（线程）等待消息通知时的状态角度来说的

注意：同步非阻塞形式实际上是效率低下的，想象一下你一边打着电话一边还需要抬头看到底队伍排到你了没有。如果把打电话和观察排队的位置看成是程序的两个操作的话，这个程序需要在这两种不同的行为之间来回的切换，效率可想而知是低下的；而异步非阻塞形式却没有这样的问题，因为打电话是你(等待者)的事情，而通知你则是柜台(消息触发机制)的事情，程序没有在两种不同的操作中来回切换。

同步/异步与阻塞/非阻塞

同步阻塞形式

　　效率最低。拿上面的例子来说，就是你专心排队，什么别的事都不做。

异步阻塞形式

　　如果在银行等待办理业务的人采用的是异步的方式去等待消息被触发（通知），也就是领了一张小纸条，假如在这段时间里他不能离开银行做其它的事情，那么很显然，这个人被阻塞在了这个等待的操作上面；

　　异步操作是可以被阻塞住的，只不过它不是在处理消息时阻塞，而是在等待消息通知时被阻塞。

同步非阻塞形式

　　实际上是效率低下的。

　　想象一下你一边打着电话一边还需要抬头看到底队伍排到你了没有，如果把打电话和观察排队的位置看成是程序的两个操作的话，这个程序需要在这两种不同的行为之间来回的切换，效率可想而知是低下的。

异步非阻塞形式

　　效率更高，

　　因为打电话是你(等待者)的事情，而通知你则是柜台(消息触发机制)的事情，程序没有在两种不同的操作中来回切换。

　　比如说，这个人突然发觉自己烟瘾犯了，需要出去抽根烟，于是他告诉大堂经理说，排到我这个号码的时候麻烦到外面通知我一下，那么他就没有被阻塞在这个等待的操作上面，自然这个就是异步+非阻塞的方式了。

　　

很多人会把同步和阻塞混淆，是因为很多时候同步操作会以阻塞的形式表现出来，同样的，很多人也会把异步和非阻塞混淆，因为异步操作一般都不会在真正的IO操作处被阻塞。

5，进程的创建与结束

进程的创建

　但凡是硬件，都需要有操作系统去管理，只要有操作系统，就有进程的概念，就需要有创建进程的方式，一些操作系统只为一个应用程序设计，比如微波炉中的控制器，一旦启动微波炉，所有的进程都已经存在。

　　而对于通用系统（跑很多应用程序），需要有系统运行过程中创建或撤销进程的能力，主要分为4中形式创建新的进程：

　　1. 系统初始化（查看进程linux中用ps命令，windows中用任务管理器，前台进程负责与用户交互，后台运行的进程与用户无关，运行在后台并且只在需要时才唤醒的进程，称为守护进程，如电子邮件、web页面、新闻、打印）

　　2. 一个进程在运行过程中开启了子进程（如nginx开启多进程，os.fork,subprocess.Popen等）

　　3. 用户的交互式请求，而创建一个新进程（如用户双击暴风影音）

　　4. 一个批处理作业的初始化（只在大型机的批处理系统中应用）

　　无论哪一种，新进程的创建都是由一个已经存在的进程执行了一个用于创建进程的系统调用而创建的。　

1　　2. 在windows中该系统调用是：CreateProcess，CreateProcess既处理进程的创建，也负责把正确的程序装入新进程。

　　关于创建子进程，UNIX和windows

　　1.相同的是：进程创建后，父进程和子进程有各自不同的地址空间（多道技术要求物理层面实现进程之间内存的隔离），任何一个进程的在其地址空间中的修改都不会影响到另外一个进程。

　　2.不同的是：在UNIX中，子进程的初始地址空间是父进程的一个副本，提示：子进程和父进程是可以有只读的共享内存区的。但是对于windows系统来说，从一开始父进程与子进程的地址空间就是不同的。

进程的结束

　　1. 正常退出（自愿，如用户点击交互式页面的叉号，或程序执行完毕调用发起系统调用正常退出，在linux中用exit，在windows中用ExitProcess）

　　2. 出错退出（自愿，python a.py中a.py不存在）

　　3. 严重错误（非自愿，执行非法指令，如引用不存在的内存，1/0等，可以捕捉异常，try...except...）

　　4. 被其他进程杀死（非自愿，如kill -9）

二，在python程序中的进程操作

　　之前我们已经了解了一些进程相关的理论知识，了解进程是什么应该不再困难了，刚刚我们已经了解了，运行中的程序就是一个进程。所有的进程都是通过它的父进程来创建的。因此，运行起来的python程序也是一个进程，那么我们也可以在程序中再创建进程。多个进程可以实现并发效果，也就是说，当我们的程序中存在多个进程的时候，在某些时候，就会让程序的执行速度变快。以我们之前所学的知识，并不能实现创建进程这个功能，所以我们就需要借助python中强大的模块。

1，multiprocessing模块

仔细说来，multiprocess不是一个模块而是python中一个操作、管理进程的包。之所以叫multi是取自multiple的多功能的意思,在这个包中几乎包含了和进程有关的所有子模块。由于提供的子模块非常多，为了方便大家归类记忆，我将这部分大致分为四个部分：创建进程部分，进程同步部分，进程池部分，进程之间数据共享。

?2，multiprocessing.Process模块

Process模块介绍

process模块是一个创建进程的模块，借助这个模块，就可以完成进程的创建。

强调：
1. 需要使用关键字的方式来指定参数
2. args指定的为传给target函数的位置参数，是一个元组形式，必须有逗号

参数介绍：
1 group参数未使用，值始终为None
2 target表示调用对象，即子进程要执行的任务
3 args表示调用对象的位置参数元组，args=(1,2,'egon',)
4 kwargs表示调用对象的字典,kwargs={'name':'egon','age':18}
5 name为子进程的名称

12345 p.join([timeout]):主线程等待p终止（强调：是主线程处于等的状态，而p是处于运行的状态）。timeout是可选的超时时间，需要强调的是，p.join只能join住start开启的进程，而不能join住run开启的进程

12345 p.authkey:进程的身份验证键,默认是由os.urandom()随机生成的32字符的字符串。这个键的用途是为涉及网络连接的底层进程间通信提供安全性，这类连接只有在具有相同的身份验证键时才能成功（了解即可）

在Windows操作系统中由于没有fork(linux操作系统中创建进程的机制)，在创建子进程的时候会自动启动它的这个文件，而在的时候又执行了整个文件。因此如果将process()直接写在文件中就会无限递归创建子进程报错。所以必须把创建子进程的部分使用if ==‘’ 判断保护起来，的时候，就不会递归运行了。

?

使用Process模块创建进程

在一个python进程中开启子进程，start方法和并发效果。

multiprocessing (( == = Process(target=func,args=(1()

multiprocessing (1( == = Process(target=func,)) p.start() p.join() ()

multiprocessing (%os.getpid(),%if name == 'main':
print("主进程id:",os.getpid())
p = Process(target=func)
p.start()

进阶，多个进程同时运行（注意，子进程的执行顺序不是根据启动顺序决定的）

multiprocessing (1 == i range(10= Process(target=func,i)) p.start()

multiprocessing (%1if name == 'main':
p_lst = []
for i in range(10):
p = Process(target=func,args=(i,))
p.start()
p_lst.append(p)
for p in p_lst:p.join()
print("最后再执行父进程:%s"%os.getppid())

除了上面这些开启进程的方法，还有一种以继承Process类的形式开启进程的方式

multiprocessing (,os.getpid(),if name == 'main':
p = MyProcess()
p.start() # 开启一个子进程，让这个子进程执行run方法
 p.join()
print('主进程:',os.getpid())

============================================

# 开启进程的第二种方式给子进程传参数
import time,os
from multiprocessing import Process
class MyProcess(Process):
def init(self,arg):
super().init()
self.arg = arg
def run(self):
time.sleep(1)
print('子进程:',os.getppid(),self.arg)

if name == 'main':

for i in range(10): p = MyProcess('参数%s'%i) p.start() # 开启一个子进程，让这个子进程执行run方法 # p.join() print('主进程:',os.getpid())</pre>

?进程间的数据是隔离的

multiprocessing =(if name == 'main':
n = 100
p = Process(target=work)
p.start()
p.join()
print("主进程:",n)

守护进程

守护进程会随着主进程的结束而结束。

主进程创建守护进程

　　其一：守护进程会在主进程代码执行结束后就终止

　　其二：守护进程内无法再开启子进程,否则抛出异常：AssertionError: daemonic processes are not allowed to have children

注意：进程之间是互相独立的，主进程代码运行结束，守护进程随即终止

multiprocessing =( % == = Myprocess(= True 10) ()

multiprocessing (1231((4563( == = Process(target== Process(target==0.2()

socket聊天并发实例

socket * multiprocessing = socket(type=1,9080= conn.recv(1024if not msg: break print("来自[%s:%s]的一条消息:%s"%(client_addr[0],client_addr[1],msg)) conn.send(msg.upper()) except Exception: break
if name == 'main': # #windows下start进程一定要写到这下面
while True:
conn,client_addr = server.accept()
p = Process(target=talk,args=(conn,client_addr))
p.start()

socket *client = socket(type=SOCK_STREAM)
client.connect(("127.0.0.1",9080))
while True:

msg = input(">>>:").strip() if not msg:continue client.send(msg.encode('utf-8')) msg = client.recv(1024) print(msg.decode("utf-8"))</pre>

多进程中的其他方法

multiprocessing class Myprocess(Process):
def init(self,person):
super().init()
self.name = person

def run(self): print("%s正在学习" % self.name) time.sleep(random.randint(1,5)) print("%s还在学习" % self.name)

if name == 'main':
p1 = Myprocess('小花')
p1.start()
p1.terminate() # 关闭进程,不会立即关闭,所以is_alive立刻查看的结果可能还是存活(上面代码不执行)
print(p1.is_alive()) # True

multiprocessing class Myprocess(Process):
def init(self,person):
self.name=person # name属性是Process中的属性，标示进程的名字
super().init() # 执行父类的初始化方法会覆盖name属性
# self.name = person # 在这里设置就可以修改进程名字了
# self.person = person #如果不想覆盖进程名，就修改属性名称就可以了
def run(self):
print('%s正在学习' % self.name)
# print('%s正在和网红脸聊天' %self.person)
time.sleep(random.randrange(1,5))
print('%s正在学习' % self.name)
# print('%s正在和网红脸聊天' %self.person)

if name == 'main':
p1=Myprocess('小花')
p1.start()
print(p1.pid) # 可以查看子进程的进程id

3，进程同步（multiprocessing.LockSemaphoreEvent）

锁 - multiorocessing.Lock

通过刚刚的学习，我们千方百计实现了程序的异步，让多个任务可以同时在几个进程中并发处理，他们之间的运行没有顺序，一旦开启也不受我们控制。尽管并发编程让我们能更加充分的利用IO资源，但是也给我们带来了新的问题。

　　当多个进程使用同一份数据资源的时候，就会引发数据安全或顺序混乱问题。

multiprocessing def work(n):
print("%s: %s in running" % (n,os.getpid()))
time.sleep(random.random())
print("%s: %s is dime" % (n,os.getpid()))

if name == 'main':
for i in range(5):
p = Process(target=work,))
p.start()

multiprocessing ( % == = i range(5= Process(target=work,lock)) p.start()

　　上面这种情况虽然使用加锁的形式实现了顺序的执行，但是程序又重新变成串行了，这样确实会浪费了时间，却保证了数据的安全。

　　接下来，我们以模拟抢票为例，来看看数据安全的重要性。

multiprocessing =json.load(open(( %dic[def get():
dic=json.load(open('db'))
time.sleep(0.1) #模拟读数据的网络延迟
if dic['count'] >0:
dic['count']-=1
time.sleep(0.2) #模拟写数据的网络延迟
json.dump(dic,open('db','w'))
print('33[43m购票成功33[0m')

def task():
search()
get()

if name == 'main':
for i in range(100): #模拟并发100个客户端抢票
p=Process(target=task)
p.start()

multiprocessing =json.load(open(( %dic[def get():
dic=json.load(open('db'))
time.sleep(random.random()) #模拟读数据的网络延迟
if dic['count'] >0:
dic['count']-=1
time.sleep(random.random()) #模拟写数据的网络延迟
json.dump(dic,'w'))
print('33[32m购票成功33[0m')
else:
print('33[31m购票失败33[0m')

def task(lock):
search()
lock.acquire()
get()
lock.release()

if name == 'main':
lock = Lock()
for i in range(100): #模拟并发100个客户端抢票
p=Process(target=task,args=(lock,))
p.start()

<div class="cnblogs_code">

12#因此我们最好找寻一种解决方案能够兼顾：1、效率高（多个进程共享一块内存的数据）2、帮我们处理好锁问题。这就是mutiprocessing模块为我们提供的基于消息的IPC通信机制：队列和管道。
队列和管道都是将数据存放于内存中
队列又是基于（管道+锁）实现的，可以让我们从复杂的锁问题中解脱出来，
我们应该尽量避免使用共享数据，尽可能使用消息传递和队列，避免处理复杂的同步和锁问题，而且在进程数目增多时，往往可以获得更好的可获展性。

信号量 - multiprocessing.Semaphore

multiprocessing def ktv(person,sem):
sem.acquire()
print('%s走进ktv'%person)
time.sleep(random.randint(1,5)) # 模拟每个人在ktv中待的时间不同
print('%s走出ktv'%person)
sem.release()

if name == 'main':
sem = Semaphore(4) # 4个屋子
for i in range(10): # 10个人
p = Process(target=ktv,args=('person%s'%i,sem))
p.start()

# 信号量实现机制：计数器 + 锁

事件 - multiprocessing.Event

事件处理的机制：全局定义了一个“Flag”，如果“Flag”值为 False，那么当程序执行 event.wait 方法时就会阻塞，如果“Flag”值为True，那么event.wait 方法时便不再阻塞。
clear：将“Flag”设置为False
set：将“Flag”设置为True

multiprocessing def car(e,n):
while True:
if not e.is_set(): # 进程刚开启，is_set()的值是Flase，模拟信号灯为红色
print('33[31m红灯亮33[0m，car%s等着' % n)
e.wait() # 阻塞，等待is_set()的值变成True，模拟信号灯为绿色
print('33[32m车%s 看见绿灯亮了33[0m' % n)
time.sleep(random.randint(3,6))
if not e.is_set(): #如果is_set()的值是Flase，也就是红灯，仍然回到while语句开始
continue
print('车开远了,car',n)
break

def police_car(e,n):
while True:
if not e.is_set():# 进程刚开启，is_set()的值是Flase，模拟信号灯为红色
print('33[31m红灯亮33[0m，car%s等着' % n)
e.wait(0.1) # 阻塞，等待设置等待时间，等待0.1s之后没有等到绿灯就闯红灯走了
if not e.is_set():
print('33[33m红灯,警车先走33[0m，car %s' % n)
else:
print('33[33;46m绿灯，警车走33[0m，car %s' % n)
break

def traffic_lights(e,inverval):
while True:
time.sleep(inverval)
if e.is_set():
print('######',e.is_set())
e.clear() # ---->将is_set()的值设置为False
else:
e.set() # ---->将is_set()的值设置为True
print('***',e.is_set())

if name == 'main':
e = Event()
for i in range(10):
p=Process(target=car,args=(e,i,)) # 创建是个进程控制10辆车
 p.start()

for i in range(5): p = Process(target=police_car,)) # 创建5个进程控制5辆警车

 p.start()
t = Process(target=traffic_lights,10)) # 创建一个进程控制红绿灯
 t.start()

print('============》')</pre>

三，进程间通信 - 队列和管道（multiprocessing.Queue/Pipe）

进程间通信

IPC(Inter-Process Communication)

1，队列

概念介绍

创建共享的进程队列，Queue是多进程安全的队列，可以使用Queue实现多进程之间的数据传递。?

q.get( [ block [,timeout ] ] )
返回q中的一个项目。如果q为空，此方法将阻塞，直到队列中有项目可用为止。block用于控制阻塞行为，默认为True. 如果设置为False，将引发Queue.Empty异常（定义在Queue模块中）。timeout是可选超时时间，用在阻塞模式中。如果在制定的时间间隔内没有项目变为可用，将引发Queue.Empty异常。

q.get_nowait( )
同q.get(False)方法。

q.put(item [,block [,timeout ] ] )
将item放入队列。如果队列已满，此方法将阻塞至有空间可用为止。block控制阻塞行为，默认为True。如果设置为False，将引发Queue.Empty异常（定义在Queue库模块中）。timeout指定在阻塞模式中等待可用空间的时间长短。超时后将引发Queue.Full异常。

q.qsize()
返回队列中目前项目的正确数量。此函数的结果并不可靠，因为在返回结果和在稍后程序中使用结果之间，队列中可能添加或删除了项目。在某些系统上，此方法可能引发NotImplementedError异常。

q.empty()
如果调用此方法时 q为空，返回True。如果其他进程或线程正在往队列中添加项目，结果是不可靠的。也就是说，在返回和使用结果之间，队列中可能已经加入新的项目。

q.full()
如果q已满，返回为True. 由于线程的存在，结果也可能是不可靠的（参考q.empty（）方法）。。

q.cancel_join_thread()
不会再进程退出时自动连接后台线程。这可以防止join_thread()方法阻塞。

q.join_thread()
连接队列的后台线程。此方法用于在调用q.close()方法后，等待所有队列项被消耗。默认情况下，此方法由不是q的原始创建者的所有进程调用。调用q.cancel_join_thread()方法可以禁止这种行为。

代码实例

from multiprocessing import Queue
q=Queue(3)

#put,get,put_nowait,get_nowait,full,empty
q.put(3)
q.put(3)
q.put(3)
# q.put(3) # 如果队列已经满了，程序就会停在这里，等待数据被别人取走，再将数据放入队列。
# 如果队列中的数据一直不被取走，程序就会永远停在这里。
try:
q.put_nowait(3) # 可以使用put_nowait，如果队列满了不会阻塞，但是会因为队列满了而报错。
except: # 因此我们可以用一个try语句来处理这个错误。这样程序不会一直阻塞下去，但是会丢掉这个消息。
print('队列已经满了')

# 因此，我们再放入数据之前，可以先看一下队列的状态，如果已经满了，就不继续put了。
print(q.full()) #满了

print(q.get())
print(q.get())
print(q.get())
# print(q.get()) # 同put方法一样，如果队列已经空了，那么继续取就会出现阻塞。
try:
q.get_nowait(3) # 可以使用get_nowait，如果队列满了不会阻塞，但是会因为没取到值而报错。
except: # 因此我们可以用一个try语句来处理这个错误。这样程序不会一直阻塞下去。
print('队列已经空了')

print(q.empty()) #空了

上面这个例子还没有加入进程通信，只是先来看看队列为我们提供的方法，以及这些方法的使用和现象。

multiprocessing def f(q):
q.put([time.asctime(),'from Eva','hello']) #调用主函数中p进程传递过来的进程参数 put函数为向队列中添加一条数据。

if name == 'main':
q = Queue() #创建一个Queue对象
p = Process(target=f,args=(q,)) #创建一个进程
 p.start()
print(q.get())
p.join()

multiprocessing

上面是一个queue的简单应用，使用队列q对象调用get函数来取得队列中最先进入的数据。接下来看一个稍微复杂一些的例子：

# 向queue中输入数据的函数
def inputQ(queue):
info = str(os.getpid()) + '(put):' + str(time.asctime())
queue.put(info)

# 向queue中输出数据的函数
def outputQ(queue):
info = queue.get()
print ('%s%s33[32m%s33[0m'%(str(os.getpid()),'(get):',info))

# Main
if name == 'main':
multiprocessing.freeze_support()
record1 = [] # store input processes
record2 = [] # store output processes
queue = multiprocessing.Queue(3)

# 输入进程 for i in range(10): process = multiprocessing.Process(target=inputQ,args=(queue,)) process.start() record1.append(process) # 输出进程 for i in range(10): process = multiprocessing.Process(target=outputQ,)) process.start() record2.append(process) for p in record1: p.join() for p in record2: p.join()</pre>

生产者消费者模型

在并发编程中使用生产者和消费者模式能够解决绝大多数并发问题。该模式通过平衡生产线程和消费线程的工作能力来提高程序的整体处理数据的速度。

为什么要使用生产者和消费责模式

在线程世界里，生产者就是生产数据的线程，消费者就是消费数据的线程。在多线程开发当中，如果生产者处理速度很快，而消费者处理速度很慢，那么生产者就必须等待消费者处理完，才能继续生产数据。同样的道理，如果消费者的处理能力大于生产者，那么消费者就必须等待生产者。为了解决这个问题于是引入了生产者和消费者模式。

什么是生产者消费者模式

生产者消费者模式是通过一个容器来解决生产者和消费者的强耦合问题。生产者和消费者彼此之间不直接通讯，而通过阻塞队列来进行通讯，所以生产者生产完数据之后不用等待消费者处理，直接扔给阻塞队列，消费者不找生产者要数据，而是直接从阻塞队列里取，阻塞队列就相当于一个缓冲区，平衡了生产者和消费者的处理能力。

基于队列实现生产者消费者模型

multiprocessing =1,3( %def producer(q):
for i in range(10):
time.sleep(random.randint(1,3))
res='包子%s' %i
q.put(res)
print('%s 生产了 %s' %(os.getpid(),res))

if name == 'main':
q=Queue()
#生产者们:即厨师们
p1=Process(target=producer,args=(q,))

#消费者们:即吃货们 c1=Process(target=consumer,)) #开始

 p1.start()
c1.start()
print('主')

此时的问题是主进程永远不会结束，原因是：生产者p在生产完后就结束了，但是消费者c在取空了q之后，则一直处于死循环中且卡在q.get()这一步。

解决方式无非是让生产者在生产完毕后，往队列中再发一个结束信号，这样消费者在接收到结束信号后就可以break出死循环。

multiprocessing = res None: time.sleep(random.randint(1,res)) q.put(None) == = p1=Process(target=producer,))
#开始

 p1.start()
c1.start()
print('主')

注意：结束信号None，不一定要由生产者发，主进程里同样可以发，但主进程需要等生产者结束后才应该发送该信号

multiprocessing ( %def producer(q):
for i in range(2):
time.sleep(random.randint(1,3))
res='包子%s' %i
q.put(res)
print('33[44m%s 生产了 %s33[0m' %(os.getpid(),))

#开始

 p1.start()
c1.start()

p1.join() q.put(None) #发送结束信号</pre>

JoinableQueue([maxsize])

创建可连接的共享进程队列。这就像是一个Queue对象，但队列允许项目的使用者通知生产者项目已经被成功处理。通知进程是使用共享的信号和条件变量来实现的。?

q.task_done()
使用者使用此方法发出信号，表示q.get()返回的项目已经被处理。如果调用此方法的次数大于从队列中删除的项目数量，将引发ValueError异常。

q.join()
生产者将使用此方法进行阻塞，直到队列中所有项目均被处理。阻塞将持续到为队列中的每个项目均调用q.task_done()方法为止。
下面的例子说明如何建立永远运行的进程，使用和处理队列上的项目。生产者将项目放入队列，并等待它们被处理。

multiprocessing
def producer(name,q):
for i in range(10):
time.sleep(random.randint(1,3))
res='%s%s' %(name,i)
q.put(res)
print('33[44m%s 生产了 %s33[0m' %(os.getpid(),res))
q.join() #生产完毕，使用此方法进行阻塞，直到队列中所有项目均被处理。

if name == 'main':
q=JoinableQueue()
#生产者们:即厨师们
p1=Process(target=producer,args=('包子',q))
p2=Process(target=producer,args=('骨头',q))
p3=Process(target=producer,args=('泔水',q))

#消费者们:即吃货们 c1=Process(target=consumer,)) c2=Process(target=consumer,)) c1.daemon=True c2.daemon=True #开始 p_l=[p1,p2,p3,c1,c2] for p in p_l: p.start() p1.join() p2.join() p3.join() print('主') #主进程等--->p1,p3等---->c1,c2 #p1,p3结束了,证明c1,c2肯定全都收完了p1,p3发到队列的数据 #因而c1,c2也没有存在的价值了,不需要继续阻塞在进程中影响主进程了。应该随着主进程的结束而结束,所以设置成守护进程就可以了。</pre>

2，管道

conn1.recv_bytes([maxlength]):接收c.send_bytes()方法发送的一条完整的字节消息。maxlength指定要接收的最大字节数。如果进入的消息，超过了这个最大值，将引发IOError异常，并且在连接上无法进行进一步读取。如果连接的另外一端已经关闭，再也不存在任何数据，将引发EOFError异常。
conn.send_bytes(buffer [,offset [,size]])：通过连接发送字节数据缓冲区，buffer是支持缓冲区接口的任意对象，offset是缓冲区中的字节偏移量，而size是要发送字节数。结果数据以单条消息的形式发出，然后调用c.recv_bytes()函数进行接收

conn1.recv_bytes_into(buffer [,offset]):接收一条完整的字节消息，并把它保存在buffer对象中，该对象支持可写入的缓冲区接口（即bytearray对象或类似的对象）。offset指定缓冲区中放置消息处的字节位移。返回值是收到的字节数。如果消息长度大于可用的缓冲区空间，将引发BufferTooShort异常。

multiprocessing def f(conn):
conn.send("Hello The_Third_Wave")
conn.close()

if name == 'main':
parent_conn,child_conn = Pipe()
p = Process(target=f,args=(child_conn,))
p.start()
print(parent_conn.recv())
p.join()

应该特别注意管道端点的正确管理问题。如果是生产者或消费者中都没有使用管道的某个端点，就应将它关闭。这也说明了为何在生产者中关闭了管道的输出端，在消费者中关闭管道的输入端。如果忘记执行这些步骤，程序可能在消费者中的recv（）操作上挂起。管道是由操作系统进行引用计数的，必须在所有进程中关闭管道后才能生成EOFError异常。因此，在生产者中关闭管道不会有任何效果，除非消费者也关闭了相同的管道端点。?

multiprocessing def f(parent_conn,child_conn):
#parent_conn.close() #不写close将不会引发EOFError
while True:
try:
print(child_conn.recv())
except EOFError:
child_conn.close()

if name == 'main':
parent_conn,args=(parent_conn,child_conn,))
p.start()
child_conn.close()
parent_conn.send('hello')
parent_conn.close()
p.join()

multiprocessing def consumer(p,name):
produce,consume=p
produce.close()
while True:
try:
baozi=consume.recv()
print('%s 收到包子:%s' %(name,baozi))
except EOFError:
break

def producer(seq,p):
produce,consume=p
consume.close()
for i in seq:
produce.send(i)

if name == 'main':
produce,consume=Pipe()

c1=Process(target=consumer,args=((produce,consume),'c1')) c1.start() seq=(i for i in range(10)) producer(seq,(produce,consume)) produce.close() consume.close() c1.join() print('主进程')</pre>

multiprocessing def consumer(p,lock):
produce,consume=p
produce.close()
while True:
lock.acquire()
baozi=consume.recv()
lock.release()
if baozi:
print('%s 收到包子:%s' %(name,baozi))
else:
consume.close()
break

def producer(p,n):
produce,consume=p
consume.close()
for i in range(n):
produce.send(i)
produce.send(None)
produce.send(None)
produce.close()

if name == 'main':
produce,consume=Pipe()
lock = Lock()
c1=Process(target=consumer,'c1',lock))
c2=Process(target=consumer,'c2',lock))
p1=Process(target=producer,10))
c1.start()
c2.start()
p1.start()

produce.close() consume.close() c1.join() c2.join() p1.join() print('主进程')</pre>

四，进程之间的数据共享

展望未来，基于消息传递的并发编程是大势所趋

即便是使用线程，推荐做法也是将程序设计为大量独立的线程集合，通过消息队列交换数据。

这样极大地减少了对使用锁定和其他同步手段的需求，还可以扩展到分布式系统中。

但进程间应该尽量避免通信，即便需要通信，也应该选择进程安全的工具来避免加锁带来的问题。

以后我们会尝试使用数据库来解决现在进程之间的数据共享问题。

A manager object returned by Manager() controls a server process which holds Python objects and allows other processes to manipulate them using proxies.

A manager returned by Manager() will support types list,dict,Namespace,Lock,RLock,Semaphore,BoundedSemaphore,Condition,Event,Barrier,Queue,Value and Array.

multiprocessing d[]-=1
if name == 'main':
lock=Lock()
with Manager() as m:
dic=m.dict({'count':100})
p_l=[]
for i in range(100):
p=Process(target=work,args=(dic,lock))
p_l.append(p)
p.start()
for p in p_l:
p.join()
print(dic)

五，进程池和multiprocessing.Pool模块

1，进程池

为什么要有进程池?进程池的概念。

在程序实际处理问题过程中，忙时会有成千上万的任务需要被执行，闲时可能只有零星任务。那么在成千上万个任务需要被执行的时候，我们就需要去创建成千上万个进程么？首先，创建进程需要消耗时间，销毁进程也需要消耗时间。第二即便开启了成千上万的进程，操作系统也不能让他们同时执行，这样反而会影响程序的效率。因此我们不能无限制的根据任务开启或者结束进程。那么我们要怎么做呢？

在这里，要给大家介绍一个进程池的概念，定义一个池子，在里面放上固定数量的进程，有需求来了，就拿一个池中的进程来处理任务，等到处理完毕，进程并不关闭，而是将进程再放回进程池中继续等待任务。如果有很多任务需要执行，池中的进程数量不够，任务就要等待之前的进程执行任务完毕归来，拿到空闲进程才能继续执行。也就是说，池中进程的数量是固定的，那么同一时间最多有固定数量的进程在运行。这样不会增加操作系统的调度难度，还节省了开闭进程的时间，也一定程度上能够实现并发效果。

2，miltiprocess.Pool模块

概念介绍

Pool([numprocess [,initializer [,initargs]]]):创建进程池

123 initargs：是要传给initializer的参数组

1 p.apply(func [,kwargs]]):在一个池工作进程中执行func(*args,**2 3 4 p.apply_async(func [,然后返回结果。 5 6 78 9 P.jion():等待所有工作进程退出。此方法只能在close（）或teminate()之后调用

123456 obj.terminate()：立即终止所有工作进程，同时不执行任何清理或结束任何挂起工作。如果p被垃圾回收，将自动调用此函数

代码实例

multiprocessing ( %3 n**2
if name == 'main':
p=Pool(3) #进程池中从无到有创建三个进程,以后一直是这三个进程在执行任务
res_l=[]
for i in range(10):
res=p.apply(work,args=(i,)) #同步调用，直到本次任务执行完毕拿到res，等待任务work执行的过程中可能有阻塞也可能没有阻塞，但不管该任务是否存在阻塞，同步调用都会在原地等着，只是等的过程中若是任务发生了阻塞就会被夺走cpu的执行权限
 res_l.append(res)
print(res_l)

multiprocessing res_l= i range(10=p.apply_async(work,)) #异步apply_async用法：如果使用异步提交的任务，主进程需要使用jion，等待进程池内任务都处理完，然后可以用get收集结果，否则，主进程结束，进程池可能还没来得及执行，也就跟着一起结束了
 p.close()
p.join()
for res in res_l:
print(res.get()) #使用get来获取apply_aync的结果,如果是apply,则没有get方法,因为apply是同步执行,立刻获取结果,也根本无需get

multiprocessing def func(msg):
print( "msg:",msg)
time.sleep(1)
return msg

if name == "main":
pool = Pool(processes = 3)
res_l=[]
for i in range(10):
msg = "hello %d" %(i)
res=pool.apply_async(func,(msg,)) #维持执行的进程总数为processes，当一个进程执行完毕后会添加新的进程进去
 res_l.append(res)
print("==============================>") #没有后面的join，或get，则程序整体结束，进程池中的任务还没来得及全部执行完也都跟着主进程一起结束了

pool.close() #关闭进程池，防止进一步操作。如果所有操作持续挂起，它们将在工作进程终止前完成
pool.join() #调用join之前，先调用close函数，否则会出错。执行完close后不会有新的进程加入到pool,join函数等待所有子进程结束

print(res_l) #看到的是<multiprocessing.pool.ApplyResult object at 0x10357c4e0>对象组成的列表,而非最终的结果,但这一步是在join后执行的,证明结果已经计算完毕,剩下的事情就是调用每个对象下的get方法去获取结果 for i in res_l: print(i.get()) #使用get来获取apply_aync的结果,也根本无需get

#二：使用进程池（同步调用,apply）

coding: utf-8

from multiprocessing import Process,msg)
time.sleep(0.1)
return msg

if name == "main":
pool = Pool(processes = 3)
res_l=[]
for i in range(10):
msg = "hello %d" %(i)
res=pool.apply(func,)) #维持执行的进程总数为processes，当一个进程执行完毕后会添加新的进程进去
res_l.append(res) #同步执行，即执行完一个拿到结果，再去执行另外一个
print("==============================>")
pool.close()
pool.join() #调用join之前，先调用close函数，否则会出错。执行完close后不会有新的进程加入到pool,join函数等待所有子进程结束

print(res_l) #看到的就是最终的结果组成的列表 for i in res_l: #apply是同步的，所以直接得到结果，没有get()方法 print(i)</pre>

练习：进程池版socket并发聊天

socket * multiprocessing server=socket(AF_INET,SOCK_STREAM)
server.setsockopt(SOL_SOCKET,1)
server.bind(('127.0.0.1',8080))
server.listen(5)

def talk(conn):
print('进程pid: %s' %os.getpid())
while True:
try:
msg=conn.recv(1024)
if not msg:break
conn.send(msg.upper())
except Exception:
break

if name == 'main':
p=Pool(4)
while True:
conn,*_=server.accept()
p.apply_async(talk,args=(conn,))
# p.apply(talk,args=(conn,client_addr)) #同步的话，则同一时间只有一个客户端能访问

socket *client=socket(AF_INET,SOCK_STREAM)
client.connect(('127.0.0.1',8080))

while True:
msg=input('>>: ').strip()
if not msg:continue

client.send(msg.encode('utf-8')) msg=client.recv(1024) print(msg.decode('utf-8'))</pre>

发现：并发开启多个客户端，服务端同一时间只有4个不同的pid，只能结束一个客户端，另外一个客户端才会进来.

回调函数

我们可以把耗时间（阻塞）的任务放到进程池中，然后指定回调函数（主进程负责执行），这样主进程在执行回调函数时就省去了I/O的过程，直接拿到的是任务的结果。

multiprocessing def get_page(url):
print('<进程%s> get %s' %(os.getpid(),url))
respone=requests.get(url)
if respone.status_code == 200:
return {'url':url,'text':respone.text}

def pasrse_page(res):
print('<进程%s> parse %s' %(os.getpid(),res['url']))
parse_res='url:<%s> size:[%s]n' %(res['url'],len(res['text']))
with open('db.txt','a') as f:
f.write(parse_res)

if name == 'main':
urls=[
'https://www.baidu.com','https://www.python.org','https://www.openstack.org','https://help.github.com/','http://www.sina.com.cn/'
]

p=Pool(3) res_l=[] for url in urls: res=p.apply_async(get_page,args=(url,),callback=pasrse_page) res_l.append(res) p.close() p.join() print([res.get() for res in res_l]) #拿到的是get_page的结果,其实完全没必要拿该结果,该结果已经传给回调函数处理了

'''
打印结果:
<进程3388> get https://www.baidu.com
<进程3389> get https://www.python.org
<进程3390> get https://www.openstack.org
<进程3388> get https://help.github.com/
<进程3387> parse https://www.baidu.com
<进程3389> get http://www.sina.com.cn/
<进程3387> parse https://www.python.org
<进程3387> parse https://help.github.com/
<进程3387> parse http://www.sina.com.cn/
<进程3387> parse https://www.openstack.org
[{'url': 'https://www.baidu.com','text': '<!DOCTYPE html>rn...',...}]
'''

urllib.request multiprocessing def get_page(url,pattern):
response=urlopen(url).read().decode('utf-8')
return pattern,response

def parse_page(info):
pattern,page_content=info
res=re.findall(pattern,page_content)
for item in res:
dic={
'index':item[0].strip(),'title':item[1].strip(),'actor':item[2].strip(),'time':item[3].strip(),}
print(dic)
if name == 'main':
regex = r'
.?<.?class="board-index.?>(d+).?title="(.?)".?class="movie-item-info".?(.?)
.?(.?)
'
pattern1=re.compile(regex,re.S)

url_dic={ 'http://maoyan.com/board/7':pattern1,} p=Pool() res_l=[] for url,pattern in url_dic.items(): res=p.apply_async(get_page,pattern),callback=parse_page) res_l.append(res) for i in res_l: i.get()</pre>

如果在主进程中等待进程池中所有任务都执行完毕后，再统一处理结果，则无需回调函数

multiprocessing def work(n):
time.sleep(1)
return n**2
if name == 'main':
p=Pool()

res_l=[] for i in range(10): res=p.apply_async(work,)) res_l.append(res) p.close() p.join() #等待进程池中所有进程执行完毕


nums=[]
for res in res_l:
nums.append(res.get()) #拿到所有结果
print(nums) #主进程拿到所有的处理结果,可以在主进程中进行统一进行处理

进程池的其他实现方式：https://docs.python.org/dev/library/concurrent.futures.html

其他参考资料

https://www.jianshu.com/p/1200fd49b583https://www.jianshu.com/p/aed6067eeac9

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

python - 进程

一，理论知识

1，什么是进程

2，进程调度

3，进程的并行与并发

4，同步 异步 阻塞 非阻塞

状态介绍

同步和异步

阻塞和非阻塞

同步/异步与阻塞/非阻塞

5，进程的创建与结束

进程的创建

进程的结束

二，在python程序中的进程操作

1，multiprocessing模块

?2，multiprocessing.Process模块

Process模块介绍

?

使用Process模块创建进程

守护进程

socket聊天并发实例

多进程中的其他方法

3，进程同步（multiprocessing.LockSemaphoreEvent）

锁 - multiorocessing.Lock

信号量 - multiprocessing.Semaphore

事件 - multiprocessing.Event

三，进程间通信 - 队列和管道（multiprocessing.Queue/Pipe）

进程间通信

IPC(Inter-Process Communication)

1，队列

概念介绍

代码实例

生产者消费者模型

JoinableQueue([maxsize])

2，管道

四，进程之间的数据共享

五，进程池和multiprocessing.Pool模块

1，进程池

2，miltiprocess.Pool模块

概念介绍

代码实例

<span style="color: #008000;">coding: utf-8

练习：进程池版socket并发聊天

回调函数

4，同步异步阻塞非阻塞