详解Python之多进程和进程池
一、多进程概念
进程是系统资源分配的最小单位,一个进程可以有多个线程,这些线程共享进程的内存空间和系统资源。在Python中,可以通过multiprocessing
模块实现多进程的功能。
二、多进程的好处
- 充分利用多核CPU,提升程序运行效率;
- 进程之间独立,一个进程挂掉不会影响其他进程的运行;
- 可以利用操作系统的进程管理机制,避免出现死锁现象。
三、多进程的实现方式
3.1 普通多进程
使用multiprocessing
模块的Process
类可以实现简单的多进程,示例代码如下:
from multiprocessing import Process
def func():
print('子进程执行')
if __name__ == '__main__':
p = Process(target=func)
p.start()
p.join()
print('主进程执行')
代码解析:
- 通过
multiprocessing
模块的Process
类创建子进程,并指定执行函数为func()
; - 子进程通过调用指定的函数进行任务处理;
- 主进程通过
p.join()
方法等待子进程执行完毕,再执行后续代码。
3.2 进程池
使用进程池可以避免频繁创建和销毁进程,从而提高程序的执行效率。使用multiprocessing
模块的Pool
类可以实现进程池,示例代码如下:
from multiprocessing import Pool
import os
import time
def func(n):
print(f'子进程{os.getpid()}执行{n}')
time.sleep(1)
return n
if __name__ == '__main__':
p = Pool(3)
results = p.map(func, range(10))
print(results)
代码解析:
- 通过
multiprocessing
模块的Pool
类创建进程池,并指定最大进程数为3
,即同时运行3个子进程; - 子进程通过调用指定的函数进行任务处理,这里模拟了任务处理需要一定时间的情况;
- 主进程通过
p.map()
方法向进程池中添加任务,并等待任务执行完毕; p.map()
方法返回一个结果集,结果集的元素按照任务添加的顺序排列。
四、总结
多进程和进程池是Python中实现并行计算的重要方式,能够充分利用多核CPU提高程序运行效率。multiprocessing
模块是Python标准库中提供的多进程处理模块,使用简单,功能强大,值得掌握和使用。
五、示例
5.1 利用进程池进行网络爬虫
利用Python的并行计算,可以有效提升网络爬虫的效率。下面是一个简单的示例:
import requests
from bs4 import BeautifulSoup
from multiprocessing import Pool
def get_url(url):
response = requests.get(url)
soup = BeautifulSoup(response.content)
title = soup.select_one('title').text
return title
if __name__ == '__main__':
urls = ['https://www.baidu.com', 'https://www.google.com', 'https://www.bing.com']
p = Pool(len(urls))
results = p.map(get_url, urls)
print(results)
代码解析:
- 在
get_url()
函数中通过requests
和BeautifulSoup
模块获取网页标题; - 在主程序中创建进程池,并向进程池中添加子进程任务;
p.map()
方法返回所有子进程处理的结果。
5.2 利用多进程进行图片下载
多进程能够大大提高图片的下载效率,下面是一个简单的示例:
import requests
from multiprocessing import Process
def download(image_url, path):
response = requests.get(image_url)
with open(path, 'wb') as f:
f.write(response.content)
if __name__ == '__main__':
urls = [
('https://www.google.com/images/branding/googlelogo/1x/googlelogo_color_272x92dp.png', 'google.png'),
('https://www.baidu.com/img/bd_logo1.png', 'baidu.png')
]
processes = [Process(target=download, args=(url[0], url[1])) for url in urls]
for process in processes:
process.start()
for process in processes:
process.join()
代码解析:
- 在
download()
函数中通过requests
模块下载图片,并保存到指定路径; - 在主程序中创建多个子进程,并将每个子进程的任务指定为下载指定的图片;
- 通过循环遍历所有子进程,并对其进行启动和等待。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:详解python之多进程和进程池(Processing库) - Python技术站