Python多线程爬虫简单示例

当我们需要使用Python进行高效的网络爬虫时，通常需要使用多线程技术，以便同时爬取多个网页并提高爬取的效率。下面就是一份Python多线程爬虫的示例攻略，其中包含两个示例说明：

1. 多线程爬取网页内容

1.1 步骤

导入需要使用的库：

import requests
import threading

定义需要爬取的url列表：

url_list = [url1, url2, url3, ...]

定义函数，用来对单个url进行网络请求：

def get_response(url):
    response = requests.get(url)
    # 对获取的response进行处理
    ...

创建多个线程，每个线程对应一个url进行网络请求：

threads = []
for url in url_list:
    t = threading.Thread(target=get_response, args=(url,))
    threads.append(t)
    t.start()

等待所有线程执行完毕：

for t in threads:
    t.join()

1.2 示例说明

假设我们需要爬取三个网站，分别是https://www.baidu.com、https://www.google.com和https://www.bing.com，那么可以按照以下步骤进行：

导入需要使用的库：

import requests
import threading

定义需要爬取的url列表：

url_list = ['https://www.baidu.com', 'https://www.google.com', 'https://www.bing.com']

定义函数，对单个url进行网络请求：

def get_response(url):
    response = requests.get(url)
    print(response.text)

创建多个线程，每个线程对应一个url进行网络请求：

threads = []
for url in url_list:
    t = threading.Thread(target=get_response, args=(url,))
    threads.append(t)
    t.start()

等待所有线程执行完毕：

for t in threads:
    t.join()

执行后可以看到，程序会同时向三个网站发送请求，提高了爬取的效率。

2. 多线程爬取图片

2.1 步骤

导入需要使用的库：

import requests
import threading

定义需要爬取的图片url列表：

img_url_list = [img_url1, img_url2, img_url3, ...]

定义函数，用来下载单个图片：

def download_img(img_url):
    response = requests.get(img_url)
    with open('image/{}.jpg'.format(img_url.split('/')[-1]), 'wb') as f:
        f.write(response.content)

创建多个线程，每个线程对应一个图片进行下载：

threads = []
for img_url in img_url_list:
    t = threading.Thread(target=download_img, args=(img_url,))
    threads.append(t)
    t.start()

等待所有线程执行完毕：

for t in threads:
    t.join()

2.2 示例说明

假设我们需要爬取几张图片，比如https://www.example.com/image1.jpg、https://www.example.com/image2.jpg和https://www.example.com/image3.jpg，那么可以按照以下步骤进行：

导入需要使用的库：

import requests
import threading

定义需要爬取的图片url列表：

img_url_list = ['https://www.example.com/image1.jpg', 'https://www.example.com/image2.jpg', 'https://www.example.com/image3.jpg']

定义函数，用来下载单个图片：

def download_img(img_url):
    response = requests.get(img_url)
    with open('image/{}.jpg'.format(img_url.split('/')[-1]), 'wb') as f:
        f.write(response.content)

创建多个线程，每个线程对应一个图片进行下载：

threads = []
for img_url in img_url_list:
    t = threading.Thread(target=download_img, args=(img_url,))
    threads.append(t)
    t.start()

等待所有线程执行完毕：

for t in threads:
    t.join()

执行后可以发现，在image文件夹中已经下载好了三张图片。同时，这个过程也是多线程并发进行的，提高了图片下载的效率。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Python多线程爬虫简单示例 - Python技术站