Python 多线程、线程池、协程爬虫

2023年4月10日下午9:25 • 爬虫

多线程生产者消费者模型爬虫

import queue

import requests
from bs4 import BeautifulSoup
import threading
import time
import random


def craw(url):
    r = requests.get(url=url)
    return r.text


def parse(html):
    soup = BeautifulSoup(html, "html.parser")
    links = soup.find_all("a", class_="post-time-title")
    return [(link["href"], link.get_test()) for link in links]


def do_craw(url_queue: queue.Queue, html_queue: queue.Queue):
    while True:
        url = url_queue.get()
        html = craw(url)
        html_queue.put(html)
        print(threading.current_thread().name, url)
        time.sleep(random.randint(1,2))


def do_parse(html_queue:queue.Queue, f_out):
    while True:
        html = html_queue.get()
        results = parse(html)
        for result in results:
            f_out.write(str(result) + "\n")
        print(threading.current_thread().name, html_queue.qsize())
        time.sleep(1)


if __name__ == '__main__':
    url_queue = queue.Queue()
    html_queue = queue.Queue()
    for url in ["https://www.cnblogs.com/#p{}".format(i) for i in range(1, 25)]:
        url_queue.put(url)

    for idx in range(3):
        t = threading.Thread(target=do_craw, args=(url_queue, html_queue), name=f"craw-{idx}")
        t.start()

    file = open("02.data.txt", "w")
    for idx in range(2):
        d = threading.Thread(target=do_parse, args=(html_queue, file), name=f"parse-{idx}")
        d.start()

多线程池爬虫

from concurrent.futures import ThreadPoolExecutor, as_completed
import requests
from bs4 import BeautifulSoup

spider_url = ["https://www.cnblogs.com/#p{}".format(i) for i in range(1, 25)]


def craw(url):
    r = requests.get(url=url)
    return r.text


def parse(html):
    soup = BeautifulSoup(html, "html.parser")
    links = soup.find_all("a", class_="post-time-title")
    return [(link["href"], link.get_test()) for link in links]


# craw
with ThreadPoolExecutor() as pool:
    htmls = pool.map(craw, spider_url)
    htmls = list(zip(spider_url, htmls))
    for k, v in htmls:
        print(k, len(v))


with ThreadPoolExecutor() as pool:
    futures = {}
    for url, html in htmls:
        future = pool.submit(parse, html)
        futures[future] = url

    # for k, v in futures.items():
    #     print(v, k.result())
    for future in as_completed(futures):
        print(futures[future], future.result())

协程

import asyncio
import aiohttp

spider_url = ["https://www.cnblogs.com/taozhengquan/p/14966535.html"]*50

# 信号量控制爬虫数量
semaphore = asyncio.Semaphore(10)


async def async_craw(url):
    async with semaphore:
        print("craw url:", url)
        async with aiohttp.ClientSession() as session:
            async with session.get(url) as resp:
                result = await resp.text()
                print(url, len(result))


loop = asyncio.get_event_loop()
tasks = [
    loop.create_task(async_craw(item)) for item in spider_url
]
loop.run_until_complete(asyncio.wait(tasks))

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Python 多线程、线程池、协程爬虫 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

golang 并发爬虫

上一篇 2023年4月10日

初步认识网络爬虫

下一篇 2023年4月10日

python妹子图简单爬虫实例

针对这个题目，我们可以按照如下步骤来实现一个Python的简单爬虫：寻找目标网站: 首先需要确定目标网站，比如我们要收集一些漂亮的妹子图片，我们可以选择网站 http://www.mmjpg.com/。分析目标网站：需要分析目标网站的网页结构和页面信息，确定数据获取的方式。模拟请求：由于获取数据需要向目标网站发送请求，需要使用Python模拟请求。解…

python 2023年5月14日
000
爬虫前提——正则表达式语法以及在Python中的使用

正则表达式是用来处理字符串的强大工具，他并不是某种编程云。正则表达式拥有独立的承受力引擎，不管什么编程语言，正则表达式的语法都是一样的。正则表达式的匹配过程 1.一次拿出表达式和文本中的字符比较。 2.如果每一个字符都能匹配，则匹配成功；一旦有匹配不成功的字符则匹配失败。 3.如果表达式中有两次或便捷，这个过程会稍微有一些不同。下面举例一些符号…

爬虫 2023年4月12日
000
如何处理网络连接超时的问题？

处理网络连接超时问题是一个在开发中经常遇到的问题。本篇攻略将帮助您了解如何处理网络超时的问题，并提供两个示例说明。什么是网络连接超时？网络连接超时指的是在建立与服务器的连接时，客户端程序在规定的时间内无法与服务器建立连接。当客户端发起一次网络请求但超时时，往往会出现错误提示，例如：“请求超时”、“连接超时”、“网络错误”等。处理网络连接超时的方案以下…

爬虫 2023年4月20日
000
《Python爬虫学习系列教程》学习笔记

转自http://www.cnblogs.com/xin-xin/p/4297852.html http://cuiqingcai.com/1052.html 大家好哈，我呢最近在学习Python爬虫，感觉非常有意思，真的让生活可以方便很多。学习过程中我把一些学习的笔记总结下来，还记录了一些自己实际写的一些小爬虫，在这里跟大家一同分享，希望对Python爬虫…

爬虫 2023年4月11日
000
爬虫学习笔记：创建随机User-Agent池

一、背景介绍 User-Agent 即用户代理，简称 UA 。它是一个特殊字符串，使得服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器版本、浏览器渲染引擎、浏览器语言、浏览器插件等。具备反爬措施的网站，通过判断 UA 的合理性，来响应请求，判断请求是否合法。 UA 的标准格式为：浏览器标识（操作系统标识；加密等级标识；浏览器语言）渲染引擎标识…

爬虫 2023年4月13日
000
通过淘宝数据爬虫学习python scrapy requests与response对象

下面是关于“通过淘宝数据爬虫学习python scrapy requests与response对象”的完整攻略： 1. 爬虫环境的搭建首先，我们需要搭建Python爬虫环境。本攻略推荐使用Python 3.7版本及以上的版本进行搭建。同时，建议使用虚拟环境进行Python的配置，以免与当前环境产生冲突。使用以下命令创建一个名为spider_env的虚拟环境…

python 2023年5月14日
000
如何控制分布式爬虫结束

Scrapy-Redis 空跑问题，redis_key链接跑完后，自动关闭爬虫问题： scrapy-redis框架中，reids存储的xxx:requests已经爬取完毕，但程序仍然一直运行，如何自动停止程序，结束空跑。相信大家都很头疼，尤其是网上一堆搬来搬去的帖子，来看一下我是如何解决这个问题的吧课外了解分布式扩展：我们知道 scrapy 默认…

爬虫 2023年4月10日
000
爬虫—使用Requests

一，安装　　pip install requests 二，基本用法 1.简单示例 import requests res = requests.get(‘https://www.baidu.com’) print(type(res)) print(res.status_code) print(res.text) print(type(res.text)) …

爬虫 2023年4月13日
000

合作推广

合作推广

返回顶部