python_爬虫_multiprocessing.dummy以及multiprocessing

2023年4月11日上午4:09 • 爬虫

''' # 代码范本
任务添加函数、任务执行函数；进程、线程切换函数；进、线程开启函数；
'''
from multiprocessing import Pool as processPoll
from multiprocessing.dummy import Pool as ThreadPool

def get_page(): # 任务执行
    pass

def url_list(): # 任务添加
    pass

def get_pool(): # 设定进、线程
    pass

def open_pool(): # 启动
    pass

if __name__ == '__main__':
    open_pool()

使用16线程爬取腾讯的招聘的100页分页信息，用时6秒左右（3M网速）

'''
任务添加函数、任务执行函数；进程、线程切换函数；进、线程开启函数；
'''
import requests
from urllib import request
import ssl
ssl._create_default_https_context = ssl._create_unverified_context
from datetime import datetime
from multiprocessing import Pool as ProcessPoll
from multiprocessing.dummy import Pool as ThreadPool

def get_page(task_q): # 任务执行
    headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'}

    req = request.Request(task_q,headers=headers)
    response = request.urlopen(req)
    print(response.url)
    # response = requests.get(task_q,headers=headers,verify=False)
    # print(response.url,response.status_code)

def url_list(): # 任务添加
    task_q = []
    base_url = 'http://hr.tencent.com/position.php?start={}'
    for i in range(0,10*100,10):
        full_url = base_url.format(i)
        task_q.append(full_url)
    return task_q

def get_pool(way=True,count=4): # 设定进、线程
    if way:
        pool = ProcessPoll(count) # 进程
    else:
        pool = ThreadPool(count) # 线程
    return pool

def open_pool(): # 启动
    start = datetime.now()
    pool = get_pool(way=False,count=16)
    task_q = url_list()

    pool.map(get_page,task_q)
    pool.close()
    pool.join()
    end = datetime.now()
    print('程序结束，用时',end-start)
if __name__ == '__main__':
    open_pool()

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：python_爬虫_multiprocessing.dummy以及multiprocessing - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

python_爬虫_爬取7*24小时财经新闻

上一篇 2023年4月11日

python_爬虫_使用终端运行爬报错：No such file or directory

下一篇 2023年4月11日

爬虫

Scrapy项目 – 源码工程 – 实现豆瓣 Top250 电影信息爬取的爬虫设计

一、项目目录结构 spiders文件夹内包含doubanSpider.py文件，对于项目的构建以及结构逻辑，详见环境搭建篇。二、项目源码 1.doubanSpider.py # -*- coding: utf-8 -*- import scrapy from douban.items import DoubanItem #创建爬虫类 class Douba…

2023年4月10日
000
如何使用PyQuery库？

PyQuery是一个类似于jQuery的Python库，它提供了一种可用于解析和操作HTML文档的强大工具。下面是使用PyQuery库的详细说明：安装PyQuery PyQuery库可以通过pip安装。在终端中运行以下命令即可安装： pip install pyquery 导入PyQuery 要使用PyQuery，需要导入该库。可以使用以下代码导入PyQu…

爬虫 2023年4月20日
001
爬虫

基于scrapy-redis的分布式爬虫

　　scrapy能否实现分布式爬虫?　　　　　　不可以. 　因为多台机器上部署的scrapy会各自拥有各自的调度器，这样就使得多台机器无法分配start_urls列表中的url。（多台机器无法共享同一个调度器）　　多台机器爬取到的数据无法通过同一个管道对数据进行统一的数据持久出存储。（多台机器无法共享同一个管道）　二.实现分布式爬虫的方式　　基于…

2023年4月8日
000
python 爬取壁纸网站的示例

我们来详细讲解一下如何用 Python 爬取壁纸网站。 1. 确定爬取目标首先，我们需要确定需要爬取的壁纸网站。以 Unsplash 壁纸网站为例。 2. 分析页面结构打开 Unsplash 网站，我们可以看到各种精美的壁纸，每一页都有多张图片。我们可以使用 Chrome 浏览器自带的开发者工具，通过检查页面元素来分析页面结构。可以看到每张图片都被包含在…

python 2023年5月14日
000
爬虫

爬虫笔记（二）：爬取药监局所有详情页数据

药监局网址：http://scxk.nmpa.gov.cn:81/xk/ 药监局首页：详情页：目的：爬取药监局所有详情页信息，保存在本地，以csv文件格式保存。分析主页：主页的response返回内容中，包含了这一页中的所有企业的id 修改网页参数page可以实现翻页所以首先要通过访问主页，获取所有企业…

2023年4月10日
000
PHP写的爬虫，爬指定网站页面上的各种图片

打算用php实现一个爬虫，这是爬指定页面的图片的一段程序，其他的部分还没调试好，先把这个放上来 1 <?php 2 $string=file_get_contents(“http://www.baidu.com”); 3 echo ‘size:’.strlen($string).”</br>”; 4 $length=strlen($stri…

爬虫 2023年4月13日
000
跟潭州学院的强子老师学习网络爬虫—爬取全书网

真是太白了，python之路还有很长，今天我从这里开始，留作自己备忘。2018-04-05 花了一个下午学习个爬小说的，总的来说是因为自己没什么基础，哪里不会补哪里，磕磕绊绊的，总算是能运行，先把代码放这里，以后请教高手帮助解决一下。 # -*- coding: utf-8 -*- # @Time : 2018/4/5 13:46 # @Author : E…

爬虫 2023年4月11日
000
爬虫那些事儿–站点压力控制相关

经过前面的介绍，我们大致了解了站点压力控制对于爬虫的重要性。但是站点压力控制对于爬虫来说，是一个比较Open的话题。即到目前为止也没有一个很准确的压力控制方法。主要的问题由于以下几点：不同站点对于爬虫的压力允许程度不同。即由于站点的规模不同、站点的服务器配置不同等。不同的站点能承受的压力是不同的。同时不同的站点对于爬虫的友好程度不同。有些站点允许爬…

爬虫 2023年4月8日
000

合作推广

合作推广

返回顶部