线程池在爬虫案例中的应用

2023年4月13日下午8:53 • 爬虫

import requests 
from lxml import etree
import re 
from multiprocessing.dummy import Pool
#需求：爬取梨视频的视频数据
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2626.106 Safari/537.36'
}
#原则：线程池处理的是阻塞且较为耗时的操作

#对url发起请求，解析出视频详情页的url和名称
url = 'https://www.pearvideo.com/category_5'
page_text = requests.get(url=url,headers=headers).text

tree = etree.HTML(page_text)
li_list = tree.xpath('//ul[@]/li')
urls = []   #存储所有视频的链接和名字
for li in li_list:
    detail_url = 'https://www.pearvideo.com/'+li.xpath('./div/a/@href')[0]
    name = li.xpath('./div/a/div[2]/text()')[0]+'.mp4'
    # print(detail_url,name)
    #对详情页的url发起请求
    detail_page_text = requests.get(url=detail_url,headers=headers).text
    #从详情页中解析出视频的地址url

    ex = 'srcUrl="(.*?)",vdoUrl'
    video_url = re.findall(ex,detail_page_text)[0]
    dic = {
        'name':name,
        'url':video_url
    }
    urls.append(dic)
#对视频链接发起请求获取二进制数据，然后将视频数据进行返回
def get_video_data(dic):
    url = dic['url']
    print(dic['name'],'正在下载!')
    data = requests.get(url=url,headers=headers).content
    #持久化存储操作
    with open(dic['name'],'wb') as fp:
        fp.write(data)
        print(dic['name'],'下载成功!')
#使用线程池对视频数据进行请求（较为耗时的阻塞操作）
pool = Pool(4)
pool.map(get_video_data,urls)

pool.close()
pool.join()

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：线程池在爬虫案例中的应用 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

Python 网络爬虫 002 (入门) 爬取一个网站之前，要了解的知识

上一篇 2023年4月13日

爬虫要违法了吗？小编告诉大家：守住规则，大胆去爬

下一篇 2023年4月13日

1，Python爬虫环境的安装

前言很早以前就听说了Python爬虫，但是一直没有去了解；想着先要把一个方面的知识学好再去了解其他新兴的技术。但是现在项目有需求，要到网上爬取一些信息，然后做数据分析。所以便从零开始学习Python爬虫，如果你也对Python爬虫感兴趣，那么可以跟着我一起学习了解一下！闲话就不多说了，下面就开始Python爬虫之路！ …

爬虫 2023年4月10日
000
Python爬虫实战（二）

本来晚上是准备写贴吧爬虫的，但是在分析页面时就遇到了大麻烦！选取了某个帖子，在爬取的时候，发现正则匹配不全..很尴尬！！先来看看吧， 1 #!/usr/bin/env python 2 # -*- coding:utf-8 -*- 3 __author__ = ‘ziv·chan’ 4 5 6 import requests 7 import re 8 9 …

爬虫 2023年4月13日
000
PYTHON 爬虫笔记三:Requests库的基本使用

什么是requests库　　Requests库是用Python编写的，基于urllib，采用Apache2 Licensed开源协议的HTTP库，相比urllib库，Requests库更加方便，可以节约我们大量的工作，完全满足HTTP测试需求。　　Requests是用python语言基于urllib编写的，采用的是Apache2 Licensed开源协议…

爬虫 2023年4月11日
000
看雪精华帖爬虫

看雪自带的搜索感觉不是太好用, 然后弄了个爬虫目前支持4种功能 1. 爬取某个版块所有的链接, 并保持到文件 2. 自动把精华帖分类出来, 并保存到文件 3. 把含有指定关键字的链接单独保存为文件(针对所有链接) 4. 把含有指定关键字的链接单独保存为文件(针对所有精华帖链接) github下载地址: https://github.com/binggh…

爬虫 2023年4月13日
000
在python3中使用urllib.request编写简单的网络爬虫

Python官方提供了用于编写网络爬虫的包 urllib.request, 我们主要用它进行打开url，读取url里面的内容，下载里面的图片。分以下几步： step1:用urllib.request.urlopen打开目标网站 step2:由于urllib.request.urlopen返回的是一个http.client.HTTPResponse obje…

爬虫 2023年4月13日
000
如何处理爬取速度过快的问题？

当我们在爬取网页的时候，如果请求速度过快，可能会给被爬网站造成较大的负担，甚至可能会触发反爬措施。因此，我们需要控制爬取速度，避免对被爬网站造成不良影响。以下是处理爬取速度过快问题的攻略： 1. 设置请求头我们可以在发送请求时设置请求头中的User-Agent字段，将其设置为浏览器的User-Agent，以达到伪装自己的目的。此外，我们还可以在请求头中加…

爬虫 2023年4月20日
000
互联网金融爬虫怎么写－第二课雪球网股票爬虫（正则表达式入门）

系列教程：互联网金融爬虫怎么写－第一课 p2p网贷爬虫（XPath入门）上一节课我们一起通过一个p2p网贷爬虫，深入了解了一下XPath以及其在最终实际使用中的写法。可以毫不夸张的说，对于写简单爬虫来说，最最重要的，就是使用好XPath，以及这一课要讲的正则表达式。正则表达式，又称正规表示法、常规表示法（英语：Regular Expression，…

爬虫 2023年4月11日
000
爬虫分页信息的获取（ruby+selenium python+selenium）

在爬虫的时候，我们会遇到一些问题，即使获取到全文的url，但是可能page的连接获取不完整，就会导致我们爬虫的时候，比如说爬商品信息，就会拿不完整商品信息。页面信息大概有这两种情况：第一种：　　　　1，2，3，4，5，…，next，last 第二种：　　　　1，2，3，4，5，> 实现语言：ruby or python（提供两种）爬虫工…

爬虫 2023年4月11日
000

合作推广

合作推广

返回顶部