python网络爬虫——线程池

2023年4月11日上午1:21 • 爬虫

本实例主要进行线程池创建，多线程获取、存储视频文件

梨视频：利用线程池进行视频爬取

#爬取梨视频数据
import requests
import re
from lxml import etree
from multiprocessing.dummy import Pool
import random

# 定义获取视频数据方法
def getVideoData(url): # url为列表中的视频url
    return requests.get(url=url,headers=headers).content

# 定义存储数据方法
def saveVideo(data):
    fileName = str(random.randint(0,5000))+'.mp4'
    with open(fileName,'wb') as fp:
        fp.write(data)

# 爬取数据
#实例化一个线程池对象，开启5个线程池
pool = Pool(5)

url = 'https://www.pearvideo.com/category_1'
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36'
}
page_text = requests.get(url=url,headers=headers).text
tree = etree.HTML(page_text)
li_list = tree.xpath('//div[@>)

video_url_list = [] # 存的是将要下载视频的url
for li in li_list:
    detail_url = 'https://www.pearvideo.com/'+li.xpath('./div/a/@href')[0]
    detail_page = requests.get(url=detail_url,headers=headers).text
    #因为视频连接不在标签汇中，而是一个js语句，所以用正则匹配
    video_url = re.findall('srcUrl="(.*?)",vdoUrl',detail_page,re.S)[0]
    video_url_list.append(video_url)
    
# map函数的应用：参数1：回调函数，参数2：列表；
#将列表中的参数赋值给回调函数的形参，让回调函数处理
video_data_list = pool.map(getVideoData,video_url_list)

pool.map(saveVideo,video_data_list)

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：python网络爬虫——线程池 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

Python爬虫之Lxml库与Xpath语法

上一篇 2023年4月11日

Python网络爬虫——bs4基本用法

下一篇 2023年4月11日

python3爬虫爬取网页思路及常见问题（原创）

学习爬虫有一段时间了，对遇到的一些问题进行一下总结。　　爬虫流程可大致分为：请求网页（request），获取响应（response），解析（parse），保存（save）。　　下面分别说下这几个过程中可以出现的问题：　　你可以这样理解，你在浏览器输入xxjpg.com，告诉这个网站，我想看你的内容，然后网站服务器收到这个请求后，会分…

爬虫 2023年4月10日
000
python爬虫–爬取豆瓣top250电影名

关于模拟浏览器登录的header，可以在相应网站按F12调取出编辑器，点击netwook，如下：以便于不会被网站反爬虫拒绝。 1 import requests 2 from bs4 import BeautifulSoup 5 def get_movies(): 6 headers = { 7 ‘user-agent’: ‘Mozilla/5.0 (…

爬虫 2023年4月10日
000
如何解析XML数据？

网络爬虫是一种自动化程序，可以从互联网上抓取数据。而XML是一种标记语言，其数据格式非常适合传输和存储结构化数据。因此，在爬取网页数据的过程中，解析XML格式的数据也是非常常见的一种情况。下面是解析XML数据的完整攻略。准备工作首先，需要安装一个XML解析库。Python中有许多这样的库，其中比较常用的是ElementTree和BeautifulSoup…

爬虫 2023年4月20日
000
Python基于pandas爬取网页表格数据

Python是一种流行的编程语言，pandas是Python中常用的数据处理库，可以方便地进行数据分析、清洗和处理等操作。本文将具体讲解如何使用Python和pandas来爬取网页表格数据。准备工作在使用Python和pandas进行网页表格数据爬取之前，需要先安装所需的相关库。可以使用以下命令来安装： pip install pandas pip in…

python 2023年5月14日
000
爬虫入门urlib,urlib2的基本使用和进阶

python2中的urlib和urlib2 1.分分钟扒一个网页下来怎样扒网页呢？其实就是根据URL来获取它的网页信息，虽然我们在浏览器中看到的是一幅幅优美的画面，但是其实是由浏览器解释才呈现出来的，实质它是一段HTML代码，加 JS、CSS，如果把网页比作一个人，那么HTML便是他的骨架，JS便是他的肌肉，CSS便是它的衣服。所以最重要的部分是存在于HT…

爬虫 2023年4月11日
000
python爬虫爬取超清壁纸代码实例

Python爬虫爬取超清壁纸代码实例网站分析在准备开始爬取壁纸之前，需要先分析目标网站。本例中我们使用的是Pixabay图库网站来进行数据爬取。首先，我们打开目标网站，随后打开浏览器的开发者工具，选择 Network（网络）选项卡，刷新页面后看到已经加载好的资源。在筛选后，我们可以找到查找数据的文件（XHR 类型），例如搜索图片时的请求数据 url…

python 2023年5月14日
000
学习Python爬虫前必掌握知识点

学习Python爬虫前必掌握知识点，包括以下几个方面： 1. Python基础知识 Python是一门高级编程语言，支持多种编程范式。在学习Python爬虫前，需要掌握Python的基础语法，包括但不限于：变量的定义与使用数据类型（数字、字符串、列表、字典、元组等）条件语句与控制结构（if-else、for、while等）函数的定义与调用模块的导入…

python 2023年5月14日
000
爬虫-6.URLErro和HTTPError

在我们用urlopen或着opener.open方法发送一个请求时，如果urlopen或opener.open不能处理这个response，就会产生错误 URLError URLError 产生的原因主要有：没有网络连接服务器连接失败找不到指定的服务器我们可以用try except语句来捕获相应的异常 from urllib import req…

爬虫 2023年4月11日
000

合作推广

合作推广

返回顶部