Python爬虫之queue线程安全实战

2023年4月11日上午4:42 • 爬虫

import requests
import os
import re
from lxml import etree
from urllib import request


def get_detail(url):
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3554.0 Safari/537.36"
    }
    rep = requests.get(url, headers=headers)
    html = etree.HTML(rep.text)
    imgs = html.xpath('//div[@class="page-content text-center"]//img[@class!="gif"]')
    for img in imgs:
        img_url = img.get("data-original")
        # 获取图片名称
        img_name = img.get("alt")
        # 过滤特殊字符
        img_name = re.sub(r'[\?？\.，。！!]', "", img_name)
        # 获取图片后缀名
        suffix = os.path.splitext(img_url)[1].split("!")[0]
        filename = img_name + suffix
        # 开始下载到本地
        request.urlretrieve(img_url, "imgs/" + filename)


def main():
    for i in range(1, 101):
        url = "http://www.doutula.com/photo/list/?page={}".format(i)
        get_detail(url)


if __name__ == '__main__':
    main()

View Code

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Python爬虫之queue线程安全实战 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

Python爬虫lxml解析实战

上一篇 2023年4月11日

网络爬虫之爬取百度新闻链接

下一篇 2023年4月11日

Python–天猫详情页爬虫

淘宝天猫商品抓取分类： python 数据来源 –TTyb 2017-11-11 858 1833 本文基于 360 浏览器查看源码， python3.4 编码，爬虫基础需要学习的请看爬虫教程。淘宝天猫的网页反爬虫很严重，存在大量的验证码、登陆提示、浏览限制等等机制，但是毕竟一山还有一山高，机器永远比不上人的聪明，所以…

爬虫 2023年4月11日
000
网络爬虫经验小结

一知识域/学习路径 1.1 初级阶段　　java: net(网络编程)、IO、多线程（含：线程池）、正则表达式、集合、JDBC/数据库等　　python: urllib.request 　　NodeJs/JavaScript: http 1.2 中级阶段　　java: Jsoup（优势：HTML DOM解析）、HttpClient（优势：下载/IP代…

爬虫 2023年4月16日
000
python+爬虫+签名

在公众号，看到一个比较好玩的程序。它使用post的来传送请求，以前没有遇到过。可能是自己，写的程序太少了。查了一下post的用法：通常，你想要发送一些编码为表单形式的数据——非常像一个 HTML 表单。要实现这个，只需简单地传递一个字典给 data 参数。你的数据字典在发出请求时会自动编码为表单形式： 1 >>> payload…

爬虫 2023年4月10日
000
爬虫报错

今天在玩爬虫的时候出现了这个信息： selenium.common.exceptions.ElementClickInterceptedException: Message: element click intercepted: Element <a class=”btn btn-default” onclick=”SEARCH.page_jump(1…

爬虫 2023年4月12日
000
python scrapy爬虫存储数据库方法带去重步骤

import pymongo import requests import random import time import pymysql db = pymongo.MongoClient()[‘cs’][‘dn’] db1 = pymysql.connect(user=’root’,password=’root’,db=’cs’,charset=’ut…

爬虫 2023年4月11日
000
python 黑板课爬虫闯关-第四关

这关我慢慢悠悠的做了两天才搞出来，思路太重要了；下面是我最终的代码，写的很烂很low，凑合看吧。这过程中走了不少弯路，思路有问题，给自己出了不少难题，最后发现是自己想复杂了。用到的技术：字符串、列表、集合、字典等基础操作 requests模块的get、post、session等用法多线程、以及获取多线程返回值 import re,requests,…

爬虫 2023年4月13日
000
Python爬虫常用库介绍（requests、BeautifulSoup、lxml、json）

1、requests库 http协议中，最常用的就是GET方法： import requests response = requests.get(‘http://www.baidu.com’) print(response.status_code) # 打印状态码 print(response.url) # 打印请求url print(response.he…

爬虫 2023年4月10日
000
pytho简单爬虫_模拟登陆西电流量查询_实现一键查询自己的校园网流量

闲来无事，由于校园内网络是限流量的，查询流量很是频繁，于是萌生了写一个本地脚本进行一键查询自己的剩余流量。整个部分可以分为三个过程进行：对登陆时http协议进行分析利用python进行相关的模拟登陆后期整合第一部分：对登陆时http协议进行分析　　模拟浏览器进行登陆，那么就需要知道当浏览器进行登陆时发生了什么事情。对此可以参见下面这张自制的图，它…

爬虫 2023年4月10日
000

合作推广

合作推广

返回顶部