Python爬虫——解决urlretrieve下载不完整问题且避免用时过长

2023年4月11日上午1:19 • 爬虫

https://blog.csdn.net/jclian91/article/details/77513289

但是经笔者测试，下载文件出现urllib.ContentTooShortError且重新下载文件会存在用时过长的问题，而且往往会尝试好几次，甚至十几次，偶尔会陷入死循环，这种情况是非常不理想的。为此，笔者利用socket模块，使得每次重新下载的时间变短，且避免陷入死循环，从而提高运行效率。
　　以下为代码：

import socket
import urllib.request
#设置超时时间为30s
socket.setdefaulttimeout(30)
#解决下载不完全问题且避免陷入死循环
try:
    urllib.request.urlretrieve(url,image_name)
except socket.timeout:
    count = 1
    while count <= 5:
        try:
            urllib.request.urlretrieve(url,image_name)                                                
            break
        except socket.timeout:
            err_info = 'Reloading for %d time'%count if count == 1 else 'Reloading for %d times'%count
            print(err_info)
            count += 1
    if count > 5:
        print("downloading picture fialed!")

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Python爬虫——解决urlretrieve下载不完整问题且避免用时过长 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

搞node爬虫–puppeteer–记一次大坑

上一篇 2023年4月11日

爬虫实战(三) 用Python爬取拉勾网

下一篇 2023年4月11日

爬虫实现免登入

近来身边很多人问，爬虫怎么实现免登入，这边介绍几种方法。 1、scrapy的FormRequest模块 2、requests的post实现免登入 3、selenium实现自动化登入过程接下来，我们来实现http://oursteps.com.au/的免登入我们先说前两种的情况，使用scrapy和requests的模拟登入打开浏览器，输入http…

爬虫 2023年4月11日
001
爬虫

Python 爬虫二 requests模块

requests模块 Requests模块 get方法请求整体演示一下： import requests response = requests.get(“https://www.baidu.com”) print(type(response)) print(response.status_code) print(type(response.text)…

2023年4月8日
000
Python爬虫之urllib库详解

Python爬虫之urllib库详解什么是urllib库 urllib库是Python内置的HTTP请求库，包含了一组简单的API，可以用来发送GET、POST、PUT、DELETE、HEAD等HTTP请求，支持处理URL、Cookie、代理、验证、浏览器标识等常见的HTTP请求需求。 urllib库的常见模块 urllib库包含了四个常用的模块，分别是：…

python 2023年5月14日
000
爬虫（14） – Scrapy-Redis分布式爬虫(1) | 详解

1.什么是Scrapy-Redis Scrapy-Redis是scrapy框架基于redis的分布式组件，是scrapy的扩展；分布式爬虫将多台主机组合起来，共同完成一个爬取任务，快速高效地提高爬取效率。原先scrapy的请求是放在内存中，从内存中获取。scrapy-redisr将请求统一放在redis里面，各个主机查看请求是否爬取过，没有爬取过，排队入队…

爬虫 2023年4月11日
000
python爬虫（七） mozillacookiejar

MozillaCookiejar 保存百度得Cookiejar信息： from urllib import request from urllib import parse from http.cookiejar import MozillaCookieJar # 保存在本地 cookiejar=MozillaCookieJar(‘cookie.txt’) …

爬虫 2023年4月11日
000
03 爬虫解析库之bs4库

一. 介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful Soup3 的文档,Beautiful Soup 3 目前已经停止开发,官网推荐在现在的项目中…

爬虫 2023年4月16日
000
爬虫

python爬虫爬取赶集网数据

前期的配置工作在之前的一篇博文中有提到过，现在直接进行爬取一.创建项目 scrapy startproject putu 二.创建spider文件 1 scrapy genspider patubole patubole.com 三.利用chrome浏览器分析出房价和标题的两个字段的xpath表达式，开始编写patubole.py文件。网络的爬取是通过…

2023年4月8日
000
python 学习之爬虫练习

通过学习python，写两个简单的爬虫，没用线程，本地抓取速度还不错，有些瑕疵就是抓的图片有些显示不出来，代码做个笔记记录下： # -*- coding:utf-8 -*- import re import urllib.request import os url = “http://www.58pic.com/yuanchuang/0/day-” def …

爬虫 2023年4月13日
000

合作推广

合作推广

返回顶部