爬虫 Archives - Page 99 of 133

爬虫-6.URLErro和HTTPError

在我们用urlopen或着opener.open方法发送一个请求时，如果urlopen或opener.open不能处理这个response，就会产生错误 URLError URLError 产生的原因主要有：没有网络连接服务器连接失败找不到指定的服务器我们可以用try except语句来捕获相应的异常 from urllib import req…

爬虫 2023年4月11日

000

PYTHON 爬虫笔记三:Requests库的基本使用

什么是requests库　　Requests库是用Python编写的，基于urllib，采用Apache2 Licensed开源协议的HTTP库，相比urllib库，Requests库更加方便，可以节约我们大量的工作，完全满足HTTP测试需求。　　Requests是用python语言基于urllib编写的，采用的是Apache2 Licensed开源协议…

爬虫 2023年4月11日

000

Python爬虫连载3-Post解析、Request类

一、访问网络的两种方法 1.get：利用参数给服务器传递信息；参数为dict，然后parse解码 2.post：一般向服务器传递参数使用；post是把信息自动加密处理；如果想要使用post信息，需要使用到data参数 3.Content-Type:application/x-www.form-urlencode 4.Content-Length:数据长度 5…

爬虫 2023年4月11日

000

向scrapy爬虫传参,向scrapy部署后的爬虫传参

https://blog.csdn.net/c0411034/article/details/81750028 https://blog.csdn.net/Q_AN1314/article/details/50748700 在爬虫里面接收参数 def __init__(self, pid=None, *args, **kwargs):…

爬虫 2023年4月11日

000

爬虫爬取图片解决防盗链方法

今天爬一个数据是大拇指网发布的数据，它的站点图片是防盗链，所以导致图片无法入库，怎么办？在查阅一些资料后，找到解决办法，在此分享下： URL url = new URL(“”); // 获得连接 URLConnection connection = url.openConnection(); connection.setRequestPr…

爬虫 2023年4月11日

000

[Python爬虫]cnblogs博客备份工具

并发爬虫小练习。直接粘贴到本地，命名为.py文件即可运行，运行时的参数为你想要爬取的用户。默认是本博客。输出是以用户名命名的目录，目录内便是博客内容。仅供学习python的多线程编程方法，后续会重写成并行爬虫。爬虫代码如下： 1 # -*- coding:utf-8 -*- 2 from multiprocessing.managers import…

爬虫 2023年4月11日

000

Python 爬虫杂记 – Chrome Headless

测试 Chrome 版本： 62.0.3202.89（正式版本）（64 位) Python环境：python2.7 注： Headless模式需要59版本及以上！ Chrome的安装与配置不在此赘述，不过需要注意的是：版本号与驱动的映射关系！版本号与驱动的映射关系！！版本号与驱动的映射关系！！！ Chrome与Chromedriver的映射关系表: …

爬虫 2023年4月11日

000

Python 爬虫：煎蛋网妹子图

使用 Headless Chrome 替代了 PhatomJS。图片保存到指定文件夹中。 1 import requests 2 from bs4 import BeautifulSoup 3 from selenium import webdriver 4 from selenium.webdriver.chrome.options import Opt…

爬虫 2023年4月11日

000

python爬虫实验

那天在新浪微博上看到北北出的题目，由于最近也在做类似的爬虫研究，所以就有了这个实验。后来在QQ上和北北说了下，要求是啥都抓，就抓乌云的。。。然后就开始了。。第一个版本如下，后续不断改进直到满足需求： import urllib2; from sgmllib import SGMLParser; class CatCh(SGMLParser): def …

爬虫 2023年4月11日

000

scrapy爬虫笔记(三)——写入源文件的爬取

开始爬取网页：(2)写入源文件的爬取　　为了使代码易于修改，更清晰高效的爬取网页，我们将代码写入源文件进行爬取。　　主要分为以下几个步骤：　　　　一.使用scrapy创建爬虫框架：　　　　二.修改并编写源代码，确定我们要爬取的网页及内容　　　　三.开始爬取并存入文件（数据库）注：为了避免冗长的叙述，更直观地理解，这里先讲具体的操作方法，如果想要深…

爬虫 2023年4月11日

000