爬虫
-
python3爬虫爬取网页思路及常见问题(原创)
学习爬虫有一段时间了,对遇到的一些问题进行一下总结。 爬虫流程可大致分为:请求网页(request),获取响应(response),解析(parse),保存(save)。 下面分别说下这几个过程中可以出现的问题: 你可以这样理解,你在浏览器输入xxjpg.com,告诉这个网站,我想看你的内容,然后网站服务器收到这个请求后,会分…
-
python3爬虫爬取煎蛋网妹纸图片(上篇)
其实之前实现过这个功能,是使用selenium模拟浏览器页面点击来完成的,但是效率实际上相对来说较低。本次以解密参数来完成爬取的过程。 首先打开煎蛋网http://jandan.net/ooxx,查看网页源代码。我们搜索其中一张图片的编号,比如3869006,看下在源代码中是否能找到图片链接 从上面的HTML结构中找到这个标号对应的一些属性,没有直接的图…
-
面试官让我上机写一个爬虫,没有经验,写的也没什么价值,就是想记录一下
1.用WebRequest相关API抓取数据的时候会返回403服务器拒绝的问题。 经网上寻找解决方案,是用指定UserAgent参数伪装浏览器,并成功解决问题。 2.大众点评网上要抓取的数据是动态生成。抓取的Html内容中不包含想要获取的内容。 后来找到一个网友提供的思路: 用WinForm里的webBrowser控件,可以把网页内容全部 加载完后,再通过D…
-
scrapy 执行同个项目多个爬虫
一开始我们默认都是只有一个爬虫的,所以执行的代码都是在项目下创建一个py文件 from scrapy import cmdlinecmdline.execute(‘scrapy crawl 爬虫名’.split( )) 但是要执行多个爬虫就犯难了,在这里我只是做个笔记加强记忆 原博客 https://www.cnblogs.com/lei0213/p…
-
BeautifulSoup /bs4 爬虫实例
需求:使用bs4实现将诗词名句网站中三国演义小说的每一章的内容爬去到本地磁盘进行存储 http://www.shicimingju.com/book/sanguoyanyi.html 1 from bs4 import BeautifulSoup 2 import requests 3 4 url = ‘http://www.shicimingju.co…
-
爬虫防盗链处理
在爬虫过程中我们可能遇到 这样, 或者这样, 其实这两种万变不离其宗,关键就是headers中的“referer” 字段(referer有时写作Referer,注意观察) 所以我们可以在代码中依据原网站referer设置规则构造请求headers
-
【Python爬虫】HTTP基础和urllib库、requests库的使用
一个网络爬虫的编写主要可以分为三个部分: 1.获取网页 2.提取信息 3.分析信息 本文主要介绍第一部分,如何用Python内置的库urllib和第三方库requests库来完成网页的获取。阅读完本文后,读者将能利用这2个库获取一个网页的HTML代码。 但是首先,我们需要一点网络方面的基本知识,才能更好的理解爬虫。 为此,读者应该理解以下知识: 1.什么是H…
-
Python有了asyncio和aiohttp在爬虫这类型IO任务中多线程/多进程还有存在的必要吗?
最近正在学习Python中的异步编程,看了一些博客后做了一些小测验:对比asyncio+aiohttp的爬虫和asyncio+aiohttp+concurrent.futures(线程池/进程池)在效率中的差异,注释:在爬虫中我几乎没有使用任何计算性任务,为了探测异步的性能,全部都只是做了网络IO请求,就是说aiohttp把网页get完就程序就done了。 …
-
爬虫selenium教程
”’在爬取某些网站时有js加载的信息时,主要是js拼接的操作,可以通过selenium来进行拼接,可以节省大量的破解JS还原操作的时间,大大节省成本; 安装selenium: pip install Selenium 安装chromedriver: 查看当前浏览器版本 输入chrome://help/ 可以看到“版本 68.0.3440.106(正式版本)…
-
利用爬虫获取网上医院药品价格信息 (下)
因为之前的爬虫存在着各种不足,在此我们进行一些必要的扩展和改进。 一、加入代理服务器 首先,编写另外一个爬虫搜集网上的免费代理服务器 编写代理服务器数据爬虫程序”getproxy2.py”,代码如下: 1 from bs4 import BeautifulSoup 2 import urllib2 3 from myLog import MyLog 4 im…