爬虫
-
爬虫第一天
爬虫学习参考博客:https://www.cnblogs.com/cyycyhcbw/articles/10442399.html 1.使用软件anaconda 2.输入jupyter notbook 3.anaconda使用快捷键 -插入cell: a 上一行插入 b 下一行插入 -删除: x -模式切换: m切换到master …
-
[Selenium2+python2.7][Scrap]爬虫和selenium方式下拉滚动条获取简书作者目录并且生成Markdown格式目录
预计阅读时间: 15分钟 环境: win7 + Selenium2.53.6+python2.7 +Firefox 45.2 (具体配置参考 http://www.cnblogs.com/yoyoketang/p/selenium.html) FF45.2 官方下载地址: http://ftp.mozilla.org/pub/firefox/release…
-
python3实现网络爬虫(6)–正则表达式和BeautifulSoup配合使用
这一次介绍下正则表达式和BeautifulSoup结合使用。 对于正则表达式,在python中是一种很好的工具,可以帮助我们匹配我们需要的数据,当然了这些数据肯定是符合某些共性的,才能被我们的正则表达式所捕获。我们可以先看看BeautifulSoup中的findAll函数,这个函数的特点就是根据我们提供的参数去匹配满足的内容,比如说我…
-
Python爬虫知识点——Chrome开发者工具Network
Chrome开发者工具中Network功能介绍 第一列Name:请求的名称,一般会将URL的最后一 部分内容当作名称。 第二列Status: 响应的状态码,这里显示为200,代表响应是正常的。通过状态码,我们可 以判断发送了请求之后是否得到了正常的响应。 第三列Type: 请求的文档类型。这里为document, 代表我们这次请求的是一个HTML文档,内…
-
Python爬虫知识点——URL与URI
URL与URI URL全称:Uniform Resource Locator(统一资源定位符) URI全称:Uniform Resource Identifier(统一资源标识符) 如https://github.com/favicon.ico为例,它既是一个URL又是一个URI。我们通过URL/URI唯一指定了它的访问方式。其中包括访问协议https、访问…
-
Python爬虫学习笔记7:动态渲染页面爬取
参考:Python3网络爬虫开发实战 问题:Ajax 是javascript动态渲染页面的一种情形,可以通过分析Ajax,然后借用requests和urllib来实现数据爬取。不过Javascript动态渲染的页面不止这一种。 比如中国青年网(详见 http://news.youth.cn/gn/), 它的分页部分是由 JavaScript生成的,并非原…
-
python爬虫–爬取豆瓣top250电影名
关于模拟浏览器登录的header,可以在相应网站按F12调取出编辑器,点击netwook,如下: 以便于不会被网站反爬虫拒绝。 1 import requests 2 from bs4 import BeautifulSoup 5 def get_movies(): 6 headers = { 7 ‘user-agent’: ‘Mozilla/5.0 (…
-
爬虫笔记(二):爬取药监局所有详情页数据
药监局网址:http://scxk.nmpa.gov.cn:81/xk/ 药监局首页: 详情页: 目的:爬取药监局所有详情页信息,保存在本地,以csv文件格式保存。 分析主页: 主页的response返回内容中,包含了这一页中的所有企业的id 修改网页参数page可以实现翻页 所以首先要通过访问主页,获取所有企业…
-
shell爬虫–抓取某在线文档所有页面
在线教程一般像流水线一样,页面有上一页下一页的按钮,因此,可以利用shell写一个爬虫读取下一页链接地址,配合wget将教程所有内容抓取。 以postgresql中文网为例。下面是实例代码 #!/bin/sh start_URL=”http://www.postgres.cn/docs/9.6/preface.html” end_URL=”http://ww…
-
如何控制分布式爬虫结束
Scrapy-Redis 空跑问题,redis_key链接跑完后,自动关闭爬虫 问题: scrapy-redis框架中,reids存储的xxx:requests已经爬取完毕,但程序仍然一直运行,如何自动停止程序,结束空跑。 相信大家都很头疼,尤其是网上一堆搬来搬去的帖子,来看一下 我是如何解决这个问题的吧 课外了解 分布式扩展: 我们知道 scrapy 默认…