爬虫 Archives - Page 113 of 133

爬虫第一天

爬虫学习参考博客:https://www.cnblogs.com/cyycyhcbw/articles/10442399.html 1.使用软件anaconda 2.输入jupyter notbook 3.anaconda使用快捷键 -插入cell: a 上一行插入 b 下一行插入 -删除: x -模式切换: m切换到master …

爬虫 2023年4月11日

000

[Selenium2+python2.7][Scrap]爬虫和selenium方式下拉滚动条获取简书作者目录并且生成Markdown格式目录

预计阅读时间： 15分钟环境： win7 + Selenium2.53.6+python2.7 +Firefox 45.2 (具体配置参考 http://www.cnblogs.com/yoyoketang/p/selenium.html) FF45.2 官方下载地址： http://ftp.mozilla.org/pub/firefox/release…

爬虫 2023年4月11日

000

python3实现网络爬虫（6）–正则表达式和BeautifulSoup配合使用

这一次介绍下正则表达式和BeautifulSoup结合使用。对于正则表达式，在python中是一种很好的工具，可以帮助我们匹配我们需要的数据，当然了这些数据肯定是符合某些共性的，才能被我们的正则表达式所捕获。我们可以先看看BeautifulSoup中的findAll函数，这个函数的特点就是根据我们提供的参数去匹配满足的内容，比如说我…

爬虫 2023年4月11日

000

Python爬虫知识点——Chrome开发者工具Network

Chrome开发者工具中Network功能介绍第一列Name:请求的名称，一般会将URL的最后一部分内容当作名称。第二列Status: 响应的状态码，这里显示为200，代表响应是正常的。通过状态码，我们可以判断发送了请求之后是否得到了正常的响应。第三列Type: 请求的文档类型。这里为document, 代表我们这次请求的是一个HTML文档,内…

爬虫 2023年4月10日

000

Python爬虫知识点——URL与URI

URL与URI URL全称：Uniform Resource Locator(统一资源定位符) URI全称：Uniform Resource Identifier(统一资源标识符) 如https://github.com/favicon.ico为例，它既是一个URL又是一个URI。我们通过URL/URI唯一指定了它的访问方式。其中包括访问协议https、访问…

爬虫 2023年4月10日

000

Python爬虫学习笔记7：动态渲染页面爬取

参考：Python3网络爬虫开发实战问题：Ajax 是javascript动态渲染页面的一种情形，可以通过分析Ajax，然后借用requests和urllib来实现数据爬取。不过Javascript动态渲染的页面不止这一种。比如中国青年网(详见 http://news.youth.cn/gn/), 它的分页部分是由 JavaScript生成的，并非原…

爬虫 2023年4月10日

000

python爬虫–爬取豆瓣top250电影名

关于模拟浏览器登录的header，可以在相应网站按F12调取出编辑器，点击netwook，如下：以便于不会被网站反爬虫拒绝。 1 import requests 2 from bs4 import BeautifulSoup 5 def get_movies(): 6 headers = { 7 ‘user-agent’: ‘Mozilla/5.0 (…

爬虫 2023年4月10日

000

爬虫

爬虫笔记（二）：爬取药监局所有详情页数据

药监局网址：http://scxk.nmpa.gov.cn:81/xk/ 药监局首页：详情页：目的：爬取药监局所有详情页信息，保存在本地，以csv文件格式保存。分析主页：主页的response返回内容中，包含了这一页中的所有企业的id 修改网页参数page可以实现翻页所以首先要通过访问主页，获取所有企业…

2023年4月10日

000

shell爬虫–抓取某在线文档所有页面

在线教程一般像流水线一样，页面有上一页下一页的按钮，因此，可以利用shell写一个爬虫读取下一页链接地址，配合wget将教程所有内容抓取。以postgresql中文网为例。下面是实例代码 #!/bin/sh start_URL=”http://www.postgres.cn/docs/9.6/preface.html” end_URL=”http://ww…

爬虫 2023年4月10日

000

如何控制分布式爬虫结束

Scrapy-Redis 空跑问题，redis_key链接跑完后，自动关闭爬虫问题： scrapy-redis框架中，reids存储的xxx:requests已经爬取完毕，但程序仍然一直运行，如何自动停止程序，结束空跑。相信大家都很头疼，尤其是网上一堆搬来搬去的帖子，来看一下我是如何解决这个问题的吧课外了解分布式扩展：我们知道 scrapy 默认…

爬虫 2023年4月10日

000