爬虫 Archives - Page 115 of 133

python3爬虫再探之豆瓣影评数据抓取

　　　　一个关于豆瓣影评的爬虫，涉及：模拟登陆，翻页抓取。直接上代码： import re import time import requests import xlsxwriter from bs4 import BeautifulSoup headers = {‘User-Agent’:’Mozilla/5.0 (Windows NT 6.1) Appl…

爬虫 2023年4月10日

000

python3爬虫初探（五）之从爬取到保存

　　想一想，还是写个完整的代码，总结一下前面学的吧。 import requests import re # 获取网页源码 url = ‘http://www.ivsky.com/tupian/xiaohuangren_t21343/’ data = requests.get(url).text #正则表达式三部曲 #<img src=”http://…

爬虫 2023年4月10日

000

python3爬虫初探（二）之requests

　　关于请求网页，不得不提requests这个库，这是爬虫经常用到的一个第三方库，用pip安装即可。 requests用法很多，这里只写一些基础的，其他高级功能可参考官方文档。 import requests url = ‘http://www.baidu.com’ #这里用get方法用来请求网页，其他还有post等方法来请求网页 data = reques…

爬虫 2023年4月10日

000

爬虫再探之mysql简单使用

　　　　在爬取数据量比较大时，用EXCEL存取就不太方便了，这里简单介绍一下python操作mysql数据库的一些操作。本人也是借助别人的博客学习的这些，但是找不到原来博客链接了，就把自己的笔记写在这里，这里感谢博文原创者。　　　　 import MySQLdb # 打开数据库连接 mypwd = input(“请输入数据库密码：”) # 这里只是避免代码…

爬虫 2023年4月10日

000

python3爬虫初探（三）之正则表达式

　　前面已经写了如何获取网页源码，那么接下来就是该解析网页并提取需要的数据了。这里简单写一下正则表达的用法。　　首先，找个要抓取图片的网站，获取源码。 import requests import re # 获取网页源码 url = ‘http://www.ivsky.com/tupian/xiaohuangren_t21343/’ data = requ…

爬虫 2023年4月10日

000

python3爬虫初探（四）之文件保存

　　接着上面的写，抓取到网址之后，我们要把图片保存到本地，这里有几种方法都是可以的。　　#—–urllib.request.urlretrieve—– 　　 import urllib.request imgurl = ‘http://img.ivsky.com/img/tupian/t/201411/01/xiaohuangren_tupia…

爬虫 2023年4月10日

000

python3爬虫再探之EXCEL

　　　　在爬取数据之后，数据的保存就成为一个新的问题，一般不太大的的数据存储到EXCEL就可以了。这里介绍一个python的第三方库——xlsxwriter. 这个库的安装就不介绍了，pip就可以，不用FQ。这里仅介绍一些简单常用的命令。　　　　　首先，说明一下，xlsxwriter只能写入数据，不能读取和修改数据（读取和修改可以用xlrd和xlwt）。上…

爬虫 2023年4月10日

000

爬虫再探实战（四）———爬取动态加载页面——请求json

　　　　还是上次的那个网站，就是它.现在尝试用另一种办法——直接请求json文件，来获取要抓取的信息。　　　　第一步，检查元素，看图如下：　　　　过滤出JS文件，并找出包含要抓取信息的js文件，之后就是构造requests请求对象，然后解析json文件啦。源码如下： import requests def save(school_datas): for …

爬虫 2023年4月10日

000

爬虫再探实战（五）———爬取APP数据——超级课程表【四】——情感分析

　　　　仔细看的话，会发现之前的词频分析并没有什么卵用。。。文本分析真正的大哥是NLP，不过，这个坑太大，小白不大敢跳。。。不过还是忍不住在坑边上往下瞅瞅2333. 言归正传，今天刚了解到boson公司有python关于自然语言处理的API，于是试着用了一下，官方文档很不错，简单明了。首先是pip install bosonnlp。下面是一些简单应用，其实就…

爬虫 2023年4月10日

000

爬虫再探实战（五）———爬取APP数据——超级课程表【三】——日期时间分析

　　　　接着整理一下时间和日期与发帖量的关系。　　　　PROJECT2：日期（选取2015整年）　　　　代码如下：（这里的 kebiao_all.xlsx 是之前抓到的全部的数据） import xlrd import xlsxwriter # 获取数据的时间列表—–>dates_list fname = ‘kebiao_all.xlsx’ …

爬虫 2023年4月10日

000