爬虫

  • python3爬虫再探之豆瓣影评数据抓取

        一个关于豆瓣影评的爬虫,涉及:模拟登陆,翻页抓取。直接上代码: import re import time import requests import xlsxwriter from bs4 import BeautifulSoup headers = {‘User-Agent’:’Mozilla/5.0 (Windows NT 6.1) Appl…

    爬虫 2023年4月10日
    00
  • python3爬虫初探(五)之从爬取到保存

      想一想,还是写个完整的代码,总结一下前面学的吧。 import requests import re # 获取网页源码 url = ‘http://www.ivsky.com/tupian/xiaohuangren_t21343/’ data = requests.get(url).text #正则表达式三部曲 #<img src=”http://…

    爬虫 2023年4月10日
    00
  • python3爬虫初探(二)之requests

      关于请求网页,不得不提requests这个库,这是爬虫经常用到的一个第三方库,用pip安装即可。 requests用法很多,这里只写一些基础的,其他高级功能可参考官方文档。 import requests url = ‘http://www.baidu.com’ #这里用get方法用来请求网页,其他还有post等方法来请求网页 data = reques…

    爬虫 2023年4月10日
    00
  • 爬虫再探之mysql简单使用

        在爬取数据量比较大时,用EXCEL存取就不太方便了,这里简单介绍一下python操作mysql数据库的一些操作。本人也是借助别人的博客学习的这些,但是找不到原来博客链接了,就把自己的笔记写在这里,这里感谢博文原创者。      import MySQLdb # 打开数据库连接 mypwd = input(“请输入数据库密码:”) # 这里只是避免代码…

    爬虫 2023年4月10日
    00
  • python3爬虫初探(三)之正则表达式

      前面已经写了如何获取网页源码,那么接下来就是该解析网页并提取需要的数据了。这里简单写一下正则表达的用法。   首先,找个要抓取图片的网站,获取源码。 import requests import re # 获取网页源码 url = ‘http://www.ivsky.com/tupian/xiaohuangren_t21343/’ data = requ…

    爬虫 2023年4月10日
    00
  • python3爬虫初探(四)之文件保存

      接着上面的写,抓取到网址之后,我们要把图片保存到本地,这里有几种方法都是可以的。   #—–urllib.request.urlretrieve—–    import urllib.request imgurl = ‘http://img.ivsky.com/img/tupian/t/201411/01/xiaohuangren_tupia…

    爬虫 2023年4月10日
    00
  • python3爬虫再探之EXCEL

        在爬取数据之后,数据的保存就成为一个新的问题,一般不太大的的数据存储到EXCEL就可以了。这里介绍一个python的第三方库——xlsxwriter. 这个库的安装就不介绍了,pip就可以,不用FQ。这里仅介绍一些简单常用的命令。      首先,说明一下,xlsxwriter只能写入数据,不能读取和修改数据(读取和修改可以用xlrd和xlwt)。上…

    爬虫 2023年4月10日
    00
  • 爬虫再探实战(四)———爬取动态加载页面——请求json

        还是上次的那个网站,就是它.现在尝试用另一种办法——直接请求json文件,来获取要抓取的信息。     第一步,检查元素,看图如下:     过滤出JS文件,并找出包含要抓取信息的js文件,之后就是构造requests请求对象,然后解析json文件啦。源码如下: import requests def save(school_datas): for …

    爬虫 2023年4月10日
    00
  • 爬虫再探实战(五)———爬取APP数据——超级课程表【四】——情感分析

        仔细看的话,会发现之前的词频分析并没有什么卵用。。。文本分析真正的大哥是NLP,不过,这个坑太大,小白不大敢跳。。。不过还是忍不住在坑边上往下瞅瞅2333. 言归正传,今天刚了解到boson公司有python关于自然语言处理的API,于是试着用了一下,官方文档很不错,简单明了。首先是pip install bosonnlp。下面是一些简单应用,其实就…

    爬虫 2023年4月10日
    00
  • 爬虫再探实战(五)———爬取APP数据——超级课程表【三】——日期时间分析

        接着整理一下时间和日期与发帖量的关系。     PROJECT2:日期(选取2015整年)     代码如下:(这里的 kebiao_all.xlsx 是之前抓到的全部的数据) import xlrd import xlsxwriter # 获取数据的时间列表—–>dates_list fname = ‘kebiao_all.xlsx’ …

    爬虫 2023年4月10日
    00
合作推广
合作推广
分享本页
返回顶部