爬虫

  • Scrapy爬虫框架快速入门

    安装scrapy pip install scrapy -i https://pypi.douban.com/simple/ 安装过程可能遇到的问题 版本问题导致一些辅助库没有安装好,需要手动下载并安装一个辅助库Twisted 运行时候:ModuleNotFoundError: No module named ‘attrs’pip install attrs…

    2023年4月8日
    00
  • C#网络爬虫开发

    1前言 爬虫一般都是用Python来写,生态丰富,动态语言开发速度快,调试也很方便 但是 我要说但是,动态语言也有其局限性,笔者作为老爬虫带师,几乎各种语言都搞过,现在这个任务并不复杂,用我最喜欢的C#做小菜一碟~ 2开始 之前做 OneCat 项目的时候,最开始的数据采集模块,就是用 C# 做的,同时还集成了 Chloe 作为 ORM,用 Nancy 做 …

    2023年4月8日
    00
  • python爬虫学习——列表

    namelist = [] #定义一个空的列表 namelist1 = [“小张”,”小红”,”小李”] print(namelist1[0]) print(namelist1[1]) print(namelist1[2]) testlist = [1,”测试”] #列表中存储混合类型 print(type(testlist[0])) print(type(…

    爬虫 2023年4月8日
    00
  • python爬虫学习——文件操作,异常处理

    文件操作 ”’ f = open(“a.txt”,”w”) #打开一个文件, w模式(写),如果文件不存在就在当前目录下创建 f.write(“hello world,i am here”) #将字符串写入文件中 f.close() #关闭文件 ”’ ”’ #read方法:读取指定的字符,开始定位在文件的开头,每执行一次,就向后移动指定的字符数 f =…

    爬虫 2023年4月8日
    00
  • 玫瑰花变蚊子血,自动化无痕浏览器对比测试,新贵PlayWright Vs 老牌Selenium,基于Python3.10

    也许每一个男子全都有过这样的两个女人,至少两个。娶了红玫瑰,久而久之,红的变了墙上的一抹蚊子血,白的还是床前明月光;娶了白玫瑰,白的便是衣服上沾的一粒饭黏子,红的却是心口上一颗朱砂痣。–张爱玲《红玫瑰与白玫瑰》 Selenium一直都是Python开源自动化浏览器工具的王者,但这两年微软开源的PlayWright异军突起,后来者居上,隐隐然有撼动Selen…

    2023年4月8日
    00
  • Python爬虫:原来微博上的视频下载链接在这啊

    Python爬虫:原来微博上的视频下载链接在这啊 最近看了一下网页版的微博,觉得那上面的视频不错,想获取它上面的下载链接,于是就写了这篇博文。 最近看了一下网页版的微博,觉得那上面的视频不错,想获取它上面的下载链接,于是就写了这篇博文。 1. 几个视频播放平台的下载链接的实现 1. 西瓜视频 西瓜视频这个平台上面的视频下载链接一开始就存在于视频播放界面,电脑…

    2023年4月8日
    00
  • 正则解析提速方案_爬虫

    前言 在爬爬爬的时候,有些网页的数据并不存在于html中,它们常出现在scrip标签或js文件里面,所有这时候使用xpath就有些不尽人意了。但是,我们可以直接使用re对script的内容进行提取,然后再转json格式,再通过字典索引的方法对数据逐个提取。但是,面对近百万字符的文本,正则的运行速度堪忧。 使用re提取js文件的内容: 耗时: 主要思路把获取到…

    2023年4月8日
    00
  • 网络爬虫流程总结

    网络爬虫的大体流程其实就是解析网页,爬取网页,保存数据。三个方法,就完成了对网页的爬取,并不是很困难。以下是自己对流程的一些理解和总结,如有错误,欢迎指正。 一、解析网页,获取网页源代码 首先,我们要了解我们要爬取的网页,以豆瓣为例,我们要了解模拟浏览器头部信息,来伪装成浏览器。以及爬取的内容是什么,方便我们在后面爬取的过程中用正则表达式匹配内容,以便爬取。…

    2023年4月8日
    00
  • 快速构造Python爬虫请求,有这个网站就够了!

    快速构造Python爬虫请求,有这个网站就够了! 引言 大家好,我是蜡笔小曦。 我们在通过程序向某个网页发起请求时,实际上是模拟浏览器进行http(超文本传输协议)请求,这就要求我们需要按照固定的格式进行代码构造。 一般请求数据分为三部分:请求行、请求头、请求体,如果每次都手动进行这些内容的构造,无疑会花费大量的时间,准确性也难以保证。 现在就给大家带来快速…

    2023年4月8日
    00
  • 爬虫基础知识

    目录 一、requests模块 二、requests携带参数的方式 三、get请求URL解码编码 四、post请求携带数据编码格式 四、get请求携带请求头 五、post请求携带参数 六、requests.session的使用(可以不用带cookie) 七、response对象 八、爬取图片和视频(前提是没有做防盗链) 爬虫是什么?;爬虫就是程序—&gt…

    爬虫 2023年4月8日
    00
合作推广
合作推广
分享本页
返回顶部