柠鸢
-
爬虫一些常用代码的记录
写了一个GK2A卫星数据爬取的程序,本身不难,记录下小知识。 根据URL下载文件,有些需要cookie,大文件下载防止文件损坏 headers = { “Content-Type”: ContentType, “User-Agent”: UA, “Cookie”: cookie } response = requests.get(uri, headers =…
-
关于多种验证码的应对方式
爬虫程序会遇到各色各样的验证码,整理一下解决方法。 1.使用均值哈希算法进行图像识别 原理是根据像素平均值对比,来得到一串01010001这样的字符串,通过比较相同位置上是否相同。 统计出来的数量作为相似度凭据。 适用于不规则,难以识别文字或字母时的图像对比,适用面不广,但思路可以借鉴。 代码如下: #开发时间: 2022/11/2 20:42 impo…