柠鸢

  • 爬虫一些常用代码的记录

    写了一个GK2A卫星数据爬取的程序,本身不难,记录下小知识。 根据URL下载文件,有些需要cookie,大文件下载防止文件损坏 headers = { “Content-Type”: ContentType, “User-Agent”: UA, “Cookie”: cookie } response = requests.get(uri, headers =…

    2023年4月2日
    00
  • 关于多种验证码的应对方式

    爬虫程序会遇到各色各样的验证码,整理一下解决方法。   1.使用均值哈希算法进行图像识别 原理是根据像素平均值对比,来得到一串01010001这样的字符串,通过比较相同位置上是否相同。 统计出来的数量作为相似度凭据。 适用于不规则,难以识别文字或字母时的图像对比,适用面不广,但思路可以借鉴。 代码如下: #开发时间: 2022/11/2 20:42 impo…

    Python开发 2023年4月2日
    00
合作推广
合作推广
分享本页
返回顶部