关于爬虫个人认为难度很高的两点

2023年4月11日上午3:35 • 爬虫

第一点是 js 进行了加密,

通常是需要进行一些参数传递,比如有道翻译,那种加密很简单,只需要在进行推演就可以知道加密的数值是什么样子的,

百度翻译sign的数值进行了js函数加密,如果是不懂js,那么很难进行反加密

解决方法有

通过selenium

其他途径,app,web

第二种则是动态字体文件库

现在已知是猫眼和汽车之家帖子都进行了动态字体库

猫眼石每次刷新页面动态字体文件都会更换,猫眼只是0-9进行字体文件更换

汽车之家帖子是每个页面固定一个字体文件,不止数字中文也会更改,

抖音手机版数字含有字体库,数字更换

如果是所有页面一个字体库,那么可以通过fontTools第三方库来进行映射对应抓取的数据进行清洗

多个动态字体库,有可能有几百个库,每个字体库映射一般都不相同,除非你能找到所有字体库,每次抓取之前在页面中找到该字体库,抓取之后再使用本地保存的所有字体库,选中页面上所含有字体库进行对照

应对方法,

使用selenium截图+orc识别,但是效率和识别率感人

如果pc版不好爬取,那么去其他途径,比如app版抓包接口

我估摸着如果不出意外,未来反爬虫很大可能使用动态字体文件库

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：关于爬虫个人认为难度很高的两点 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

python爬虫-MongoDB安装配置

上一篇 2023年4月11日

【Python学习之旅】—爬虫数据写入到excel

下一篇 2023年4月11日

Python爬虫实践 —— 3.利用爬虫提取返回值，模拟有道词典接口

有道词典的web接口，实际上可以用爬虫模拟，输入key，拼接为有道词典接口的formdata，爬取返回值，实际为Ajax动态生成的translation，这样外部来看实现了翻译接口的模拟，相当于爬虫模拟浏览器调用了有道词典web接口，其实讲真的话来说，直接调用有道web接口，传json参数就可以了，不用这么费事，但爬虫模拟了人登陆web，输入关键词，获得翻译…

爬虫 2023年4月10日
000
python爬虫容易学吗

Python爬虫容易学吗 Python爬虫指的是使用Python编写的程序，可以自动化地从网站上抓取数据并进行处理和分析。它可以帮助我们快速而有效地获取大量的数据，带来了很多便利。但是，初学者是否能够轻松地上手学习Python爬虫呢？本文将提供完整的攻略，帮助你了解Python爬虫的基本流程和技能点。 Python爬虫的基本流程 Python爬虫的基本流程通…

python 2023年5月14日
000
Python爬虫之requests如何使用

本文小编为大家详细介绍“Python爬虫之requests如何使用”，内容详细，步骤清晰，细节处理妥当，希望这篇“Python爬虫之requests如何使用”文章能帮助大家解决疑惑，下面跟着小编的思路慢慢深入，一起来学习新知识吧。 requests库简介 requests 库是一个常用的用于 http 请求的模块，它使用 python 语言编写，可以方便的对…

爬虫 2023年4月12日
000
scrapy 解决爬虫IP代理池，数据轻松爬。

现在越来越多的人在工作中使用到爬虫，各个网站的反爬虫机制也越来越严格，下面就自己构建一个代理ip池。手动更新ip池 1.1在setting配置文件中新增ip池 IPPOOL=[ {“ipaddr”:”61.129.70.131:8080”}, {“ipaddr”:”61.152.81.193:9100”}, {“ipaddr”:”120.204.85.29…

爬虫 2023年4月11日
000
如何实现分布式爬虫？

实现分布式爬虫需要以下几个步骤：确认需求：首先需要明确爬取的目标网站，并确定需要爬取的内容及其对应的网页结构。设计分布式架构：根据需求设计分布式架构，可以选择使用什么类型的分布式计算框架，如Spark、Hadoop、Storm等。考虑数据存储、任务调度、节点通信等方面，并确定主节点和从节点。编写代码：根据设计，编写代码实现分布式爬虫任务。主要工作包括：…

爬虫 2023年4月20日
000
Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容

Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容简介在实际的爬虫使用中，经常会遇到需要抓取动态加载（AJAX）的数据和动态生成的HTML内容。例如，一个网页上有一个下拉菜单，选择不同的选项后，网页会通过AJAX请求新的数据并将结果展现在页面上。这种情况下，传统的爬虫技术（如request+beautiful sou…

python 2023年5月14日
000
2017.07.23 Python网络爬虫之爬虫常用模块

1.涉及网络这块，必不可少的模块就是urllib2了。顾名思义这个模块主要负责打开URL和HTTP协议之类的，还有一个模块叫urllib，但它们不是升级版的关系 2.urllib2请求返回网页（1）urllib2最贱的应用就是urllib2.urlopen函数了： urllib2.urlopen(url[,data[,timeout[,cafile[,…

爬虫 2023年4月11日
000
爬虫–登录网页

#!/usr/bin/env python # -*- coding: utf-8 -*- ############################################# # File : loginMMVOIP.py # Author : lucasysfeng # Revision : 2014-06-13 14:26:11 # Descri…

爬虫 2023年4月13日
000

合作推广

合作推广

返回顶部