爬虫之路: 字体反扒升级版

2023年4月12日下午11:21 • 爬虫

字体反扒系列

爬虫之路: 字体文件反爬一

爬虫之路: 字体文件反爬二(动态字体文件)

本文转自 [ 不止于python ]

开始吧!

小伙伴留言说, 脚本用不了了, 抽了空就先打开网站看一下, 结果发现看不见字符的源码了, 在控制台, 源码, 甚至python请求的html都变成了符号

页面html中

爬虫之路: 字体反扒升级版

控制面板源码中

爬虫之路: 字体反扒升级版

python请求源码中

爬虫之路: 字体反扒升级版

全部都变成了 一个方块一个问号(打不出来)

但是试了一下字体文件什么的, 都还可以用, 所以就直接从编码下手了

不料这个编码也不太好弄, 需要转来转去的, 最后解决了

脚本升级版

涉及修改的代码, 其余与第二篇一样

    def repalce_source_code(self, html):
        #  转为 编码 比如: \uec8e
        html = html.encode("latin-1", "backslashreplace").decode("utf-8")
        for utf_code, word in self.new_unicode_map.items():
            html = html.replace("\\u%s" % utf_code[3:].lower(), word)
        # 再次将替换后的字符转为正常unicode
        html = html.encode("latin-1", "backslashreplace").decode("utf-8")
        # 转为中文
        html = html.encode("utf-8").decode("unicode_escape")
        return html

    def get_subject_content(self):
        # 使用xpath 获取 主贴, 先获取主贴, 只替换主贴内容
        xp_html = etree.HTML(self.page_html)
        subject_text = ''.join(xp_html.xpath('//div[@class="tz-paragraph"]//text()'))
        return self.repalce_source_code(subject_text)

这次升级其实并没有较大的改动, 只是需要转几次编码

脚本可以直接运行

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：爬虫之路: 字体反扒升级版 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

NetCore控制台程序-使用HostService和HttpClient实现简单的定时爬虫

上一篇 2023年4月12日下午11:21

python爬虫 JS逆向思路

下一篇 2023年4月12日下午11:22

Python爬虫之教你利用Scrapy爬取图片

下面我将详细讲解“Python爬虫之教你利用Scrapy爬取图片”的完整攻略。标题简介在介绍爬虫之前，我们先介绍下Scrapy。Scrapy是一个Python编写的爬虫框架，它提供了一套完整的爬虫工具链，可用于从网站上提取结构化数据（例如，爬取图片、爬取文字信息等）。安装Scrapy 要使用Scrapy，需要先将其安装，可以使用以下命令进行安装： p…

python 2023年5月14日
000
scrapy爬虫中如何实现翻页请求

通过scrapy.Request实现翻页请求： scrapy.Request(url, callback=None, method=’GET’, headers=None, body=None, cookies=None, meta=None, encoding=’utf-8′, priority=0, dont_filter=False, errback=…

爬虫 2023年4月10日
000
python|爬虫东宫小说

2k小说网爬取最近大火的《东宫》小说，借鉴之前看过的一段代码，修改之后，进行简单爬取。 from urllib import requestfrom bs4 import BeautifulSoupurl=’https://www.fpzw.com/xiaoshuo/19/19210/’req=request.Request(url)response=req…

爬虫 2023年4月13日
000
python之初学爬虫并且将爬回来的数据存为csv文件

一、开发工具：运行环境： python3.7 win10 python 第三方库： requests (自行安装） >>> cmd —>pip install requests, 具体不做介绍) 二、检测是否安装成功在命令行中输入python，敲击回车，进入python环境。再输入以下指令并…

爬虫 2023年4月11日
000
Python3网络爬虫中的requests高级用法详解

Python3网络爬虫中的requests高级用法详解本文将介绍Python3中requests库的高级用法，主要包括会话（Session）、身份验证、代理、文件上传以及使用Cookie等几个方面。会话对于复杂的操作例如登录和保持状态，我们可以使用Session来管理请求： import requests s = requests.Session() …

python 2023年5月14日
000
python爬虫–爬取豆瓣top250电影名

关于模拟浏览器登录的header，可以在相应网站按F12调取出编辑器，点击netwook，如下：以便于不会被网站反爬虫拒绝。 1 import requests 2 from bs4 import BeautifulSoup 5 def get_movies(): 6 headers = { 7 ‘user-agent’: ‘Mozilla/5.0 (…

爬虫 2023年4月10日
000
java爬虫中jsoup的使用

jsoup可以用来解析HTML的内容，其功能非常强大,它可以向javascript那样直接从网页中提取有用的信息例如1：从html字符串中解析数据 //直接从字符串中获取 public static void getParByString() { String html = “<html><head><title> …

爬虫 2023年4月13日
000
一个月入门Python爬虫学习,轻松爬取大规模数据

攻略介绍 Python爬虫是一个非常有前途的工作领域，本攻略旨在帮助初学者快速入门Python爬虫。攻略包含以下内容： Python基础知识学习爬虫原理及相关技术学习 Python实战爬虫项目通过学习这些内容，相信初学者能够轻松掌握Python爬虫。 Python基础知识学习学习Python基础语法非常有必要，包括条件语句、循环语句、函数、类等。为快速…

python 2023年5月14日
000

合作推广

合作推广

返回顶部