爬虫
-
python爬虫入门(六) Scrapy框架之原理介绍
Scrapy框架 Scrapy简介 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。 Scrapy 使用了 Twisted[‘twɪstɪd](其主要对手是Tornado)异步网络框架来处理网络通讯…
-
web爬虫,requests请求
requests请求,就是用yhthon的requests模块模拟浏览器请求,返回html源码 模拟浏览器请求有两种,一种是不需要用户登录或者验证的请求,一种是需要用户登录或者验证的请求 一、不需要用户登录或者验证的请求 这种比较简单,直接利用requests模块发一个请求即可拿到html源码 #!/usr/bin/env python # -*- …
-
python爬虫 – js逆向之某评的逆向分析笔记
前言 最近长期混迹在很多技术交流群里,大部分时间都是在看,很少参与讨论,发现里面大佬太多了,像他们那样的大佬每天都在学习,是真的觉得自愧不如啊,某数,某美,各大滑块,某易,某迅,某验,jsl,还有国外的akamai,cloudflare(俗称5秒盾),obfuscator,jsfuck,啥啥全都不用费太大力就能搞定。 前面说的还是web端的逆向,ap…
-
python爬虫 – js逆向之svg字体反爬破解
前言 同样的,接上一篇 python爬虫 – js逆向之woff字体反爬破解 ,而且也是同一个站的数据,只是是不同的反爬 网址: aHR0cDovL3{防查找,删除我,包括花括号}d3dy5kaWFuc{防查找,删除我,包括花括号}GluZy5jb20vcmV2aWV3L{防查找,删除我,包括花括号}zEwMDM1NDgxNjI= 分析 打开网站: …
-
python爬虫 – js逆向之猿人学第十九题突破ja3指纹验证
前言 废话不多说,直接干,再来猿人学19题 分析 看了下,没有加密参数: 然后拿着接口直接请求: 有结果的,不会吧,这么简单?没有加密参数?这次这么草率? 用代码访问,唉,卧槽,就是他妈的不行,果然有猫腻 换requests: 确实不行, 用postman看看,可以的 这他妈就很秀啊,上一次这种感觉还是h…
-
python爬虫- requests、httpx、aiohttp、scrapy突破ja3指纹识别
requests from requests.adapters import HTTPAdapter from requests.packages.urllib3.util.ssl_ import create_urllib3_context import requests import random ORIGIN_CIPHERS = (‘ECDH+AESG…
-
python爬虫 – js逆向之woff字体反爬破解
前言 本篇博文的主题就是处理字体反爬的,其实这种网上已经很多了,那为什么我还要写呢?因为无聊啊,最近是真没啥事,并且我看了下,还是有点难度的,然后这个字体反爬系列会出两到三篇博文,针对市面上主流的字体反爬,一一讲清楚 不多bb,先看目标站 aHR0cDo{防查找,删除我,包括花括号}vL3d3dy5kaWFucGluZy5jb20vbW{防查找,删除…
-
python爬虫 – js逆向之猿人学第十六题webpack,忽略obfuscator
前言 好久没有写猿人学的分析了,今天来分析一波 打开网址: 同样的,也很轻易的拿到接口, 然后这个接口里的请求参数又是迷人的m,m就是我们的目标了 分析 老规矩,搜索: 搜一堆出来,感觉都不太靠谱 那咋办?先看特征,看这个长度是多少的,卧槽,这个长度有点少见了 点调用栈看看: 看到这个就很可疑了 …
-
python爬虫 – js逆向之猿人学第十七题http2.0
前言 继续干17题,就是个http2.0协议,有关这个协议的,我之前就出过相关的文章:python爬虫 – 爬虫之针对http2.0的某网站爬取 代码 所以,就不多比比了,直接上代码: import httpx headers = { “authority”: “match.yuanrenxue.com”, ‘cookie’: ‘sessionid=换成…
-
爬虫 解析库re,Beautifulsoup,
re模块 点我回顾 Beautifulsoup模块 #安装 Beautiful Soup pip install beautifulsoup4 #安装解析器 Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,其中一个是 lxml .根据操作系统不同,可以选择下列方法来安装lxml: $ apt-get insta…