爬虫
-
j网络爬虫之WebMagic
WebMagic官网:http://webmagic.io/ 注意: 1、在自定义PageProcessor中使用System.out.println(“str”),Spider.create(new myPageProcessor()).start()爬虫启动后,console并不会输出 spider.addPipeline(new ConsolePipe…
-
python 多线程爬虫
环境搭建 requests:获取数据 lxml:解析数据 本次爬去糗事百科,爬取地址:http://www.qiushibaike.com/8hr/page/1/ python3 代码示例 import requests import threading from queue import Queue from lxml import etree imp…
-
转自:全面超越Appium,使用Airtest超快速开发App爬虫
初识Airtest 想开发网页爬虫,发现被反爬了?想对 App 抓包,发现数据被加密了?不要担心,使用 Airtest 开发 App 爬虫,只要人眼能看到,你就能抓到,最快只需要2分钟,兼容 Unity3D、Cocos2dx-*、Android 原生 App、iOS App、Windows Mobile……。 Airtest是网易开发的手机UI界面自动化测试…
-
python爬虫 – js逆向之取巧秒解webpack打包的加密参数
前言 今天的分析对象是这个:aHR0cHM6Ly9tLmN{防查找,去掉我,包括大括号}0eXVuLmNuL3dhc{防查找,去掉我,包括大括号}C9tYWluL2F1dGgv{防查找,去掉我,包括大括号}bG9naW4= 就是去搞这个登录接口的加密参数 就这三个参数 第一个不用说,就是个时间戳 第二个comParam…
-
python爬虫 – js逆向之猿人学第三题请求顺序验证+请求头验证
前言 继续猿人学的题 分析 打开网站: 直接翻页找接口 根据之前题的分析得知,肯定也是3和3?page=xx的是数据接口了,那么看下这个接口里的请求参数,发现就一个get请求,也没有请求参数,只有一个cookie 看到cookie是sessionid的,有经验的朋友应该知道这个是服务端生成的,有的必须要带上,有的可以不用带上,我们…
-
python爬虫 – js逆向之突破某网的debug检测
前言 朋友给了我一个网站,他说这个网站的debug检测有点东西,于是我准备研究一下 网址:aHR0cHM6Ly93d3cuYXFpc3R1ZHkuY24vaGlzdG9yeWRhdGEvZGF5ZGF0YS5waHA/Y2l0eT0lRTYlOUQlQUQlRTUlQjclOUUmbW9udGg9MjAyMTA5 (请不要问我什么东西,懂的都懂) 分析 …
-
python爬虫 – js逆向解密之简单端口加密破解v2 — 修复版
前言 这篇跟上一篇很像,而且他的端口显示也很类似,是的,它也是一个国外的代理网站 分析 打开网站查看: 发现它的的端口和之前的网站一样,不是直接显示的,那么用SmallProxy这个关键词搜索下在哪,很快就找到了下面这个: 关键点 代码: <script type=”text/javascript”> //<…
-
python爬虫 – js逆向之猿人学第十五题wasm
前言 不多说啊,继续猿人学的 分析 打开网站,然后接口也是很轻易的就拿到了 点开某个接口看请求参数: 这个m这次有点不一样啊,怎么找生成逻辑?还是搜竖线,那估计又会卡住,还是看调用栈吧,稳当一点: 关键点 唉,不点不知道,一点就知道逻辑了: 相信都搞到这个地步的老哥们,除了wasm可能看起来有点懵,后面的j…
-
python爬虫 – js逆向之扣出某平台的_signature加密字段
前言 好久没有做逆向案例分析了,最近都在看同行朋友写好的案例,感觉学到很多,算是取长补短了 不多bb,机缘巧合下,拿到个目标网站 aHR0c{请删除大括号及其内容,防搜索}HM6Ly93d{请删除大括号及其内容,防搜索}3cudG91dG{请删除大括号及其内容,防搜索}lhby5jb20v 分析 首先抓个包,就看到请求参数里带着这几个参数 …
-
搜索引擎手记(二)之爬虫的开发
2015年3月23日(星期一) 晴、南风 今天数据组开会说爬虫已经开发完毕,在尝试爬网站。由于我们采集的网站,网址都是固定的,并且爬虫网页深度为3。不需要像heritrix这些通用爬虫那么强大的功能。 爬虫主要采用了httpclient和htmlparse两个Java库,爬虫的架构思路借鉴了下面的思路。 一、 架构图 那里搜网络爬虫框架主…