爬虫
-
python爬虫实战–抖音
申明&警告: 请在相关网站的许可范围内爬取数据.以免影响网站正常运行, 如果我的文章有触犯权益的地方, 请告知删除. 上一篇爬取知乎的文章基本就是大多数网站的爬取思路了(headers部分其实蛮重要的,后面再整理吧) 问题: 爬网站我会了, 手机app能不能爬? 稍微解释下原理: 一般资讯类app或网站, 都是调”后端”拿数据. 这就是为什么刷手机会…
-
python爬虫的一些小小问题、python动态正则表达式
1.首先urllib不能用了,需要引入的是urllib2,正则re。 #coding=utf-8 # import urllib import urllib2 import re def getHtml(url): page = urllib2.urlopen(url) html = page.read() return html def getCountr…
-
网络爬虫之HTTPClient
HTTPClient官网:http://hc.apache.org/httpcomponents-client-4.5.x/quickstart.html 问题一:明明浏览器请求有数据,可使用HTTPClient输出却为空 import org.apache.http.*; import org.apache.http.client.*; import or…
-
网络爬虫之JSOUP
JSOUP中文文档:http://www.open-open.com/jsoup/推荐博客:http://www.cnblogs.com/jycboy/p/jsoupdoc.html 从一个URL加载一个Document Document doc = Jsoup.connect(“http://example.com”) .data(“query”, “Ja…
-
j网络爬虫之WebMagic
WebMagic官网:http://webmagic.io/ 注意: 1、在自定义PageProcessor中使用System.out.println(“str”),Spider.create(new myPageProcessor()).start()爬虫启动后,console并不会输出 spider.addPipeline(new ConsolePipe…
-
python 多线程爬虫
环境搭建 requests:获取数据 lxml:解析数据 本次爬去糗事百科,爬取地址:http://www.qiushibaike.com/8hr/page/1/ python3 代码示例 import requests import threading from queue import Queue from lxml import etree imp…
-
转自:全面超越Appium,使用Airtest超快速开发App爬虫
初识Airtest 想开发网页爬虫,发现被反爬了?想对 App 抓包,发现数据被加密了?不要担心,使用 Airtest 开发 App 爬虫,只要人眼能看到,你就能抓到,最快只需要2分钟,兼容 Unity3D、Cocos2dx-*、Android 原生 App、iOS App、Windows Mobile……。 Airtest是网易开发的手机UI界面自动化测试…
-
python爬虫 – js逆向之取巧秒解webpack打包的加密参数
前言 今天的分析对象是这个:aHR0cHM6Ly9tLmN{防查找,去掉我,包括大括号}0eXVuLmNuL3dhc{防查找,去掉我,包括大括号}C9tYWluL2F1dGgv{防查找,去掉我,包括大括号}bG9naW4= 就是去搞这个登录接口的加密参数 就这三个参数 第一个不用说,就是个时间戳 第二个comParam…
-
python爬虫 – js逆向之猿人学第三题请求顺序验证+请求头验证
前言 继续猿人学的题 分析 打开网站: 直接翻页找接口 根据之前题的分析得知,肯定也是3和3?page=xx的是数据接口了,那么看下这个接口里的请求参数,发现就一个get请求,也没有请求参数,只有一个cookie 看到cookie是sessionid的,有经验的朋友应该知道这个是服务端生成的,有的必须要带上,有的可以不用带上,我们…
-
python爬虫 – js逆向之突破某网的debug检测
前言 朋友给了我一个网站,他说这个网站的debug检测有点东西,于是我准备研究一下 网址:aHR0cHM6Ly93d3cuYXFpc3R1ZHkuY24vaGlzdG9yeWRhdGEvZGF5ZGF0YS5waHA/Y2l0eT0lRTYlOUQlQUQlRTUlQjclOUUmbW9udGg9MjAyMTA5 (请不要问我什么东西,懂的都懂) 分析 …