爬虫 Archives - Page 51 of 133

爬虫

python爬虫 – js逆向之猿人学第十三题cookie验证

前言继续，不多说分析打开网站：然后抓取接口：查看请求参数，发现没有什么特别的，就是多了个cookie 这个cookie咋来的？搜yuanrenxue_cookie搜不到：那还是上抓包工具吧，抓包发现了这段js: 复制出来控制台执行：这，不用多说了吧，前面复杂的都研究过了，拿到这个去请求就完了…

2023年4月13日

000

爬虫

python爬虫 – js逆向之猿人学第十二题base64加密

前言继续分析，为什么一下从第二题跳到了十二题，我也不知道为啥他这个平台的难度不循序渐进，把这么一个非常简答的题放在了后面，既然简单，那就快速解决了分析打开界面：翻页，找接口：看参数：也是m，不多说，看到最后有【=】，先猜一波是不是base64，拿着去解码：发现就是yuanrenxue+页…

2023年4月13日

000

爬虫

爬虫神器，对ajax加载的数据进行hook截取，无视带有加密参数的接口

本篇文章转载于崔大的公众号文章，瞬间感觉这是个大招啊，赶紧学习起来原文链接：点我，以下为原文内容：做爬虫的时候我们经常会遇到这么一个问题：网站的数据是通过 Ajax 加载的，但是 Ajax 的接口又是加密的，不费点功夫破解不出来。这时候如果我们想绕过破解抓取数据的话，比如就得用 Selenium 了，Selenium 能完成一些模拟点击、翻页…

2023年4月13日

001

爬虫

不能爬小程序，叫什么会爬虫【参考资料也要看】 https://mp.weixin.qq.com/s/oDG3k_qjMZaoygZmz9OUDw

上次写的如何给小孩约马术课过程，见这里 Python 约课[1]，本想一劳永逸，但是好景不长，预约系统升级了，而且还换了服务商，从之前的公众号 H5 应用，换成了小程序，之前编写的方式直接失效，孩子又没马骑了谁叫他遇到一个程序员老爸呢？这点事儿难不倒我，开干小程序的不同之处与访问 H5 不同的是，小程序相当于一个 app，其上的操作是经过微信的封装的…

2023年4月13日

000

爬虫

写Python爬虫遇到的一些坑转载：https://mp.weixin.qq.com/s/kfxJ7EKFeunGcjvBr0l7ww

毕业论文缺了点数据，于是去爬了下某猫投诉。想想上次写爬虫还是一年前大数据课程的时候。这次写也依旧遇到了一些坑，有Python本身的，有爬虫的，于是记录下。 1.Unicode字符编码问题这段数据我是从summary，即摘要开始看的，summary的内容都是\xxxxx。summary内容： \u56e0\u4e3a\u4eca\u5929\u5c31\u8…

2023年4月13日

000

爬虫

python爬虫 – js逆向解密之简单端口加密破解 — 修复版

前言这次这个网站很巧，也是一个代理网站，不过这次不是我那老朋友给的了，是我自己偶然找到的，而且也是端口加密的，跟之前某篇文章差不多。想源网址的，为了避免一些不必要的麻烦，私我给地址吧（直接在博客园私信，不用去其他地方，免得误会我是为了推广拉新啥的）这个网站虽然是国外的（需要挂dl访问），安全等级虽然也很低，对js逆向感兴趣的可以拿来练练手，…

2023年4月13日

000

Python爬虫之对app无代理模式下的抓包分析，以及针对这种的反爬优化方案

现在这个大数据时代，流量逐渐由web端转移到移动端，而且目前主流的移动端就是安卓和ios端了，随着时间的积累，很多平台的数据也越来越庞大，数据越来越多，同时，针对这方面的爬虫分析也慢慢开始多了起来，这真是我的切身体验，现在基本都是对app的分析了，什么脱壳逆向，反编译重打包啥的都是一套流程了。由于很多平台针对爬虫抓包app的确实头大，所以对其反制的方法…

爬虫 2023年4月13日

000

java爬虫中jsoup的使用

jsoup可以用来解析HTML的内容，其功能非常强大,它可以向javascript那样直接从网页中提取有用的信息例如1：从html字符串中解析数据 //直接从字符串中获取 public static void getParByString() { String html = “<html><head><title> …

爬虫 2023年4月13日

000

python爬虫之urllib

#POST import urllib import urllib2 values = {} values[‘username’] = “1016903103@qq.com” values[‘password’] = “XXXX” data = urllib.urlencode(values) url = “http://passport.csdn.net/…

爬虫 2023年4月13日

000

python爬虫之PyQuery

# -*- coding: UTF-8 -*- from pyquery import PyQuery as pq import re from datetime import datetime,timedelta import pymysql import sys reload(sys) sys.setdefaultencoding(‘utf8’) def…

爬虫 2023年4月13日

000