百度指数 Cipher-Text、百度翻译 Acs-Token 逆向分析

2023年4月2日下午5:10 • Python开发

K 哥之前写过一篇关于百度翻译逆向的文章，也在 bilibili 上出过相应的视频，最近在 K 哥爬虫交流群中有群友提出，百度翻译新增了一个请求头参数 Acs-Token，如果不携带该参数，直接按照以前的方法进行处理，会出现 1022 报错，并且如果直接将 Acs-Token 写成定值，前几次可能能成功，多查询几次也会报同样的错误，现对其进行逆向分析，对往期代码进行重构。与此同时，K哥发现百度指数的某些接口有个 Cipher-Text 参数，与百度翻译的 Acs-Token 加密方式差不多，所以就一起分析一波。

声明

本文章中所有内容仅供学习交流使用，不用于其他任何目的，不提供完整代码，抓包内容、敏感网址、数据接口等均已做脱敏处理，严禁用于商业用途和非法用途，否则由此产生的一切后果均与作者无关！

本文章未经许可禁止转载，禁止任何修改后二次传播，擅自使用本文讲解的技术而导致的任何意外，作者均不负责，若有侵权，请在公众号【K哥爬虫】联系作者立即删除！

逆向目标

目标：百度翻译最新请求头参数 Acs-Token，百度指数请求头 Cipher-Text
主页：https://fanyi.baidu.com/
接口：https://fanyi.baidu.com/v2transapi
sign、token 参数的逆向方法本文不再赘述，想了解的可以阅读 K 哥往期百度翻译逆向的文章

逆向过程

抓包分析

先以百度翻译为例，随便输入文字，可以看到没有刷新页面，翻译结果就出来了，由此可以推断是 Ajax 加载的，打开开发者工具，选择 XHR 过滤 Ajax 请求，找到接口位置，详细分析推荐阅读 K 哥往期百度翻译逆向的文章，如下图可以看到在请求头中新增了一个 Acs-Token 参数，前面两串数字看起来像时间戳，具体加密方式需要我们来进一步分析：

这里使用 Fiddler 插件 hook 定位 Acs-Token 参数，相关 hook 操作方式可阅读 K 哥往期文章，本文不再赘述：

(function () {
    var org = window.XMLHttpRequest.prototype.setRequestHeader;
    window.XMLHttpRequest.prototype.setRequestHeader = function (key, value) {
        console.log(key, ':', value)
        if (key == 'Acs-Token') {
            debugger;
        }
        return org.apply(this, arguments);
    };
})();

清除缓存，点击翻译，可以看到成功 hook 到 Acs-Token 参数，往下跟栈即可找到其值生成的位置：

逆向分析

向下跟栈分析，Acs-Token 参数的值在 translate.js 文件的第 187 行生成，由 sign 参数传递，sign 参数定义在第 180 行，在第 195 行打下断点调试，点击翻译后成功在断点处断下：

跟进 getAcsSign() 函数，整体选中，点击进入到 paris.js 文件中，可以看到函数体中创建了一个异步 Promise 对象进行异步操作：

Promise 的构造函数接收一个函数参数，并且这个函数需要传入两个参数：

resolve：异步操作执行成功后的回调函数；
reject：异步操作执行失败后的回调函数。

所以异步操作执行成功即返回 sign 参数的值：

到这里已经拿到 sign 了，我们再向上跟栈，可以发现 Acs-Token 参数的值在 acs-2060.js 文件的第 805 行生成，很明显是拼接而成的：

上图是几天前分析的时候断下的情况，今天再次分析的时候发现结构变了，如下图所示：

这个 acs-2060.js 是咋来的呢？在 paris.js 里其实可以看到 init 初始化了了一些配置文件，其中的 acsUrl 就是 acs-2060.js 的地址，2060 是渠道号，由管理员分配，根据注释可以看到这个东西叫做“玉门关”。

继续前面的步骤，分析一下 acs-2060.js，在第 805 行打断点调试，分析 a8() 中各拼接部分含义，可得到如下结果：

b('0x78') 或者 'x31x36x36x30x35x34x36x38x30x39x35x30x35x5f'：固定字符串 1660287615129_ 或者 1660546809505_，这里每隔一段时间都会变化。具体的变化周期得需要持续观察一下才知道。
ae：当前时间戳
'x5f'：下划线 _
eg(a2, a0, a1)：一大串加密字符串，在控制台输出可以知道 a2, a0, a1 各自的含义

a0，a1 为定值，分析 a2 字典中各参数值含义：

ua：浏览器类型
url：翻译链接，例如输如 spider，url 即为 https://fanyi.baidu.com/#zh/en/spider
platform：平台操作系统版本
clientTs：当前时间戳
version：版本号

选中 eg，跟进到 eg 函数定义的位置，在 acs-2060.js 文件的第 537 行：

具体内容如下：

function eg(a2, a8, a9) {
    return a2 = b('0x4d') == typeof a2 ? JSON[b('0xc')](a2) : void 0x0 === a2 ? '' : '' + a2,
        dD[b('0x37')](a2, ad[b('0x29')](a8), {
        'x69x76': ad[b('0x29')](a9),
        'x6dx6fx64x65': cc,
        'x70x61x64x64x69x6ex67': cz
    })[b('0x27')][b('0xa')](ag);
}

可以在第 538 行打断点进行调试，亦可从控制台直接打印混淆部分内容，会发现三个经典加密参数：

'x69x76'：iv，偏移量
'x6dx6fx64x65'：mode，加密方式
'x70x61x64x64x69x6ex67'：padding，填充方式

并且在第 548 行将 eg 赋值给了 window.aes_encrypt，很明显 AES 加密了，可以选择直接引库，也可以直接扣代码，这里不做继续研究:

百度指数 Cipher-Text

百度指数的 Cipher-Text 和百度翻译的 Acs-Token 在结构上是一样的，根据百度翻译的经验，我们知道核心加密代码应该在“玉门关”里面，不同的站分配的渠道号不一样，我们直接全局搜索 acsUrl，或者直接找 acs 开头的 JS，会发现有一个 acs-2057.js：

老样子，在 a8() 处下断，刷新接口，即可断下：

百度指数与百度翻译不一样的地方在于开头的那个时间戳不一样，变量 a0 不一样，其他的逻辑都是一样的，我们注意到开头的时间戳隔一段时间就会改变，如果在项目代码中应用，人工定时去改肯定是不合理的，这里的处理思路可以是先在本地固定一套算法，然后每次请求先去拿 acs 开头的那个 JS，拿到内容后，通过正则匹配去拿到那个时间戳，再传到本地的算法里生成最终值，灵活处理即可。

至此，Cipher-Text 和 Acs-Token 就分析结束了，本次逆向的加密算法其实并不难，但是想要找到加密位置需要一定的技巧，另外在写这篇文章时，发现百度翻译不加 Acs-Token 请求又可以了，目前的状况是有时候不加可以请求，有时候不加又不能请求，如果你请求发现报错 {"errno":1022,"errmsg":"访问出现异常，请刷新后重试！","error":1022,"errShowMsg":"访问出现异常，请刷新后重试！"}，那就可以尝试加上这个参数。

完整代码

bilibili 关注 K 哥爬虫，小助理手把手视频教学：https://space.bilibili.com/1622879192

GitHub 关注 K 哥爬虫，持续分享爬虫相关代码！欢迎 star ！https://github.com/kgepachong/

以下只演示部分关键代码，不能直接运行！

baidufanyi_encrypt.js

var window =  global;

// 以下部分内容过长，此处省略
// 完整代码关注 GitHub：https://github.com/kgepachong/crawler
(function(){...
})()
function ascToken(translate_url){
    // 部分参数直接写死了，不同网站参数值不同，如果在项目中使用，请灵活处理
    var a0 = 'uyaqcsmsseqyosiy';
    var a1 = '1234567887654321';
    var ae = (new Date).getTime();
    var a2 = '{"ua":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36","url":' + translate_url + '","platform":"Win32","clientTs":' + ae + ',"version":"2.2.0"}';
    // 这里开头的时间戳写死了，如果请求失败请更新这个值
    return '1660546809505_' + ae + '_' + window.aes_encrypt(a2, a0, a1);
}

// console.log(ascToken("https://fanyi.baidu.com/#zh/en/%E6%B5%8B%E8%AF%95"))

baidufanyi.py

# ==================================
# --*-- coding: utf-8 --*--
# @Time    : 2021-08-12
# @Author  : 微信公众号：K哥爬虫
# @FileName: baidufanyi.py
# @Software: PyCharm
# ==================================


import re
import execjs
import requests
from urllib import parse


session = requests.session()
index_url = 'https://fanyi.baidu.com/'
lang_url = 'https://fanyi.baidu.com/langdetect'
translate_api = 'https://fanyi.baidu.com/v2transapi'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36',
}
# cookies = {
#     "BAIDUID": "624363427DBD2BFCDF0C3D6E129F5C65:FG=1"
# }


def get_params(query):
    # 获取 token 和 gtk
    session.get(url=index_url, headers=headers)
    # print(session.cookies.get_dict())
    response_index = session.get(url=index_url, headers=headers)
    token = re.findall(r"token: '([0-9a-z]+)'", response_index.text)[0]
    gtk = re.findall(r'gtk = "(.*?)"', response_index.text)[0]
    # 自动检测语言
    response_lang = session.post(url=lang_url, headers=headers, data={'query': query})
    lang = response_lang.json()['lan']
    return token, gtk, lang


def get_sign_and_token(query, gtk, lang):
    with open('baidufanyi_encrypt.js', 'r', encoding='utf-8') as f:
        baidu_js = f.read()
    sign = execjs.compile(baidu_js).call('e', query, gtk)
    translate_url = 'https://fanyi.baidu.com/#%s/en/%s' % (lang, parse.quote(query))
    acs_token = execjs.compile(baidu_js).call('ascToken', translate_url)
    return sign, acs_token


def get_result(query, lang, sign, token, acs_token):
    data = {
        'from': lang,
        'to': 'en',
        'query': query,
        'transtype': 'realtime',
        'simple_means_flag': '3',
        'sign': sign,
        'token': token,
    }
    headers["Acs-Token"] = acs_token
    response = session.post(url=translate_api, headers=headers, data=data)
    result = response.json()['trans_result']['data'][0]['dst']
    return result


def main():
    query = input('请输入要翻译的文字：')
    token, gtk, lang = get_params(query)
    sign, acs_token = get_sign_and_token(query, gtk, lang)
    result = get_result(query, lang, sign, token, acs_token)
    print('翻译成英文的结果为：', result)


if __name__ == '__main__':
    main()

百度指数 Cipher-Text、百度翻译 Acs-Token 逆向分析

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：百度指数 Cipher-Text、百度翻译 Acs-Token 逆向分析 - Python技术站

K哥爬虫

0 0 打赏

微信扫一扫

支付宝扫一扫

python获取对象属性的几种方法

上一篇 2023年4月2日

Pytest框架 — 10、Pytest的标记(一)（跳过和预期失败）

下一篇 2023年4月2日

Python开发

【k哥爬虫普法】程序员183并发爬取官方网站，直接获刑3年？

我国目前并未出台专门针对网络爬虫技术的法律规范，但在司法实践中，相关判决已屡见不鲜，K 哥特设了“K哥爬虫普法”专栏，本栏目通过对真实案例的分析，旨在提高广大爬虫工程师的法律意识，知晓如何合法合规利用爬虫技术，警钟长鸣，做一个守法、护法、有原则的技术人员。案情介绍深圳市快鸽互联网科技有限公司 2014 年成立，早期做互联网金融，2017 年转型做互联网科…

2023年4月2日
000
【K哥爬虫普法】微信公众号爬虫构成不正当竞争，爬虫er面对金山，如何避免滥用爬虫？

我国目前并未出台专门针对网络爬虫技术的法律规范，但在司法实践中，相关判决已屡见不鲜，K 哥特设了“K哥爬虫普法”专栏，本栏目通过对真实案例的分析，旨在提高广大爬虫工程师的法律意识，知晓如何合法合规利用爬虫技术，警钟长鸣，做一个守法、护法、有原则的技术人员。案情介绍 2011年1月微信问世，腾讯公司经过持续投入，构建起包括微信平台、微信个人用户、开放平台、微…

python 2023年4月22日
000
Python开发

【K哥爬虫普法】辛苦钱被中间商抽走八成，还因此锒铛入狱

我国目前并未出台专门针对网络爬虫技术的法律规范，但在司法实践中，相关判决已屡见不鲜，K 哥特设了“K哥爬虫普法”专栏，本栏目通过对真实案例的分析，旨在提高广大爬虫工程师的法律意识，知晓如何合法合规利用爬虫技术，警钟长鸣，做一个守法、护法、有原则的技术人员。案情介绍 2019年8、9月期间，被告人袁海东、赖永豪通过“猪八戒”网络平台以人民币7500元的价格向…

2023年3月31日
000
Python开发

吾爱破解 2023 春节解题领红包之 Web 题解

（图作者 | 吾爱破解@Ps出来的小赵）吾爱破解每年都有个解题领红包活动，今年也不例外，需要我们使出看家逆向本领来分析内容获得口令红包，根据难度等级不同会获得不同数量的吾爱币，活动持续到元宵节结束。活动一共有十个题，本文仅分享 Web 初级、中级、高级三个题的逆向思路。活动地址：https://www.52pojie.cn/thread-1738015-…

2023年3月31日
000
Python开发

【JS 逆向百例】猿人学系列 web 比赛第五题：js 混淆 – 乱码增强，详细剖析

逆向目标猿人学 – 反混淆刷题平台 Web 第五题：js 混淆，乱码增强目标：抓取全部 5 页直播间热度，计算前 5 名直播间热度的加和主页：https://match.yuanrenxue.com/match/5 接口：https://match.yuanrenxue.com/api/match/5?m=XXX&f=XXX 逆向参数： url…

2023年4月2日
000
Python开发

【k哥爬虫普法】非法入侵计算机信息系统，获取1500万余条个人信息！

我国目前并未出台专门针对网络爬虫技术的法律规范，但在司法实践中，相关判决已屡见不鲜，K 哥特设了“K哥爬虫普法”专栏，本栏目通过对真实案例的分析，旨在提高广大爬虫工程师的法律意识，知晓如何合法合规利用爬虫技术，警钟长鸣，做一个守法、护法、有原则的技术人员。案情介绍 2018年1月至7月期间，呙某兴通过SQL注入漏洞以及编写爬虫脚本的方式，侵入计算机信息系统…

2023年4月2日
000
【验证码逆向专栏】数美验证码全家桶逆向分析以及 AST 获取动态参数

声明本文章中所有内容仅供学习交流使用，不用于其他任何目的，不提供完整代码，抓包内容、敏感网址、数据接口等均已做脱敏处理，严禁用于商业用途和非法用途，否则由此产生的一切后果均与作者无关！本文章未经许可禁止转载，禁止任何修改后二次传播，擅自使用本文讲解的技术而导致的任何意外，作者均不负责，若有侵权，请在公众号【K哥爬虫】联系作者立即删除！目标目标：数美全…

python 2023年5月8日
000
Python开发

【JS 逆向百例】某公共资源交易网，公告 URL 参数逆向分析

声明本文章中所有内容仅供学习交流，抓包内容、敏感网址、数据接口均已做脱敏处理，严禁用于商业用途和非法用途，否则由此产生的一切后果均与作者无关，若有侵权，请联系我立即删除！逆向目标目标：某地公共资源交易网主页：aHR0cDovL2dnenkuamNzLmdvdi5jbi93ZWJzaXRlL3RyYW5zYWN0aW9uL2luZGV4 接口：aHR0…

2023年4月2日
000

百度指数 Cipher-Text、百度翻译 Acs-Token 逆向分析

声明

逆向目标

逆向过程

抓包分析

逆向分析

百度指数 Cipher-Text

完整代码

baidufanyi_encrypt.js

baidufanyi.py

相关文章