Python爬虫：获取JS动态内容

2023年4月11日上午9:15 • 爬虫

经过一段时间的python学习，能写出一些爬虫了。但是，遇到js动态加载的网页就犯了难。于是乎谷歌、百度，发现个好介绍http://www.jianshu.com/p/4fe8bb1ea984

主要就是分析网页的加载过程，从网页响应中找到JS脚本返回的JSON数据。（上边的网址介绍很详细，下边就直接贴代码，记录下）

1、今日头条的

#coding：utf-8
import requests
import json

#今日头条热词获取，get方法
url = 'http://www.toutiao.com/c/hot_words/'
wbdata = requests.get(url).text


data = json.loads(wbdata)
news = data['data']

for n in news:
    print(n)

2、拉勾网的 post方法

#coding：utf-8
import requests
import json

url = 'https://www.lagou.com/upload/ltm/oss.html?u=/zhaopin/Java/&q=332&n=333&d=1126&l=1238&dns=15&p=2770&pi=46&qn=1252&t=1501835145909'
post_data = {'first':'true','kd':'Android','pn':'1'}
wbdata = requests.post(url,data=post_data)
data = json.loads(wbdata)
print data

ip被封，返回json数据未能解析，有待后续。

爬取动态页面目前来说有两种方法

分析页面请求
selenium模拟

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Python爬虫：获取JS动态内容 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

Python爬虫实战之一 – 基于Requests爬取拉勾网招聘信息，并保存至本地csv文件

上一篇 2023年4月11日

python爬虫—— 抓取今日头条的街拍的妹子图

下一篇 2023年4月11日

详解Python爬取并下载《电影天堂》3千多部电影

详解Python爬取并下载《电影天堂》3千多部电影 0. 简介本文主要介绍如何使用Python来爬取并下载电影天堂网站上的电影资源，包括如何从首页获取分类信息和对应的电影列表，如何从电影列表页获取详细的电影信息和下载链接，并使用迅雷进行自动下载。 1. 准备工作在进行爬取之前，需要安装一些必要的Python库和工具： BeautifulSoup4: 用于…

python 2023年5月14日
000
如何处理网站更新导致的数据丢失？

处理网站更新导致的数据丢失是一个非常重要的操作，以下是我个人的一些建议：防范措施备份数据：在网站更新之前，最好备份所有数据。备份数据时，可以使用压缩文件将所有文件打包，或者使用数据库管理器导出数据库。版本控制：如果您使用的是 Git 等版本控制系统，可以将代码提交到分支，以便您可以随时将分支切换回旧版本，以恢复丢失的数据。定期更新：保持您的网站版本最…

爬虫 2023年4月20日
000
简易爬虫

简易爬虫设计引言说这是一个爬虫有点说大话了，但这个名字又恰到好处，所以在前面加了”简易“两个字，表明这是一个阉割的爬虫，简单的使用或者玩玩儿还是可以的。公司最近有新的业务要去抓取竞品的数据，看了之前的同学写的抓取系统，存在一定的问题，规则性太强了，无论是扩展性还是通用性发面都稍微弱了点，之前的系统必须要你搞个列表，然后从这个列表去爬取，没有深度的概念，这…

爬虫 2023年4月12日
000
爬虫再探实战（五）———爬取APP数据——超级课程表【三】——日期时间分析

　　　　接着整理一下时间和日期与发帖量的关系。　　　　PROJECT2：日期（选取2015整年）　　　　代码如下：（这里的 kebiao_all.xlsx 是之前抓到的全部的数据） import xlrd import xlsxwriter # 获取数据的时间列表—–>dates_list fname = ‘kebiao_all.xlsx’ …

爬虫 2023年4月10日
000
一个简单的scrapy爬虫抓取豆瓣刘亦菲的图片地址

一.第一步是创建一个scrapy项目 sh-3.2# scrapy startproject liuyifeiImagesh-3.2# chmod -R 777 liuyifeiImage/ 二.分析图片特征 1.解决分页url部分：我们爬虫的start_url是”http://movie.douban.com/celebrity/1049732/phot…

爬虫 2023年4月13日
000
用Python编写简单的微博爬虫

用Python编写简单的微博爬虫攻略简介微博作为中国最大的社交媒体平台，对于数据分析和挖掘非常有用。为了获取微博的相关数据，我们需要使用爬虫对其进行抓取。本攻略将介绍如何使用Python编写简单的微博爬虫并获取有用的数据。步骤 1. 获取cookie 我们需要对微博进行模拟登陆，首先需要获取登陆后的cookie信息。可以使用chrome浏览器自带的开发…

python 2023年5月14日
000
python爬虫输入标题百度百科获取内容

##原始诉求，经过标题获取内容翻译英文再翻译中文，提高原创度 import requests import re from lxml import etree from translate import Translator import urllib.request import urllib.parse import json de…

爬虫 2023年4月16日
000
微博关键词爬虫——基于requests和aiohttp

　　requests库是python爬虫中最常见的库，与内置的urllib库相比，它更加简洁高效，是每一个接触爬虫者都务必要掌握的基础；但它也是有缺点的，就是不支持异步操作，虽然可以通过多线程来解决，但当需要发送大量请求时，创建大量的线程会浪费过多的资源；此时出现了一个新的库aiohttp，它是支持异步操作的，可以在一个线程中，通过异步多任务来实现快速发送请…

爬虫 2023年4月11日
000

合作推广

合作推广

返回顶部