python | 爬虫笔记（六）- Ajax数据爬取

2023年4月8日下午5:23 • 爬虫

request得到和浏览器数据不同

数据加载是异步加载方式，原始页面不包含数据，加载完后会会再向服务器请求某个接口获取数据，然后数据再被处理才呈现到网页上，这其实就是发送了一个 Ajax 请求。这样Web 开发上可以做到前后端分离，而且降低服务器直接渲染页面带来的压力。

因此遇到这种情况，用requests模拟ajax请求

6.1 Ajax

1- 介绍

Ajax，全称为 Asynchronous JavaScript and XML，即异步的 JavaScript 和 XML。是利用 JavaScript 在保证页面不被刷新、页面链接不改变的情况下与服务器交换数据并更新部分网页的技术。

实例：页面刷新后加载

2- 基本原理

1）发送请求

新建了 XMLHttpRequest 对象，然后调用了onreadystatechange 属性设置了监听，然后调用 open() 和 send() 方法向服务器发送了一个请求，得到服务器返回响应，并解析

2）解析内容

得到响应之后，onreadystatechange 属性对应的方法便会被触发，此时利用 xmlhttp 的 responseText 属性便可以取到响应的内容。HTML或者Json

3）渲染网页

解析完响应内容之后，就可以调用 JavaScript 来针对解析完的内容对网页进行下一步的处理了。DOM操作

原理，即需要知道请求如何发送、发往哪里，发了哪些参数

6.2 Ajax分析方法

1-查看请求

2-过滤请求

6.3 结果提取

1-分析请求

GET类型请求：type、value、containerid、page。

可以分析请求，推断出参数的规律

2- 分析响应

待补充

##本系列内容为《python3爬虫开发实战》学习笔记。本系列博客列表如下：

（零）学习路线

（一）开发环境配置

（二）爬虫基础

（三）基本库使用

（四）解析库使用

（五）数据存储

（六）Ajax数据爬取

（七）动态渲染页面爬取Selenium

持续更新...

对应代码请见：..

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：python | 爬虫笔记（六）- Ajax数据爬取 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

34.scrapy解决爬虫翻页问题

上一篇 2023年4月8日下午5:23

python | 爬虫笔记（七）- 动态渲染页面抓取Selenium

下一篇 2023年4月8日

Python爬虫b站视频弹幕并生成词云图分析

爬虫：requests，beautifulsoup 词云：wordcloud，jieba 代码加注释： 1 # -*- coding: utf-8 -*- 2 import xlrd#读取excel 3 import xlwt#写入excel 4 import requests 5 import linecache 6 import wordcloud 7 …

爬虫 2023年4月11日
000
爬虫利用keep-alive实现“减员增效”

背景爬虫单位时间内请求数多，对己方机器、对方服务器都会形成压力，如果每个请求都开启一个新连接，更是如此；如果服务器支持keep-alive，爬虫就可以通过多个请求共用一个连接实现“减员增效”：单位时间内新建、关闭的连接的数目少了，但可实现的有效请求多了，并且也能有效降低给目标服务器造成的压力。 keep-alive的好处：（HTTP persistent …

爬虫 2023年4月11日
000
2017.07.26 Python网络爬虫之Scrapy爬虫实战之今日影视

1.创建项目：前提是在环境变量中添加了: 可以运行命令scrapy：（1）.scrapy startproject todayMovie （2）.scrapy genspider wuHanMovieSpider jycinema.com（搜索域）创建scrapy项目后的文件目录结构是： 2.Scrapy文件介绍： scra…

爬虫 2023年4月11日
000
【scrapy网络爬虫】之七 UA池和代理池在scrapy中的应用【python网络爬虫】之requests相关模块

一.下载中间件下载中间件（Downloader Middlewares）位于scrapy引擎和下载器之间的一层组件。 – 作用：（1）引擎将请求传递给下载器过程中，下载中间件可以对请求进行一系列处理。比如设置请求的 User-Agent，设置代理等（2）在下载器完成将Response传递给引擎中，下载中间件可以对响应进行一系列处理。比如进行gzip…

爬虫 2023年4月12日
000
python3爬虫初探（一）之urllib.request

—恢复内容开始— #小白一个，在此写下自己的python爬虫初步的知识.如有错误，希望谅解并指出。 #欢迎和大家交流python爬虫相关的问题 #2016/6/18 #—-第一把武器—–urllib.request——— 　　urllib.request是python3自带的库（python3.x版本特有），我们用它来请求网页，…

爬虫 2023年4月10日
000
youtube爬虫

pycharm安装pytube工具包，可以参考github：https://github.com/nficano/pytube from pytube import YouTube link = input(“enter link of youtube vadio:”) yt = YouTube(link) videos = yt.streams.filte…

爬虫 2023年4月10日
000
简单的爬虫

from requests_html import HTMLSession session = HTMLSession() r = session.get(‘https://movie.douban.com/subject/1292052/’) print(r.text) 二、提取网页中所需的内容　　2.1使用使用CSS 选择器来提取网页中有价值的信息-…

爬虫 2023年4月11日
000
用python写爬虫笔记（一）

https://bitbucket.org/wswp/code http://example.webscraping.com http://www.w3schools.com selenium.googlecode.com/git/docs/api/py/index.html 什么是XPath：http://www.w3.org/TR/xpath/ XP…

爬虫 2023年4月13日
000

合作推广

合作推广

返回顶部