如何爬取JavaScript动态生成的内容？

网络爬虫爬取JavaScript动态生成的内容的过程可以分为以下几步：

确定目标和需求：首先，需要明确想爬取的具体内容，并明确它的来源和访问方式，例如某个网页、某个API 或者某个特定的功能等等。
分析网页结构：浏览器可以直接执行 JavaScript 代码，但是爬虫并不具备这个能力，必须分析 JavaScript 代码，了解其实现的功能以及调用方式，并解析网页结构中包含的关键信息。谷歌浏览器提供了查看浏览器调用的开发者工具，其中 Network、Console、Elements 分别提供了网络请求、JavaScript 执行结果与页面结构信息。
模拟浏览器请求：通过分析前面分析得到的 web 页面中包含的 network 请求，分析比较常用的一些请求方式，如 GET、POST 请求，查找请求头和响应头，模拟网络请求，并在请求中添加需要的参数或者信息。
解析 HTML 解析 Dom 树：模拟网络请求构造了请求之后，返回的响应信息不管是文本还是 HTML，其内容包含关键信息大概率是在 HTML 中。解析 HTML 获取关键信息，比较流行的有: Beautifulsoup、pyQuery 等。

以下是两个示例说明：

示例 1：使用selenium库爬取淘宝商品信息

Selenium 可以模拟真实操作，可以打开浏览器，操作页面，等待数据加载，获取JS渲染的数据。使用命令“pip install selenium”安装该Python库，示例代码如下：

from selenium import webdriver
from selenium.webdriver.common.by import By

browser = webdriver.Chrome()

# 访问淘宝网，并输入草莓
browser.get("https://www.taobao.com")
input = browser.find_element(By.XPATH, '//input[@id="q"]')
input.clear()
input.send_keys("草莓")

# 点击淘宝搜索
search_btn = browser.find_element(By.XPATH, '//button[@class="btn-search"]')
search_btn.click()

# 显示特定商品信息
goods = browser.find_elements(By.XPATH, '//div[@class="items"]/div')
for good in goods:
    print(good.text)

browser.close()

示例 2：使用Splash爬取通过Ajax获取的内容

Splash 是一个基于 WebKit 的 JavaScript 框架，可以实现 JavaScript 的异步请求，类似于浏览器。使用命令“docker pull scrapinghub/splash”下载 Docker 镜像，使用“docker run -p 8050:8050 scrapinghub/splash”启动 Docker，示例代码如下：

import requests

# 启动 Splash
splash_url = 'http://localhost:8050/render.html'
headers = {'content-type': 'application/json'}
lua_script = '''
function main(splash)
  assert(splash:go(splash.args.url))
  assert(splash:wait(0.5))
  local elem = assert(splash:select('#resultDiv .result'))
  return {html=elem:html()}
end
'''

# 访问人人网搜索接口，渲染JS内容
url = "http://www.renren.com/Search.do"
params = {'do': 'search', 'q': 'selenium'}
resp = requests.post(splash_url, json={'lua_source': lua_script, 'url': url})
print(resp.content.decode('unicode_escape'))

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：如何爬取JavaScript动态生成的内容？ - Python技术站

如何爬取JavaScript动态生成的内容？

相关文章