爬虫-数据解析-xpath

2023年4月13日上午2:05 • 爬虫

xpath 解析

模块安装 :
pip install lxml
xpath的解析原理
- 实例化一个etree类型的对象,且将页面源码数据加载到该对象中
- 需要调用该对象的xpath方法结合着不同形式的xpath表达式进行标签定位和数据提取
etree对象的实例化
- etree.parse(fileNane) 加载本地
- etree.HTML(page_text) 加载网络请求的响应
xpath方法返回的永远是一个列表

标签定位

在xpath表达式中最最侧的 / 表示的含义是说,当前定位的标签必须从根节点开始进行定位
xpath表达式中最左侧的 // 表示可以从任意位置进行标签定位
xpath表达式中非最左侧的 // 表示的是多个层级的意思
xpath表达式中非最左侧的 / 表示的是一个层级的意思
属性定位://tagName[@arrtName='value']
索引定位://tagName/li[3]

定位条件可以多个,使用| 分开

from lxml import etree
tree = etree.parse('./test.html')
tree.xpath('/html/head/meta')[0] #绝对路径
tree.xpath('//meta')[0] #相对路径,将整个页面源码中所有的meta进行定位 
#属性定位
tree.xpath('//div[@class="song"]')
#索引定位
tree.xpath('//div[@class="tang"]/ul/li[3]') #该索引是从1开始

#取文本
tree.xpath('//p[1]/text()')

#取属性
tree.xpath('//a[@]/@href')
tree = etree.parse('./test.html')
tree.xpath('/html/head/meta')[0] #绝对路径
tree.xpath('//meta')[0] #相对路径,将整个页面源码中所有的meta进行定位

#属性定位
tree.xpath('//div[@class="song"]')
#索引定位
tree.xpath('//div[@class="tang"]/ul/li[3]') #该索引是从1开始

#取文本
tree.xpath('//p[1]/text()')
tree.xpath('//div[@class="song"]//text()')

#取属性
tree.xpath('//a[@]/@href')

# 多个条件
div.xpath('./div[1]/a[2]/h2/text() | ./div[1]/span[2]/h2/text()')[0]

提取数据

取文本:
- /text():取直系的文本内容
- //text():取所有的文本内容
取属性直:
- tag/@attrName

# 需求:爬取boss的招聘信息
from lxml import etree
headers = {  # 反扒策略
    'User-Agent':',
    'cookie':''
}
url = 'https://www.zhipin.com/job_detail/?query=python%E7%88%AC%E8%99%AB&city=101010100&industry=&position='
page_text = requests.get(url,headers=headers).text
#数据解析	
tree = etree.HTML(page_text)
li_list = tree.xpath('//div[@class="job-list"]/ul/li')
for li in li_list:
#     需要将li表示的局部页面源码数据中的相关数据进行提取
#     如果xpath表达式被作用在了循环中,表达式要以./或者.//开头
    detail_url = 'https://www.zhipin.com'+li.xpath('.//div[@class="info-primary"]/h3/a/@href')[0]
    job_title = li.xpath('.//div[@class="info-primary"]/h3/a/div/tex	t()')[0]
    salary = li.xpath('.//div[@class="info-primary"]/h3/a/span/text()')[0]
    company = li.xpath('.//div[@class="info-company"]/div/h3/a/text()')[0]
    #对详情页的url发请求解析出岗位职责
    detail_page_text = requests.get(detail_url,headers=headers).text
    tree = etree.HTML(detail_page_text)
    job_desc = tree.xpath('//div[@class="text"]//text()')
    job_desc = ''.join(job_desc)
    
    print(job_title,salary,company,job_desc)

乱码处理

对获取到的内容先编码再转码:

img_name = img_name.encode('iso-8859-1').decode('gbk')

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：爬虫-数据解析-xpath - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

黑板客爬虫闯关第一关、第二关

上一篇 2023年4月13日

爬虫-数据解析-bs4

下一篇 2023年4月13日

python 写的一个爬虫程序源码

Python编写爬虫程序攻略什么是爬虫程序？爬虫程序是通过网络爬取互联网上的信息和数据，并将它们转换成结构化数据的程序。结构化数据可以被用于数据分析、数据挖掘、机器学习等应用领域。 Python编写爬虫程序 Python是编写爬虫程序非常流行的语言，它有许多流行的爬虫框架，例如Scrapy、BeautifulSoup、Requests等。爬取网站数据 …

python 2023年5月14日
000
纯手工打造简单分布式爬虫(Python)

https://www.cnblogs.com/qiyeboy/p/7016540.html 　　本章讲的依旧是实战项目，实战内容是打造分布式爬虫，这对初学者来说，是一个不小的挑战，也是一次有意义的尝试。这次打造的分布式爬虫采用比较简单的主从模式，完全手工打造，不使用成熟框架，基本上涵盖了前六章的主要知识点，其中涉及分布式的知识点是分布式进程和进程间通信的…

爬虫 2023年4月13日
000
利用Python爬虫实现抢购某宝秒杀商品

我来为您讲解如何利用Python爬虫实现抢购某宝秒杀商品。 1. 准备工作在准备实现爬虫的过程中，需要以下几项基础工作： Python基础知识：掌握Python的基本语法和常用模块；爬虫工具：选择合适的爬虫工具，如Requests、BeautifulSoup、Selenium等；抓包工具：爬虫需要模拟浏览器发送请求和解析响应，需要使用类似Wiresha…

python 2023年5月14日
002
python爬虫基础教程：requests库（二）代码实例

我来为你详细讲解“python爬虫基础教程：requests库（二）代码实例”这篇文章的完整攻略。 1. 文章基本信息文章名称：python爬虫基础教程：requests库（二）代码实例文章作者：Python大本营文章地址：https://www.py.cn/faq/python/115088.html 2. 文章主要内容这篇文章主要介绍了使用Pyt…

python 2023年5月14日
000
Python下selenium的实战和普通爬虫的对比

“””普通爬取数据爬虫，只要有反爬，cookie就不是很稳定。并不利于数据爬取””” import requests import re from lxml import etree headers = { “User-Agent”: “Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML…

爬虫 2023年4月11日
000
网络爬虫（httpwebrequest）驴评网信息为例

之前写过一篇关于用webBrowser抓取动态网页信息的随笔。正如文中提到的，速度是硬伤，并且如果是非动态信息则不必这么麻烦，最近正好有一需求：抓取“驴评网”上的信息1、所有的州、国家、省、市、区名称2、该市的所有景点信息（该网站中，大部分都是以市级作为最后的支节点，如果是以区作为最终节点的则以区为单位获取相应景点信息）3、该市的所有酒店信息首先，我们需要…

爬虫 2023年4月11日
000
Python爬虫入门教程01之爬取豆瓣Top电影

Python爬虫入门教程01之爬取豆瓣Top电影本次教程将会教你如何使用Python编写一个简单的爬虫程序，用于爬取豆瓣电影Top250的数据。本教程将会覆盖以下主题：项目简介准备工作利用Requests模块获取网页内容使用BeautifulSoup解析网页代码实现结束语 1. 项目简介这个项目旨在教你如何使用Python编写一个简单的爬虫程…

python 2023年5月14日
000
新闻类网站的通用爬虫–GNE

GNE（GeneralNewsExtractor）是一个通用新闻网站正文抽取模块，输入一篇新闻网页的 HTML，输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码。GNE在提取今日头条、网易新闻、游民星空、观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻等数百个中文新闻网站上效果非常出色，几乎能够达到100%的准确率。使…

爬虫 2023年4月11日
000

合作推广

合作推广

返回顶部