Python3爬虫爬取百姓网列表并保存为json功能示例【基于request、lxml和json模块】

2023年5月18日下午3:06 • 云计算

下面我来详细讲解下“Python3爬虫爬取百姓网列表并保存为json功能示例【基于request、lxml和json模块】”的完整攻略。

1. 前置条件

在开始实现这个功能之前，需要先安装好Python3，并且安装以下几个必要的Python模块：

requests
lxml
json

其中，requests用来发送HTTP请求，lxml用来解析HTML文档，json用来将爬取到的数据保存为json格式文件。

2. 实现过程

以下是具体的实现过程步骤：

2.1 发送HTTP请求并解析HTML文档

首先，我们需要使用requests发送一个HTTP请求，并且得到返回的HTML文档。具体代码如下：

import requests
from lxml import etree

url = 'https://shanghai.baixing.com/ershouqiugou/?page=1'
response = requests.get(url)
html = response.text

接着，我们需要使用lxml解析这个HTML文档，并且得到需要爬取的数据。具体代码如下：

root = etree.HTML(html)

# 获取所有的li元素
lis = root.xpath('//*[@id="content"]/div[1]/ul/li')

# 遍历每一个li元素，并且得到需要爬取的数据
for li in lis:
    title = li.xpath('div[1]/a/text()')[0]
    link = li.xpath('div[1]/a/@href')[0]
    price = li.xpath('div[2]/text()')[0].strip()

以上代码中，我们通过xpath表达式，获取到了页面中所有的li元素，并且遍历每一个li元素，得到了需要爬取的数据。

2.2 将爬取到的数据保存为字典

接下来，我们需要将爬取到的数据保存为字典。具体代码如下：

data = []

for li in lis:
    title = li.xpath('div[1]/a/text()')[0]
    link = li.xpath('div[1]/a/@href')[0]
    price = li.xpath('div[2]/text()')[0].strip()

    item = {}
    item['title'] = title
    item['link'] = link
    item['price'] = price

    data.append(item)

以上代码中，我们遍历每一个li元素，将获取到的数据保存为一个字典，并且将字典添加到列表中。

2.3 将爬取到的数据保存为json格式文件

最后，我们需要将爬取到的数据保存为json格式文件。具体代码如下：

import json

with open('data.json', 'w', encoding='utf-8') as f:
    json.dump(data, f, ensure_ascii=False, indent=4)

以上代码中，我们使用了json模块中的dump函数，将爬取到的数据保存为了data.json文件。

3. 示例说明

以下是两条示例说明：

3.1 爬取不同页面

我们可以修改上面的代码，更改url的值，实现爬取百姓网不同页面的数据。例如，修改url的值为https://shanghai.baixing.com/ershouqiugou/?page=2，即可爬取第二页的数据。

3.2 爬取不同城市的数据

我们同样可以修改url的值，实现爬取不同城市的二手求购列表。例如，将url修改为https://guangzhou.baixing.com/ershouqiugou/，即可爬取广州市的二手求购列表。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Python3爬虫爬取百姓网列表并保存为json功能示例【基于request、lxml和json模块】 - Python技术站

云计算

0 0 打赏

微信扫一扫

支付宝扫一扫

Python将json文件写入ES数据库的方法

上一篇 2023年5月18日

python网络编程调用recv函数完整接收数据的三种方法

下一篇 2023年5月18日

python读取word文档的方法

当我们需要处理一些Word文档时，可能会需要读取Word文档中的内容或者元数据。Python提供了多个库可以读取Word文档，其中最常用的有python-docx库和pywin32库。下面将详细讲解这两种方法的使用方法和示例。 1. 使用python-docx库读取Word文档安装python-docx库使用pip可以很方便地安装python-docx库…

云计算 2023年5月18日
000
橙优设计：云计算是什么？Java云计算大数据方向怎么样？

对于云计算大家都应该听过，但是橙色优学很多学生不太清楚云计算是什么原理？做什么用的？学Java和大数据有什么关系？今天橙优和大家好好云计算。云计算是一种基于因特网的超级计算模式，在远程的数据中心里，成千上万台电脑和服务器连接成一片电脑云。因此，云计算甚至可以让你体验每秒10万亿次的运算能力，拥有这么强大的计算能力可以模拟核爆炸、预测气候变化和市场发展趋势。用…

云计算 2023年4月13日
000
云计算

本地计算机如何连接阿里云Mysql数据库

以下方案仅针对Windows系统第一种、监听地址配置错误解决方法：检查mysql服务端口（默认为3306）是否正常监听在127.0.0.1上，如果监听在127.0.0.1上那只允许服务器本身访问的，其他地址是访问不了的. 默认的数据目录C:\ProgramData\MySQL\MySQL56下，有一个my.ini文件,将bind-address = …

2023年4月10日
000
XenServer 详细介绍与虚拟化系列-Citrix （XenServer 6.1）安装与配置

XenServer 详细介绍与虚拟化系列-Citrix （XenServer 6.1）安装与配置 XenServer是一款由Citrix公司开发的虚拟化平台，它可以将一台物理服务器虚拟化为多个虚拟机，从而提高服务器的利用率和灵活性。本文将详细介绍XenServer的特点和优势，以及如何安装和配置XenServer 6.1。 1. XenServer的特点…

云计算 2023年5月16日
000
搜狗输入法怎么关闭云计算候选?搜狗输入法关闭云计算候选教程

如果您想关闭搜狗输入法的云计算候选，可以按照以下步骤进行操作：打开搜狗输入法设置界面在您的电脑上打开搜狗输入法，然后点击输入法界面右下角的“设置”按钮，进入搜狗输入法的设置界面。进入高级设置在搜狗输入法的设置界面中，点击“高级设置”选项卡，进入高级设置界面。关闭云计算候选在高级设置界面中，找到“云输入”选项，然后将“启用云输入”选项关闭即可。以…

云计算 2023年5月16日
000
.NET 6开发TodoList应用之实现ActionFilter

下面是“.NET 6开发TodoList应用之实现ActionFilter”的完整攻略。前言在Web应用的开发中，ActionFilter 可以帮助我们在请求流程中执行一些共享的逻辑，例如，身份验证、日志记录、全局异常处理等等。使用ActionFilter 可以将这些逻辑隔离到一个独立的类中，使得各个控制器方法之间耦合度更低，代码复用更高效。在后续的示…

云计算 2023年5月17日
000
关于SpringBoot中Ajax跨域以及Cookie无法获取丢失问题

下面是关于“关于SpringBoot中Ajax跨域以及Cookie无法获取丢失问题”的完整攻略，包含两个示例说明。简介在SpringBoot中，Ajax是一种非常常用的技术，它可以在不刷新整个页面的情况下，通过异步请求从服务器获取数据并更新页面。但是，在使用Ajax时，可能会遇到跨域和Cookie无法获取丢失的问题。本文将详细讲解这些问题的解决方法。 A…

云计算 2023年5月16日
000
云计算

云计算 kvm 虚拟化简单介绍

云计算是什么一种网络资源的使用模式具有弹性计算，按需付费，快速扩展的特点云计算的分类私有云　　　　在自建机房，内部使用。（安全、机密）公有云　　　　使用云提供商提供的服务。（方便、快捷、免维护）混合云　　　　上述两者都用云的解决方案 IAAS(基础设施即服务) 网络、存储、虚拟化资源都不需要关心，只负责操作系统以上的东西使用案例　　open…

2023年4月10日
000