python爬虫爬取网页表格数据

2023年5月14日下午9:04 • python

yizhihongxing

想要爬取网页表格数据，我们通常需要经历以下几个步骤：

确认数据来源和目标网站，并分析目标网站的页面结构，找到表格数据所在的HTML标签和CSS类或ID。
使用Python中的requests库向目标网站发送HTTP请求，获取网页HTML文档。
使用Python中的BeautifulSoup库对HTML文档进行解析，并定位所需要的表格数据所在的标签。
将表格数据存储到本地文件或数据库中。

下面是两个具体的示例说明：

示例一：爬取中国城市经纬度数据

数据来源：http://www.nmc.cn/f/rest/province
页面结构分析：数据在表格中，每个城市的经纬度数据在表格中的对应列。
代码实现：

import requests
from bs4 import BeautifulSoup
import pandas as pd

# 发送HTTP请求，获取HTML文档
url = 'http://www.nmc.cn/f/rest/province'
response = requests.get(url)

# 解析HTML文档，获取表格数据
soup = BeautifulSoup(response.text, 'html.parser')
table = soup.find('table')
data = []
for tr in table.findAll('tr'):
    row = []
    for td in tr.findAll('td'):
        row.append(td.text.strip())
    data.append(row)

# 将表格数据存储到CSV文件中
df = pd.DataFrame(data[1:], columns=data[0])
df.to_csv('city_location.csv', index=False)

示例二：爬取全球疫情数据

数据来源：https://www.worldometers.info/coronavirus/
页面结构分析：数据在表格中，每个国家/地区的疫情数据在表格中的对应行。
代码实现：

import requests
from bs4 import BeautifulSoup
import pandas as pd

# 发送HTTP请求，获取HTML文档
url = 'https://www.worldometers.info/coronavirus/'
response = requests.get(url)

# 解析HTML文档，获取表格数据
soup = BeautifulSoup(response.text, 'html.parser')
table = soup.find('table', id='main_table_countries_today')
data = []
for tr in table.findAll('tr'):
    row = []
    for td in tr.findAll('td'):
        row.append(td.text.strip())
    if row:
        data.append(row)

# 将表格数据存储到CSV文件中
df = pd.DataFrame(data[1:], columns=data[0])
df.to_csv('covid19_global.csv', index=False)

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：python爬虫爬取网页表格数据 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

python实现博客文章爬虫示例

上一篇 2023年5月14日

python爬虫爬取某网站视频的示例代码

下一篇 2023年5月14日

python获取http请求响应头headers中的数据的示例

以下是关于“Python 获取 HTTP 请求响应头 headers 中的数据的示例”的完整攻略： Python 获取 HTTP 请求响应头 headers 中的数据的示例在 Python 中，我们可以使用 requests 模块发送 HTTP 请求，并获取 HTTP 响应。HTTP 响应中包含了响应头 headers，我们可以使用 requests 模块…

python 2023年5月15日
000
让python在hadoop上跑起来

让我们来详细讲解如何让Python在Hadoop上能够运行。这个过程分为以下几个步骤：安装Hadoop 首先需要安装Hadoop，可以从官网下载并按照说明进行安装。具体安装步骤可参考Hadoop官方文档。 Hadoop开启伪分布式模式为了简化操作，我们可以选择在本地使用Hadoop的伪分布式模式，即将Hadoop运行在单台机器上，模拟分布式的环境。具体…

python 2023年6月3日
000
Python获取网络时间戳的两种方法详解

下面是Python获取网络时间戳的两种方法的详细攻略。方法一：使用NTP服务器获取网络时间戳 NTP（网络时间协议）是一种用于同步计算机中时钟的协议。Python中内置了利用NTP服务器获取网络时间戳的方法，具体步骤如下：首先要导入ntp包： python import ntplib 接着需要连接NTP服务器，获取该服务器的时间数据： python nt…

python 2023年6月3日
000
超详细图解修改pip install默认安装路径的方法

修改 pip install 默认安装路径可以让我们在安装 Python 包的时候自定义安装路径，避免安装在系统默认路径中出现混乱。下面是超详细图解修改 pip install 默认安装路径的方法： 1. 查找 pip 的配置文件首先需要找到 pip 的配置文件，我们可以进入 Python 安装路径下的 scripts 文件夹，找到 pip.exe 文件…

python 2023年5月14日
000
没有头部的 Python 箭袋图

【问题标题】：Python quiver plot without head没有头部的 Python 箭袋图【发布时间】：2023-04-06 11:31:01 【问题描述】：我想制作一个没有箭头的箭袋图。我还希望有边框，以便箭头可以从背景颜色图中脱颖而出。这是我试图生成这样一个情节的代码的主要部分： plt.quiver(phia[sl1,sl2], …

Python开发 2023年4月6日
000
python调用百度语音识别api

一、前置条件在使用百度语音识别API之前，需要进行以下操作： 1.在百度AI开放平台注册账户，并创建应用，获取API Key和Secret Key。 2.安装Python开发环境，并安装requests库和pyaudio库。requests库用于发送HTTP请求，pyaudio库用于录音。在命令行输入以下命令进行安装： pip install reques…

python 2023年5月19日
000
ptyhon实现sitemap生成示例

下面就来详细讲解一下“Python实现Sitemap生成示例”的完整攻略。 1. Sitemap是什么 Sitemap即网站地图，是指展示网站结构的一种文件。它可以让搜索引擎更好地了解网站的页面结构，从而更快地收录网站内容。 2. Python实现Sitemap生成的基本步骤 Python实现Sitemap生成的基本步骤如下：安装所需的依赖包：lxml、b…

python 2023年6月3日
000
详解Python中pyautogui库的最全使用方法

详解Python中pyautogui库的最全使用方法 pyautogui库介绍 pyautogui是一个Python的第三方库，它提供了一些方便实用的方法，用于在Windows、OS X和Linux上自动化鼠标和键盘的操作。在本教程中，我们将介绍使用pyautogui库的最全方法。安装pyautogui库在使用pyautogui库之前，我们需要先安装它。…

python 2023年5月19日
000

合作推广

合作推广

返回顶部