python爬虫爬取网页表格数据

想要爬取网页表格数据,我们通常需要经历以下几个步骤:

  1. 确认数据来源和目标网站,并分析目标网站的页面结构,找到表格数据所在的HTML标签和CSS类或ID。

  2. 使用Python中的requests库向目标网站发送HTTP请求,获取网页HTML文档。

  3. 使用Python中的BeautifulSoup库对HTML文档进行解析,并定位所需要的表格数据所在的标签。

  4. 将表格数据存储到本地文件或数据库中。

下面是两个具体的示例说明:

示例一:爬取中国城市经纬度数据

  1. 数据来源:http://www.nmc.cn/f/rest/province

  2. 页面结构分析:数据在表格中,每个城市的经纬度数据在表格中的对应列。

  3. 代码实现:

import requests
from bs4 import BeautifulSoup
import pandas as pd

# 发送HTTP请求,获取HTML文档
url = 'http://www.nmc.cn/f/rest/province'
response = requests.get(url)

# 解析HTML文档,获取表格数据
soup = BeautifulSoup(response.text, 'html.parser')
table = soup.find('table')
data = []
for tr in table.findAll('tr'):
    row = []
    for td in tr.findAll('td'):
        row.append(td.text.strip())
    data.append(row)

# 将表格数据存储到CSV文件中
df = pd.DataFrame(data[1:], columns=data[0])
df.to_csv('city_location.csv', index=False)

示例二:爬取全球疫情数据

  1. 数据来源:https://www.worldometers.info/coronavirus/

  2. 页面结构分析:数据在表格中,每个国家/地区的疫情数据在表格中的对应行。

  3. 代码实现:

import requests
from bs4 import BeautifulSoup
import pandas as pd

# 发送HTTP请求,获取HTML文档
url = 'https://www.worldometers.info/coronavirus/'
response = requests.get(url)

# 解析HTML文档,获取表格数据
soup = BeautifulSoup(response.text, 'html.parser')
table = soup.find('table', id='main_table_countries_today')
data = []
for tr in table.findAll('tr'):
    row = []
    for td in tr.findAll('td'):
        row.append(td.text.strip())
    if row:
        data.append(row)

# 将表格数据存储到CSV文件中
df = pd.DataFrame(data[1:], columns=data[0])
df.to_csv('covid19_global.csv', index=False)

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:python爬虫爬取网页表格数据 - Python技术站

(0)
上一篇 2023年5月14日
下一篇 2023年5月14日

相关文章

  • Python学习之魔法函数(filter,map,reduce)详解

    Python学习之魔法函数(filter,map,reduce)详解 在Python的函数式编程中,filter、map、reduce是魔法函数,可以轻松地对列表、元组、字典等数据结构进行快速过滤、映射、聚合操作。在本文中,我们将详细介绍这三个函数的使用方法,并提供一些实例介绍。 filter函数 filter函数可以用来过滤满足条件的元素,语法如下: fi…

    python 2023年6月5日
    00
  • python如何读取和存储dict()与.json格式文件

    下面我将为你详细介绍如何在Python中读取和存储dict()和JSON格式文件。 读取dict() 在Python中,我们可以使用pickle模块来读取和存储dict()类型的数据。使用pickle的好处是,pickle可以将Python的任何数据类型保存到文件中,包括List、Tuple、Dict等。 读取dict()的步骤如下: 使用pickle.lo…

    python 2023年5月20日
    00
  • Python的面向对象编程方式学习笔记

    那么今天我们来讲一下“Python的面向对象编程方式学习笔记”的完整攻略。 目录结构 首先,我们要清楚文档的目录结构是什么样的。目录结构应该具有层次感,能够清晰地体现出文档的结构和内容。一个典型的目录结构如下: – Python的面向对象编程方式学习笔记 – 第一章:基本知识 – 1.1 面向对象编程思想 – 1.2 关键字和标识符 – 1.3 注释和各种符…

    python 2023年6月3日
    00
  • 浅谈python的elementtree模块处理中文注意事项

    浅谈Python的ElementTree模块处理中文注意事项 简介 ElementTree是Python标准库中的一个用于解析和创建XML文档的模块,由于XML是一种非常常用的数据交换格式,所以ElementTree也被广泛使用。在处理中文时,ElementTree可能会遇到一些问题,本文将探讨给出相关的注意事项。 注意事项 编码 在使用ElementTre…

    python 2023年6月3日
    00
  • mBlock5慧编程怎么新建python程序? 慧编程编写python程序的技巧

    我来给您详细讲解一下mBlock5慧编程怎么新建Python程序以及慧编程编写Python程序的技巧。 mBlock5新建Python程序 mBlock5是一款基于Scratch的图形化编程软件,支持多种不同的编程语言,其中就包括Python。如果您想在mBlock5中新建Python程序,可以按照以下步骤进行: 打开mBlock5软件,并创建一个新项目; …

    python 2023年5月18日
    00
  • python操作excel的方法

    现在我来详细讲解一下Python操作Excel文件的方法,包括如何读取、写入、创建、编辑和修改Excel文件。本文主要介绍两种解决方案:使用开源库xlrd和openpyxl。 读取Excel文件 使用xlrd库 xlrd库是Python读取Excel的一个常用库。它最适合读取.xls文件,但不支持读取.xlsx文件。下面是读取Excel文件的例子: impo…

    python 2023年5月13日
    00
  • Python时间序列数据的预处理方法总结

    Python时间序列数据的预处理方法总结 时间序列数据是指按照时间顺序排列的数据,例如股票价格、气温、交流量等。在Python中,我们可以使用pandas库来处理时间序列。在本文中,我们将总结一些常用的时间序列数据预处理方法,包括数据清洗、重采样、滑动窗口。 数据清洗 在处理时间序列数据时,我们经常需要进行数据清洗,以去除无效数据或异常值。以下是一些常用的数…

    python 2023年5月13日
    00
  • Python操作Excel工作簿的示例代码(\*.xlsx)

    下面是Python操作Excel工作簿的示例代码的完整实例教程。 1. 准备工作 在开始操作之前,我们需要安装Python的excel处理库——openpyxl,可以通过以下命令进行安装: pip install openpyxl 2. 创建Excel文件 我们首先需要创建一个Excel文件,可以使用openpyxl库提供的Workbook类来创建一个新的E…

    python 2023年5月13日
    00
合作推广
合作推广
分享本页
返回顶部