Python读取pdf表格写入excel的方法

下面是Python读取pdf表格写入excel的方法的完整实例教程。

1. 环境准备

首先,我们需要安装三个Python库,分别是pdfplumberopenpyxlos,可以通过pip命令安装:

!pip install pdfplumber
!pip install openpyxl

2. 实现步骤

接下来,我们具体来看如何使用Python实现读取pdf表格写入excel的功能。

2.1 读取pdf表格

我们可以使用pdfplumber库来读取pdf表格,它提供了比较方便的接口。

import pdfplumber

# 读取pdf文件
pdf = pdfplumber.open("data.pdf")

# 获取第一页的数据
first_page = pdf.pages[0]

# 获取第一页中的表格数据
table = first_page.extract_tables()[0]

# 打印表格数据
print(table)

在上面的代码中,我们首先使用pdfplumberopen方法打开pdf文件,并获取到第一页的数据。然后,我们使用extract_tables方法从第一页中提取表格数据,并选择第一个表格进行打印。

2.2 写入excel表格

接下来,我们将获取到的pdf表格数据写入到excel文件中,可以使用openpyxl库来实现。

import openpyxl

# 创建一个新的excel文件
workbook = openpyxl.Workbook()

# 获取第一个sheet
sheet = workbook.active

# 将表格数据写入excel中
for row in table:
    sheet.append(row)

# 保存excel文件
workbook.save("data.xlsx")

在上面的代码中,我们首先使用openpyxlWorkbook来创建一个新的excel文件,并获取到第一个sheet。然后,我们使用sheet的append方法将获取到的表格数据写入excel中。最后,我们使用save方法保存excel文件。

3. 完整实例

下面是一个完整的例子,将pdf中的第一个表格数据读取并写入excel文件。

import pdfplumber
import openpyxl

# 读取pdf文件
pdf = pdfplumber.open("data.pdf")

# 获取第一页的数据
first_page = pdf.pages[0]

# 获取第一页中的表格数据
table = first_page.extract_tables()[0]

# 创建一个新的excel文件
workbook = openpyxl.Workbook()

# 获取第一个sheet
sheet = workbook.active

# 将表格数据写入excel中
for row in table:
    sheet.append(row)

# 保存excel文件
workbook.save("data.xlsx")

4. 示例说明

示例1:读取pdf中的表格数据

假设我们有一个名为data.pdf的pdf文件,其中包含了一个表格数据,我们可以使用以下代码来读取表格数据:

import pdfplumber

# 读取pdf文件
pdf = pdfplumber.open("data.pdf")

# 获取第一页的数据
first_page = pdf.pages[0]

# 获取第一页中的表格数据
table = first_page.extract_tables()[0]

# 打印表格数据
print(table)

在上面的代码中,我们使用pdfplumber库来读取pdf文件,并获取到第一页中的表格数据。然后,我们使用print方法来打印表格数据。

示例2:将表格数据写入excel文件

使用示例1中获取到的表格数据,我们可以将其写入excel文件中,代码如下:

import openpyxl

# 创建一个新的excel文件
workbook = openpyxl.Workbook()

# 获取第一个sheet
sheet = workbook.active

# 将表格数据写入excel中
for row in table:
    sheet.append(row)

# 保存excel文件
workbook.save("data.xlsx")

在上面的代码中,我们使用openpyxl库来创建一个新的excel文件,并将表格数据写入excel中。最后,我们使用save方法来保存excel文件。

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Python读取pdf表格写入excel的方法 - Python技术站

(1)
上一篇 2023年5月13日
下一篇 2023年5月13日

相关文章

  • 详解Python PIL ImageOps.fit()方法

    Python PIL库提供了许多图像处理方法,其中PIL.ImageOps模块的fit()方法可以在保持纵横比的同时裁剪图像或缩放图像,接下来我们将详细讲解该方法的使用。 方法概述 PIL.ImageOps.fit()方法的语法如下: PIL.ImageOps.fit(image, size, method=3, bleed=0.0, centering=(…

    python-answer 2023年3月25日
    00
  • Python读取txt某几列绘图的方法

    下面是Python读取txt某几列绘图的方法的攻略。 1. 读取txt文件 使用Python自带的open函数打开txt文件,读取并存储相应数据。 with open("data.txt", "r") as f: data = f.readlines() 以上代码将打开名为data.txt的文件,以只读模式(”r”)进…

    python 2023年6月3日
    00
  • 你真的了解Python的random模块吗?

    当需要生成随机数或进行随机操作时,Python的random模块非常实用。下面是对该模块的详细介绍: 1. random模块的导入 在使用random模块之前,需要将其导入,可以使用如下代码行完成导入: import random 这样就可以在代码中使用random模块中的函数、类或对象。 2. random模块中常用函数的功能说明及示例 2.1 rando…

    python 2023年6月3日
    00
  • 使用python脚本自动创建pip.ini配置文件代码实例

    下面是使用python脚本自动创建pip.ini配置文件的完整攻略: 什么是pip.ini? pip.ini是pip配置文件,包含了一些配置信息,如设置pip源、设置代理等。当使用pip安装或更新Python库时,会从pip.ini文件中读取相应的配置信息,并据此执行相应的操作。 如果没有pip.ini文件,pip会使用默认配置信息进行操作。但是,如果你需要…

    python 2023年5月14日
    00
  • 详解Python中命令行参数argparse的常用命令

    详解Python中命令行参数argparse的常用命令 在Python中,argparse是一个非常常用的命令行参数解析库,可以帮助我们方便地解析命令行参数。本文将介绍argparse的常用命令,并提供两个示例。 步骤1:导入模块 在使用argparse之前,需要先导入它的模块。可以使用以下代码导入argparse模块: import argparse 步骤…

    python 2023年5月15日
    00
  • Python机器学习之逻辑回归

    Python机器学习之逻辑回归 逻辑回归(Logistic Regression)是一种常用的分类算法,它可以用于二分类和多分类问题。在这篇文章中,我们将介绍如何使用Python实现逻辑回归算法,并详细讲解实现原理。 实现原理 逻辑回归是一种基于概率的分类算法,它的目标是根据输入特征预测样本属于哪个类别。逻辑回归的实现原理如下: 首先定义一个逻辑回归模型,包…

    python 2023年5月14日
    00
  • Python最基本的输入输出详解

    下面是关于“Python最基本的输入输出详解”的完整攻略: 标准输入输出 在Python中,常用的输入输出方式有三种: 标准输入输出:通过控制台(或终端)输入或输出数据。 文件输入输出:通过文件读写的方式进行输入输出。 网络输入输出:通过网络传输数据进行输入输出。 其中,标准输入输出是最基本的方式,在Python中有内置的函数可供调用。 标准输出 Pytho…

    python 2023年6月5日
    00
  • python使用calendar输出指定年份全年日历的方法

    下面是详细的攻略: 1. 概述 calendar是Python内置模块,提供了一些与日历操作相关的函数,包括输出指定年份全年的日历。使用calendar模块输出指定年份全年日历的方法非常简单,只需要调用calendar模块中的Calendar类或TextCalendar类中的相应方法即可。 2. 使用Calendar类输出指定年份全年的日历 Calendar…

    python 2023年6月2日
    00
合作推广
合作推广
分享本页
返回顶部