Python利用pdfplumber实现读取PDF写入Excel

yizhihongxing

下面是“Python利用pdfplumber实现读取PDF写入Excel”的完整实例教程:

1. 安装pdfplumber和openpyxl

在使用pdfplumber和openpyxl前,需要先安装它们。可以使用pip命令安装:

pip install pdfplumber openpyxl

2. 读取PDF文件

在使用pdfplumber读取PDF文件前,需要先引入pdfplumber:

import pdfplumber

读取PDF文件的操作很简单:使用pdfplumber打开文件,然后获取每一页的文本内容。下面是示例代码:

pdf_file = pdfplumber.open('test.pdf')
for page in pdf_file.pages:
    page_text = page.extract_text()
    print(page_text)
pdf_file.close()

上述代码会将test.pdf文件中的所有内容打印出来。

3. 写入Excel文件

在使用openpyxl写入Excel文件前,需要先引入openpyxl:

import openpyxl

写入Excel文件的操作也很简单:创建一个workbook对象,然后在其上创建一个worksheet对象,并将数据写入worksheet对象中。下面是示例代码:

workbook = openpyxl.Workbook()
worksheet = workbook.active
worksheet['A1'] = 'Hello'
worksheet['B1'] = 'World'
workbook.save('test.xlsx')

上述代码会创建一个名为test.xlsx的Excel文件,并在其中写入“Hello”和“World”。

4. 将PDF文件内容写入Excel文件

现在我们需要将PDF文件中的内容读取出来,并写入Excel文件中。下面是完整的示例代码:

import pdfplumber
import openpyxl

pdf_file = pdfplumber.open('test.pdf')
workbook = openpyxl.Workbook()
worksheet = workbook.active

for page in pdf_file.pages:
    page_text = page.extract_text()
    for line in page_text.split('\n'):
        line_list = line.split()
        for i, cell_value in enumerate(line_list):
            worksheet.cell(row=i+1, column=len(worksheet['A'])+1, value=cell_value)

pdf_file.close()
workbook.save('output.xlsx')

上述代码会将test.pdf中的所有文本内容按单词拆分,并逐个写入到一个Excel文件中,文件名为output.xlsx。

5. 其他示例说明

1)获取PDF文件中的表格内容并写入Excel文件

可以使用pdfplumber的extract_table()方法来获取PDF文件中的表格内容,并将其写入Excel文件。示例代码如下:

import pdfplumber
import openpyxl

pdf_file = pdfplumber.open('test.pdf')
workbook = openpyxl.Workbook()
worksheet = workbook.active

for page in pdf_file.pages:
    table = page.extract_table()
    for row in table:
        worksheet.append(row)

pdf_file.close()
workbook.save('output.xlsx')

2)获取PDF文件中的图片并保存到本地

可以使用pdfplumber的extract_image()方法来获取PDF文件中的图片,并保存到本地。示例代码如下:

import pdfplumber

pdf_file = pdfplumber.open('test.pdf')

for page in pdf_file.pages:
    for img in page.images:
        img_obj = img['stream'].get_object()
        img_name = img_obj.get('Name')
        with open(f"{img_name}.jpg", "wb") as f:
            f.write(img["stream"].get_raw())

pdf_file.close()

上述代码会将test.pdf中的所有图片保存到本地,并以图片名称作为文件名保存。

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Python利用pdfplumber实现读取PDF写入Excel - Python技术站

(0)
上一篇 2023年5月14日
下一篇 2023年5月14日

相关文章

  • Python实现队列的方法

    Python实现队列的方法可以使用Python内置的列表(list)来实现。队列的特点是先进先出(FIFO),我们可以使用列表的append()方法来实现数据的入队操作,使用pop(0)方法来实现数据的出队操作,下面是实现队列的代码示例: class Queue: def __init__(self): self.items = [] def enqueue…

    python 2023年5月19日
    00
  • Python 正则表达式基础知识点及实例

    Python 正则表达式基础知识点及实例 什么是正则表达式 正则表达式,也称为 regex 或 regexp,是一种用于匹配文本模式的工具,它提供了一种强大、灵活、通用的方式来查找文本中的特定模式。Python 中的正则表达式是通过 re 模块实现的。 re 模块常用函数 1. re.search() re.search() 方法用于在文本中查找匹配的子串,…

    python 2023年6月3日
    00
  • python计算分段函数值的方法

    要计算分段函数的值,可以通过 if 语句实现。首先需要定义该分段函数,然后通过输入 x (自变量)的值,判断 x 属于哪个区间,计算对应的函数值。 下面是一个例子,计算分段函数 y = f(x),其定义如下: 当 x < 0 时,f(x) = x当 x >=0 且 x <10 时,f(x) = x^2当 x >= 10 时,f(x) …

    python 2023年6月5日
    00
  • Python xlrd excel文件操作代码实例

    下面是关于“Pythonxlrdexcel文件操作代码实例”的完整实例教程: 1. 环境准备 首先,我们需要确保已经安装好了Python和相关的库。本次教程中,我们主要使用的是xlrd库,它可以方便地处理Excel文件。 我们可以通过以下命令安装该库: pip install xlrd 2. 读取Excel文件数据 接下来,让我们来看看如何读取Excel文件…

    python 2023年5月13日
    00
  • Django中的DateTimeField和DateField实现

    Django中的DateTimeField和DateField都是常用的时间类型字段,其中DateField只存储日期,而DateTimeField存储日期和时间。 创建DateTimeField和DateField 在Django中,创建DateTimeField和DateField的方法都非常简单。在定义模型的字段时,只需要使用DateTimeField…

    python 2023年6月2日
    00
  • Python爬虫之对CSDN榜单进行分析

    Python爬虫之对CSDN榜单进行分析 1. 爬取CSDN榜单数据 首先,我们需要利用Python爬虫获取CSDN榜单数据。具体步骤如下: 安装所需的库:requests、BeautifulSoup。 pip install requests pip install BeautifulSoup4 确定爬取的目标链接,并利用requests库发送GET请求获…

    python 2023年5月14日
    00
  • python pandas分组聚合详细

    下面我将详细讲解“Python Pandas 分组聚合详细”的攻略。 一、背景介绍 在数据分析和处理中,对数据进行分组和聚合是非常常见的技术。Pandas是一款Python数据处理的工具包,它提供了强大的分组和聚合功能,能够让我们轻松地对数据进行分组和聚合处理。接下来,我将详细介绍Pandas分组聚合的操作方法。 二、使用方法 在Pandas中,分组聚合的操…

    python 2023年5月14日
    00
  • Excel 如何把数字字符串转换为日期和时间

    在 Excel 中,您可以使用以下步骤将数字字符串转换为日期和时间: 将数字字符串转换为日期和时间 以下是将数字字符串转换为日期和时间的完整攻略: 选中要转换的数字字符串。 在 Excel 中,选择“开始”选项卡。 在“数字”组中,选择“短日期”或“长日期”格式。 如果需要,可以选择“时间”格式。 单击“确定”按钮。 数字字符串将被转换为日期和时间格式。 以…

    云计算 2023年5月10日
    00
合作推广
合作推广
分享本页
返回顶部