Python利用pdfplumber实现读取PDF写入Excel

下面是“Python利用pdfplumber实现读取PDF写入Excel”的完整实例教程:

1. 安装pdfplumber和openpyxl

在使用pdfplumber和openpyxl前,需要先安装它们。可以使用pip命令安装:

pip install pdfplumber openpyxl

2. 读取PDF文件

在使用pdfplumber读取PDF文件前,需要先引入pdfplumber:

import pdfplumber

读取PDF文件的操作很简单:使用pdfplumber打开文件,然后获取每一页的文本内容。下面是示例代码:

pdf_file = pdfplumber.open('test.pdf')
for page in pdf_file.pages:
    page_text = page.extract_text()
    print(page_text)
pdf_file.close()

上述代码会将test.pdf文件中的所有内容打印出来。

3. 写入Excel文件

在使用openpyxl写入Excel文件前,需要先引入openpyxl:

import openpyxl

写入Excel文件的操作也很简单:创建一个workbook对象,然后在其上创建一个worksheet对象,并将数据写入worksheet对象中。下面是示例代码:

workbook = openpyxl.Workbook()
worksheet = workbook.active
worksheet['A1'] = 'Hello'
worksheet['B1'] = 'World'
workbook.save('test.xlsx')

上述代码会创建一个名为test.xlsx的Excel文件,并在其中写入“Hello”和“World”。

4. 将PDF文件内容写入Excel文件

现在我们需要将PDF文件中的内容读取出来,并写入Excel文件中。下面是完整的示例代码:

import pdfplumber
import openpyxl

pdf_file = pdfplumber.open('test.pdf')
workbook = openpyxl.Workbook()
worksheet = workbook.active

for page in pdf_file.pages:
    page_text = page.extract_text()
    for line in page_text.split('\n'):
        line_list = line.split()
        for i, cell_value in enumerate(line_list):
            worksheet.cell(row=i+1, column=len(worksheet['A'])+1, value=cell_value)

pdf_file.close()
workbook.save('output.xlsx')

上述代码会将test.pdf中的所有文本内容按单词拆分,并逐个写入到一个Excel文件中,文件名为output.xlsx。

5. 其他示例说明

1)获取PDF文件中的表格内容并写入Excel文件

可以使用pdfplumber的extract_table()方法来获取PDF文件中的表格内容,并将其写入Excel文件。示例代码如下:

import pdfplumber
import openpyxl

pdf_file = pdfplumber.open('test.pdf')
workbook = openpyxl.Workbook()
worksheet = workbook.active

for page in pdf_file.pages:
    table = page.extract_table()
    for row in table:
        worksheet.append(row)

pdf_file.close()
workbook.save('output.xlsx')

2)获取PDF文件中的图片并保存到本地

可以使用pdfplumber的extract_image()方法来获取PDF文件中的图片,并保存到本地。示例代码如下:

import pdfplumber

pdf_file = pdfplumber.open('test.pdf')

for page in pdf_file.pages:
    for img in page.images:
        img_obj = img['stream'].get_object()
        img_name = img_obj.get('Name')
        with open(f"{img_name}.jpg", "wb") as f:
            f.write(img["stream"].get_raw())

pdf_file.close()

上述代码会将test.pdf中的所有图片保存到本地,并以图片名称作为文件名保存。

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Python利用pdfplumber实现读取PDF写入Excel - Python技术站

(0)
上一篇 2023年5月14日
下一篇 2023年5月14日

相关文章

  • Excel 如何计算两个数值/时间的绝对差值

    要在 Excel 中计算两个数值/时间的绝对差值,可以使用“ABS”函数。以下是 Excel 如何计算两个数值/时间的绝对差值的完整攻略: 计算两个数值/时间的绝对差值 要计算两个数值/时间的绝对差值,可以使用“ABS”函数。具体步骤如下: 打开 Excel,选择包含数据的单元格。 在单元格中输入以下公式:=ABS(A1-B1),其中“A1”和“B1”是要计…

    云计算 2023年5月10日
    00
  • python实现通过代理服务器访问远程url的方法

    当我们通过 Python 程序访问远程URL时,有时候需要使用代理服务器。使用代理服务器的好处是可以隐藏客户端的 IP 地址和增加访问速度。本文将分享如何通过代理服务器访问远程URL的方法。 1. 使用 urllib 库 Python 提供了标准库 urllib 用于操作URL,其中包含一个 ProxyHandler 类,可以帮助我们自定义代理服务器。 下面…

    python 2023年6月3日
    00
  • Python 高级嵌套循环:[ (a, b) for a in range(3) for b in range(a) ]

    【问题标题】:Python Advanced Nested Loop: [ (a, b) for a in range(3) for b in range(a) ]Python 高级嵌套循环:[ (a, b) for a in range(3) for b in range(a) ] 【发布时间】:2023-04-05 06:49:02 【问题描述】: 有人…

    Python开发 2023年4月5日
    00
  • Python中的默认参数详解

    Python中的默认参数详解 Python中的函数参数可以设置默认值,这种参数就是默认参数。 在函数定义的时候,如果为某个参数指定了默认值,这个参数就成为了默认参数。带默认值的参数,必须出现在参数列表的末尾。也就是说,一旦给定了默认值,所有的参数都需要有默认值。 函数调用时,可以传递默认参数,也可以省略掉它,用默认值代替。如果你省略了传递默认值的参数,Pyt…

    python 2023年6月3日
    00
  • Python基于pillow判断图片完整性的方法

    下面是详细讲解 “Python基于pillow判断图片完整性的方法” 的完整攻略。 简介 在处理图片的过程中,有时候需要判断图片是否完整。图片完整性通常指图片文件是否可以被正确地打开、读取、解压,以及其中的像素数据是否能够正常的被读取。在Python中,我们可以使用Pillow作为图片处理库来实现判断图片完整性的操作。 步骤 下面是Python基于pillo…

    python 2023年5月18日
    00
  • 如何通过匹配Python中不同长度的字典中的值来替换列值?

    【问题标题】:How to replace column values by matching values in a dictionary of a different length in Python?如何通过匹配Python中不同长度的字典中的值来替换列值? 【发布时间】:2023-04-06 15:08:02 【问题描述】: 我有一个看起来像这样的数…

    Python开发 2023年4月7日
    00
  • python爬取酷狗音乐Top500榜单

    在本攻略中,我们将介绍如何使用Python爬取酷狗音乐Top500榜单。以下是一个完整攻略,包括两个示例。 步骤1:安装必要的库 首先,需要安装必要的库。将使用requests库来发送HTTP请求,并使用BeautifulSoup库来解析HTML页面。 以下是一个示例代码,演示如何使用安装requests和BeautifulSoup: pip install…

    python 2023年5月15日
    00
  • python爬取亚马逊书籍信息代码分享

    下面我来详细讲解“python爬取亚马逊书籍信息代码分享”的完整攻略。 一、准备工作 在进行爬虫操作前,需要安装相关依赖包: requests:用于发起网络请求 lxml:用于解析HTML文档 安装命令如下: pip install requests pip install lxml 二、分析网页结构 在进行爬虫操作前,需要先分析目标网页的结构。这里以亚马逊…

    python 2023年6月3日
    00
合作推广
合作推广
分享本页
返回顶部