PyPDF2读取PDF文件内容保存到本地TXT实例

我们来详细讲解“PyPDF2读取PDF文件内容保存到本地TXT实例”的完整攻略。

环境准备

在开始实例前，我们需要安装 PyPDF2 库和预训练的 PDF 文件。PyPDF2 是一个纯 Python 库，用于对 PDF 文件进行操作。

安装 PyPDF2 库：

pip install PyPDF2

我们也需要一些测试用的 PDF 文件。可以在网络上下载或者自己生成 PDF 文件来使用。这里我们下载示例数据 sample.pdf 文件。

实例1：读取并输出 PDF 的文本

以下示例代码使用 PyPDF2 库读取 sample.pdf 文件中的文本并将其打印到控制台中。

import PyPDF2

# 打开 PDF 文件
pdf_file = open('sample.pdf', 'rb')

# 读取 PDF 文件
pdf_reader = PyPDF2.PdfFileReader(pdf_file)

# 获取 PDF 文件中的页数
print("Number of pages:", pdf_reader.numPages)

# 遍历每一页打印其文本
for page in range(pdf_reader.numPages):
    print("Page:", page+1)
    page_obj = pdf_reader.getPage(page)
    print(page_obj.extractText())

# 关闭 PDF 文件
pdf_file.close()

在上面的示例代码中，我们首先打开 PDF 文件，然后使用 PyPDF2 库的 PdfFileReader 类读取文件。接下来，我们使用 numPages 属性获取 PDF 文件中的总页数，并打印到控制台。随后，我们遍历每一页，并使用 extractText 方法提取每一页的文本内容并打印到控制台中。

实例2：将 PDF 的文本保存到本地 TXT 文件

以下示例代码使用 PyPDF2 库读取 sample.pdf 文件中的文本并将其保存到本地的 txt 文件。

import PyPDF2

# 打开 PDF 文件
pdf_file = open('sample.pdf', 'rb')

# 读取 PDF 文件
pdf_reader = PyPDF2.PdfFileReader(pdf_file)

# 创建保存文本的 TXT 文件
txt_file = open('sample.txt', 'w')

# 遍历每一页并将其文本添加到 TXT 文件
for page in range(pdf_reader.numPages):
    page_obj = pdf_reader.getPage(page)
    txt_file.write(page_obj.extractText())

# 关闭 PDF 和 TXT 文件
pdf_file.close()
txt_file.close()

在这个示例中，我们首先打开 PDF 文件，然后使用 PyPDF2 库的 PdfFileReader 类读取文件。接下来，我们创建一个文本文件并将其打开以便写入文本。我们遍历每一页PDF文件，并对每一页应用 extractText 方法将其文本添加到文本文件中。最后，我们关闭了 PDF 和 TXT 文件。

这样，我们就完成了将 PDF 文件的内容保存到本地 TXT 文件的任务。

总之，上述的示例通过 PyPDF2 库和 Python 的基本文件处理来读取 PDF 文件中的文本并将其保存到本地文件中。这能够帮助我们将需要处理的文本有效地提取出来，并进行后续的文本分析或其他处理。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：PyPDF2读取PDF文件内容保存到本地TXT实例 - Python技术站

PyPDF2读取PDF文件内容保存到本地TXT实例

环境准备

实例1：读取并输出 PDF 的文本

实例2：将 PDF 的文本保存到本地 TXT 文件

相关文章