我们来详细讲解“PyPDF2读取PDF文件内容保存到本地TXT实例”的完整攻略。
环境准备
在开始实例前,我们需要安装 PyPDF2 库和预训练的 PDF 文件。PyPDF2 是一个纯 Python 库,用于对 PDF 文件进行操作。
安装 PyPDF2 库:
pip install PyPDF2
我们也需要一些测试用的 PDF 文件。可以在网络上下载或者自己生成 PDF 文件来使用。这里我们下载示例数据 sample.pdf 文件。
实例1:读取并输出 PDF 的文本
以下示例代码使用 PyPDF2 库读取 sample.pdf 文件中的文本并将其打印到控制台中。
import PyPDF2
# 打开 PDF 文件
pdf_file = open('sample.pdf', 'rb')
# 读取 PDF 文件
pdf_reader = PyPDF2.PdfFileReader(pdf_file)
# 获取 PDF 文件中的页数
print("Number of pages:", pdf_reader.numPages)
# 遍历每一页打印其文本
for page in range(pdf_reader.numPages):
print("Page:", page+1)
page_obj = pdf_reader.getPage(page)
print(page_obj.extractText())
# 关闭 PDF 文件
pdf_file.close()
在上面的示例代码中,我们首先打开 PDF 文件,然后使用 PyPDF2 库的 PdfFileReader
类读取文件。接下来,我们使用 numPages
属性获取 PDF 文件中的总页数,并打印到控制台。随后,我们遍历每一页,并使用 extractText
方法提取每一页的文本内容并打印到控制台中。
实例2:将 PDF 的文本保存到本地 TXT 文件
以下示例代码使用 PyPDF2 库读取 sample.pdf 文件中的文本并将其保存到本地的 txt 文件。
import PyPDF2
# 打开 PDF 文件
pdf_file = open('sample.pdf', 'rb')
# 读取 PDF 文件
pdf_reader = PyPDF2.PdfFileReader(pdf_file)
# 创建保存文本的 TXT 文件
txt_file = open('sample.txt', 'w')
# 遍历每一页并将其文本添加到 TXT 文件
for page in range(pdf_reader.numPages):
page_obj = pdf_reader.getPage(page)
txt_file.write(page_obj.extractText())
# 关闭 PDF 和 TXT 文件
pdf_file.close()
txt_file.close()
在这个示例中,我们首先打开 PDF 文件,然后使用 PyPDF2 库的 PdfFileReader
类读取文件。接下来,我们创建一个文本文件并将其打开以便写入文本。我们遍历每一页PDF文件,并对每一页应用 extractText
方法将其文本添加到文本文件中。最后,我们关闭了 PDF 和 TXT 文件。
这样,我们就完成了将 PDF 文件的内容保存到本地 TXT 文件的任务。
总之,上述的示例通过 PyPDF2 库和 Python 的基本文件处理来读取 PDF 文件中的文本并将其保存到本地文件中。这能够帮助我们将需要处理的文本有效地提取出来,并进行后续的文本分析或其他处理。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:PyPDF2读取PDF文件内容保存到本地TXT实例 - Python技术站