python pdfplumber库批量提取pdf表格数据转换为excel

我来为你详细讲解一下“Python pdfplumber库批量提取pdf表格数据转换为Excel”的完整攻略。

一、pdfplumber库简介

pdfplumber是一个用于提取PDF文本内容和元数据的Python库。它可以用于提取文本、表格和图像等元素。pdfplumber可以在Windows、macOS和Linux等操作系统上运行，并且可以与Python 2.7、3.4及以上版本兼容。

二、安装pdfplumber库

安装pdfplumber库可以使用pip命令，运行以下命令即可：

pip install pdfplumber

三、批量提取pdf表格数据转换为Excel

导入pdfplumber库和pandas库：

import pdfplumber import pandas as pd

定义函数，用于将每个pdf文件中的表格数据提取出来，并存储为DataFrame格式：

def get_pdf_tables(file_path): """ :param file_path: pdf文件路径 :return: 所有表格的DataFrame列表 """ with pdfplumber.open(file_path) as pdf: tables = [] for page in pdf.pages: for table in page.extract_tables(): df = pd.DataFrame(table[1:], columns=table[0]) tables.append(df) return tables

定义主函数，用于批量处理pdf文件中的表格数据，将其转换为Excel文件：

def process_pdf_files(pdf_dir_path, excel_path): """ :param pdf_dir_path: 存放pdf文件的文件夹路径 :param excel_path: 生成的Excel文件路径 """ tables = [] for file_name in os.listdir(pdf_dir_path): if file_name.endswith('.pdf'): file_path = os.path.join(pdf_dir_path, file_name) tables += get_pdf_tables(file_path) writer = pd.ExcelWriter(excel_path) for i, table in enumerate(tables): table.to_excel(writer, sheet_name='Sheet{}'.format(i+1)) writer.save()

运行主函数，传入pdf文件夹路径和生成的Excel文件路径：

pdf_dir_path = '/path/to/pdf/directory' excel_path = '/path/to/excel/file.xlsx' process_pdf_files(pdf_dir_path, excel_path)

至此，我们完成了使用pdfplumber库批量提取pdf文件中的表格数据，然后将其转换为Excel文件的过程。

四、示例说明

下面是两个示例，帮助你更好地了解使用pdfplumber批量提取pdf表格数据转换为Excel的攻略：

示例一

假设你要处理的pdf文件夹名为“pdf_files”，并且存放在当前Python文件所在的目录下。你想要将所有pdf文件中的第一个表格提取出来，然后将其保存为名为“table1.xlsx”的Excel文件。你可以按照以下步骤进行操作：

在Python文件中导入pdfplumber库和pandas库：

import pdfplumber import pandas as pd

定义函数，用于将每个pdf文件中的表格数据提取出来，并返回第一个表格所对应的DataFrame：

def get_pdf_table(file_path): """ :param file_path: pdf文件路径 :return: 第一个表格的DataFrame """ with pdfplumber.open(file_path) as pdf: table = pd.DataFrame() for page in pdf.pages: if page.extract_tables(): df = pd.DataFrame(page.extract_tables()[0][1:], columns=page.extract_tables()[0][0]) table = pd.concat([table, df], sort=False) break return table

定义主函数，用于批量处理pdf文件中的表格数据，将每个pdf文件中的第一个表格所对应的DataFrame保存为Excel文件：

def process_pdf_files(pdf_dir_path, excel_path): """ :param pdf_dir_path: 存放pdf文件的文件夹路径 :param excel_path: 生成的Excel文件路径 """ tables = [] for file_name in os.listdir(pdf_dir_path): if file_name.endswith('.pdf'): file_path = os.path.join(pdf_dir_path, file_name) table = get_pdf_table(file_path) tables.append(table) writer = pd.ExcelWriter(excel_path) for i, table in enumerate(tables): table.to_excel(writer, sheet_name='Sheet{}'.format(i+1)) writer.save()

运行主函数，传入pdf文件夹路径和生成的Excel文件路径：

pdf_dir_path = './pdf_files' excel_path = './table1.xlsx' process_pdf_files(pdf_dir_path, excel_path)

示例二

假设你要处理的pdf文件夹名为“pdf_files”，并且存放在当前Python文件所在的目录下。你想要将所有pdf文件中的所有表格提取出来，然后将其保存在名为“all_tables.xlsx”的Excel文件中。你可以按照以下步骤进行操作：

在Python文件中导入pdfplumber库和pandas库：

import pdfplumber import pandas as pd

定义函数，用于将每个pdf文件中的表格数据提取出来，并返回所有表格所对应的DataFrame列表：

定义主函数，用于批量处理pdf文件中的表格数据，将每个pdf文件中的所有表格所对应的DataFrame保存为Excel文件：

运行主函数，传入pdf文件夹路径和生成的Excel文件路径：

pdf_dir_path = './pdf_files' excel_path = './all_tables.xlsx' process_pdf_files(pdf_dir_path, excel_path)

以上就是两个示例说明，希望对你有所帮助！

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：python pdfplumber库批量提取pdf表格数据转换为excel - Python技术站

python pdfplumber库批量提取pdf表格数据转换为excel

一、pdfplumber库简介

二、安装pdfplumber库

三、批量提取pdf表格数据转换为Excel

四、示例说明

示例一

示例二

相关文章