Python提取PDF发票信息并导入到Excel中

本篇文章将学习提取pdf发票信息,并将发票信息导入到Excel中。

使用到的Python库:

  • pdfplumber
  • Gooey
  • pyinstaller

背景

Python提取PDF发票信息并导入到Excel中

随着电子发票越来越普遍,企业使用的越来越多,在财务报账流程中需要将发票信息录入到财务系统(如K3)中,在这个过程中,通常有以下几个痛点:

  • 发票信息检查容易出错。
  • 手动录入发票信息效率十分低下。
  • 人工处理非常容易出错。
  • 电子发票文件名不规范,不容易区分。如:045001600111112565055.pdf

解决方案

做一个程序,自动提取发票中的文字信息,并保存到Excel中。

这样可以从Excel中检查发票信息是否完整,并且从Excel中复制或导入到财务系统中,大大提高了工作效率。

程序效果

程序界面

导入到Excel中

文件重命名

实现方法

发票识别

使用pdfplumber,安装命令pip install pdfplumber

import pdfplumber
import re
import os

def re_text(bt, text):
    m1 = re.search(bt, text)
    if m1 is not None:
        return re_block(m1[0])

def re_block(text):
    return text.replace(' ', '').replace(' ', '').replace(')', '').replace(')', '').replace(':', ':')

def get_pdf(dir_path):
    pdf_file = []
    for root, sub_dirs, file_names in os.walk(dir_path):
        for name in file_names:
            if name.endswith('.pdf'):
                filepath = os.path.join(root, name)
                pdf_file.append(filepath)
    return pdf_file

def read():
    filenames = get_pdf('C:\Users\Administrator\Desktop\a')  # 修改为自己的文件目录
    for filename in filenames:
        print(filename)
        with pdfplumber.open(filename) as pdf:
            first_page = pdf.pages[0]
            pdf_text = first_page.extract_text()
            if '发票' not in pdf_text:
                continue
            # print(pdf_text)
            print('--------------------------------------------------------')
            print(re_text(re.compile(r'[\u4e00-\u9fa5]+电子普通发票.*?'), pdf_text))
            t2 = re_text(re.compile(r'[\u4e00-\u9fa5]+专用发票.*?'), pdf_text)
            if t2:
                print(t2)
            # print(re_text(re.compile(r'发票代码(.*\d+)'), pdf_text))
            print(re_text(re.compile(r'发票号码(.*\d+)'), pdf_text))
            print(re_text(re.compile(r'开票日期(.*)'), pdf_text))
            print(re_text(re.compile(r'名\s*称\s*[::]\s*([\u4e00-\u9fa5]+)'), pdf_text))
            print(re_text(re.compile(r'纳税人识别号\s*[::]\s*([a-zA-Z0-9]+)'), pdf_text))
            price = re_text(re.compile(r'小写.*(.*[0-9.]+)'), pdf_text)

            print(price)
            company = re.findall(re.compile(r'名.*称\s*[::]\s*([\u4e00-\u9fa5]+)'), pdf_text)
            if company:
                print(re_block(company[len(company)-1]))
            print('--------------------------------------------------------')

read()

通过上述代码可以实现对pdf发票的内容识别和输出功能。

写入到Excel中

使用xlwt写Excel文件,安装命令pip install xlwt,一个简单的例子如下:

import xlwt

# 创建工作簿
wb = xlwt.Workbook()
# 创建表单
sh = wb.add_sheet('sheet 1')
# 写入数据
sh.write(0, 1, '姓名')
# 保存
wb.save('test.xls')

创建软件界面

使用Gooey创建GUI图像界面,安装命令pip install Gooey
Gooey是个适用于命令行的图形工具,也就是只做输入(有各种输入/选择框)和输出的情况,不适用于做界面展示,无法添加自定义按钮,如button等。使用print就能将输出内容显示到GUI图形界面上。

Gooey实例如下:

from gooey import Gooey, GooeyParser

@Gooey(program_name="简单的实例")
def main():
    parser = GooeyParser(description="第一个示例!")
    parser.add_argument('文件路径', widget="FileChooser")  # 文件选择框
    parser.add_argument('日期', widget="DateChooser")  # 日期选择框
    args = parser.parse_args()  # 接收界面传递的参数
    print(args)

if__name__ == '__main__':
    main()

Python提取PDF发票信息并导入到Excel中

打包为exe文件

使用pyinstaller将代码打包为exe文件
安装命令pip install pyinstaller
打包命令pyinstaller -F xxxxx.py -w (xxxxx.py改为具体的.py文件名)
等待打包完成,在代码对应的目录下会生成dist文件夹,打开后可以看到exe程序。

Python提取PDF发票信息并导入到Excel中

软件下载

当然你如果你有使用需求的话,可以查看此文章下载软件。

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Python提取PDF发票信息并导入到Excel中 - Python技术站

(12)
上一篇 2024年1月20日
下一篇 2023年1月9日

相关文章

  • Python中的优先队列(priority queue)和堆(heap)

    Python中的优先队列(priority queue)和堆(heap) 什么是优先队列(priority queue)和堆(heap) 优先队列(priority queue)是一种数据结构,它是一个元素集合,每个元素都有一个优先级。当加入新元素时,它会自动放到正确的位置,以使集合中优先级最高的元素总是最先被取出。堆(heap)是一种数据结构,它可以用来实…

    python 2023年6月6日
    00
  • python 如何用 Hypothesis 来自动化单元测试

    下面是关于使用 Hypothesis 自动化单元测试的完整攻略。 什么是 Hypothesis? Hypothesis 是一个基于属性推理(property-based)的 Python 测试框架,它使用了随机数据生成器和“假设”(assumptions)来创建、执行和简化测试。该框架允许你只编写一小部分的测试用例,就能发现许多边缘情况和隐含错误。 安装 H…

    python 2023年5月19日
    00
  • python实现读取大文件并逐行写入另外一个文件

    当文件过大时,将整个文件读取并处理会导致内存爆炸。因此在处理大文件时,需要一行一行地处理,这样可以在占用比较小的内存情况下完成数据处理。以下是实现读取大文件并逐行写入另外一个文件的攻略: 1. 打开文件 首先需要打开待读取的大文件和待写入的文件,使用open()函数即可打开文件,常用参数有文件名、打开模式。对于大文件来说,还需要设置缓冲区大小参数,即buff…

    python 2023年6月5日
    00
  • 使用 Python 解析配置文件格式

    使用 Python 解析配置文件格式需要以下步骤: 安装配置文件解析库 Python 自带的 configparser 模块可以解析 .ini 文件格式,可以直接使用。如果需要解析其他格式的配置文件,例如 .yaml、.json 等,需要使用相应的第三方库进行解析,比如 PyYAML 和 json 模块。 定义配置文件 定义配置文件时,需要按照相应的格式来定…

    python 2023年6月3日
    00
  • Python txt文件如何转换成字典

    下面我来详细讲解一下 “Python txt 文件如何转换成字典” 的攻略。 1. 读取 txt 文件 首先需要读取 txt 文件的内容,这可以通过 Python 的文件操作实现。你需要使用 open() 函数打开 txt 文件,指定读取模式,并使用 read() 函数将文件内容读取为字符串。 示例代码如下: with open(‘example.txt’,…

    python 2023年5月13日
    00
  • Linux常用命令与命令缩写整理

    Linux常用命令与命令缩写整理 Linux命令概述 Linux命令是操作Linux系统时的重要工具,Linux命令具有清晰、简洁、高效等优点,它们可以提高操作效率,降低出错率,同时Linux命令也是Linux系统知识体系的重要组成部分。 命令分类 Linux命令在功能上可分为以下几类: 系统管理命令:主要用于对系统进行管理和维护。 用户管理命令:用于管理用…

    python 2023年6月3日
    00
  • Python教程之类型转换详解

    Python教程之类型转换详解 什么是类型转换? 当我们在编程过程中,有时候需要将一个数据类型转换为另外一种数据类型。例如将一个字符串类型转换为整型类型,或者将一个整型类型转换为浮点型类型等。这种操作在编程中称为类型转换。 类型转换的种类 Python中支持以下几种类型转换: 字符串转换成数字型 数字型转换成字符串 字符串、数字、元组、列表、字典之间的互相转…

    python 2023年5月14日
    00
  • Django 如何使用日期时间选择器规范用户的时间输入示例代码详解

    当用户需要在表单中输入日期或者时间时,我们很容易遇到很多问题,例如用户可以输入错误的日期格式、或者输入的时间不符合我们预期的范围。而 Django 内置了一些日期时间选择器来帮助我们规范用户输入。以下是如何使用日期时间选择器规范用户的时间输入的攻略: 1. 添加日期时间选择器组件 在 Django 中,可以使用 widgets 添加日期时间选择器组件来规范用…

    python 2023年6月2日
    00

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

合作推广
合作推广
分享本页
返回顶部