Python批量导出word文档中的图片、嵌入式文件

2023年4月2日下午5:28 • Python开发

学生试卷中的题目有要提交截图的，也有要提交文件的，为了方便学生考试，允许单独交或者嵌入Word中提交，那么事后如何整理学生的答案？单独提交的比较方便，直接扫描文件名匹配名字后放入指定文件夹即可。但是嵌入到Word中的图片和文件怎么提取出来呢？

现有如下需求：提取出一个Word文档中所有的图片（png、jpg）和嵌入的文件（任意格式）放入到指定的文件夹。

解决

docx是一个压缩包，解压缩后图片一般都放在文档名.docxwordmedia目录下：

Python批量导出word文档中的图片、嵌入式文件

而嵌入式文件一般都放在文档名.docxwordembeddings目录下：

Python批量导出word文档中的图片、嵌入式文件

经过询问度娘，发现提取图片比较简单，直接使用docx库中的Document.part.rels{k:v.target_ref}找到文件的相对路径，用Document.part.rels{k:v.target_part.blob}读出文件内容。简单判断一下路径和文件后缀是不是我们需要的media下的png文件和embeddings下的bin文件，是的话写入到新文件中即可：

提取图片

安装python-docx库

pip install python-docx

提取

import os

from docx import Document  # pip install python-docx

is_debug = True

if __name__ == '__main__':
    # 需要导出的Word文档路径
    # Python学习交流群 279199867
    target_file = r'paperHBase试题.docx'
    # 导出文件所在目录
    output_dir = r'paperoutput'

    # 加载Word文档
    doc = Document(target_file)
    # 遍历Word包中的所有文件
    dict_rel = doc.part.rels
    # r_id：文件身份码，rel：文件对象 
    for r_id, rel in dict_rel.items():
        if not ( # 如果文件不是在media或者embeddings中的，直接跳过
                str(rel.target_ref).startswith('media')
                or str(rel.target_ref).startswith('embeddings')
        ):
            continue
        
        # 如果文件不是我们想要的后缀，也直接跳过
        file_suffix = str(rel.target_ref).split('.')[-1:][0]
        if file_suffix.lower() not in ['png', 'jpg', 'bin']:
            continue

        # 如果输出目录不存在，创建
        if not os.path.exists(output_dir):
            os.makedirs(output_dir)
        
        # 构建导出文件的名字和路径
        file_name = r_id + '_' + str(rel.target_ref).replace('/', '_')
        file_path = os.path.join(output_dir,file_name)
        
        # 将二进制数据写入到新位置的文件中
        with open(file_path, "wb") as f:
            f.write(rel.target_part.blob)
        
        # 打印结果
        if is_debug:
            print('导出文件成功：', file_name)

运行结果：

Python批量导出word文档中的图片、嵌入式文件

可以看到，图片都能正常导出，但是学生嵌入的JAVA文件并没有导出，或者说导出的是bin文件，没有完全导出。

提取嵌入式文件

再次询问度娘发现，这种其实也是zip压缩包，但是不能直接提取出，它有个更专业的名字，叫ole文件，我们之前的doc、xls、ppt等没有带x的上古文档文件都是这种格式。那如何提取出文件呢？度娘告诉我有个叫oletools的项目可以，于是下载下来浅浅地分析了下，发现确实可以！

oletools项目地址：https://github.com/decalage2/oletools

或者gitee上别人转存的地址：https://gitee.com/yunqimg/oletools

我是用的gitee上的版本，因为github打不开 QwQ

经相关文档介绍，项目下的oletools-masteroletoolsoleobj.py就可以提取这种bin后缀的ole文件，简单试一下，在oleobj.py所在目录下打开命令行，把刚刚提取出的rId12_embeddings_oleObject1.bin文件复制到oleobj.py所在目录，执行如下命令：

注意：在此之前我执行了一下安装oletools的命令，如果不安装可能会出错：pip install oletools，或者说oleobj.py依赖olefile：pip install olefile，在安装oletools时顺便安装了olefile。

python oleobj.py rId12_embeddings_oleObject1.bin

成功导出

Microsoft Windows [版本 10.0.22000.708]
(c) Microsoft Corporation。保留所有权利。

D:MinuyDownloadsoletools-masteroletools-masteroletools>python oleobj.py rId12_embeddings_oleObject1.bin
oleobj 0.56 - http://decalage.info/oletools
THIS IS WORK IN PROGRESS - Check updates regularly!
Please report any issue at https://github.com/decalage2/oletools/issues

-------------------------------------------------------------------------------
File: 'rId12_embeddings_oleObject1.bin'
extract file embedded in OLE object from stream 'x01Ole10Native':
Parsing OLE Package
Filename = "Boos.java"
Source path = "D:111´ó20´óÊý¾Ý Àî¾üÁéBoos.java"
Temp path = "C:UsersADMINI~1AppDataLocalTempBoos.java"
saving to file rId12_embeddings_oleObject1.bin_Boos.java

D:MinuyDownloadsoletools-masteroletools-masteroletools>

导出的文件也能正常访问：

Python批量导出word文档中的图片、嵌入式文件

于是把oletools目录复制到工程项目下，稍微修改一下oleobj.py能让我的代码调用它，在oleobj.py中添加如下代码：

def export_main(ole_files, output_dir, log_leve=DEFAULT_LOG_LEVEL):
    ensure_stdout_handles_unicode()

    logging.basicConfig(level=LOG_LEVELS[log_leve], stream=sys.stdout,
                        format='%(levelname)-8s %(message)s')
    # 启用日志模块
    log.setLevel(logging.NOTSET)

    any_err_stream = False
    any_err_dumping = False
    any_did_dump = False

    for container, filename, data 
            in xglob.iter_files(ole_files,
                                recursive=False,
                                zip_password=None,
                                zip_fname='*'):

        if container and filename.endswith('/'):
            continue
        
        # 输出文件夹
        err_stream, err_dumping, did_dump = 
            process_file(filename, data, output_dir)

        any_err_stream |= err_stream
        any_err_dumping |= err_dumping
        any_did_dump |= did_dump

    return_val = RETURN_NO_DUMP
    if any_did_dump:
        return_val += RETURN_DID_DUMP
    if any_err_stream:
        return_val += RETURN_ERR_STREAM
    if any_err_dumping:
        return_val += RETURN_ERR_DUMP
    return return_val


def export_ole_file(ole_files, output_dir, debug=False):
    debug_leve = 'critical'
    if debug:
        debug_leve = 'info'
        
    # 导出
    result = export_main(
        ole_files,
        output_dir,
        debug_leve
    )

    if result and debug:
        print('导出ole文件出错', ole_files)

在提取文件的代码后面加上如下调用：

if str(rel.target_ref).startswith('embeddings'):
  # 解压嵌入式文件
  export_ole_file([file_path], output_dir)

再次运行

Python批量导出word文档中的图片、嵌入式文件

成功导出嵌入到Word中的文件！

成功解决问题~

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Python批量导出word文档中的图片、嵌入式文件 - Python技术站

轻松学Python

0 0 打赏

微信扫一扫

支付宝扫一扫

Python双人五子棋

上一篇 2023年4月2日下午5:28

Python代码块及输入输出

下一篇 2023年4月2日

如何用Python将普通视频变成动漫视频

最近几个月，毒教材被曝光引发争议，那些编写度教材的人着实可恶。咱程序员也没有手绘插画能力，但咱可以借助强大的深度学习模型将视频转动漫。所以今天的目标是让任何具有python语言基本能力的程序员，实现短视频转动漫效果。效果展示一、思路流程读取视频帧将每一帧图像转为动漫帧将转换后的动漫帧转为视频难点在于如何将图像转为动漫效果。这里我们使用基于深度学习…

Python开发 2023年4月2日
000
摸鱼也有效率——8个python自动化脚本提高打工人幸福感

最近有许多打工人都在吐槽打工好难每天都是执行许多重复的任务例如阅读新闻、发邮件、查看天气、打开书签、清理文件夹等等，使用自动化脚本，就无需手动一次又一次地完成这些任务，非常方便啊有木有？！而在某种程度上，Python 就是自动化的代名词。今天就来和大家一起学习一下，用8个python自动化脚本提高工作效率~ 快乐摸鱼~ 1、自动化阅读网页新闻 …

Python开发 2023年4月2日
000
TheFuck—Python写的超实用命令纠正工具

哈喽兄弟们，我们在学习Python的过程中，有这么一款工具，可以轻松纠正我们写错的命令，简直太好用了~ The Fuck 是一款功能强大的、Python编写的应用程序，可用于纠正控制台命令中的错误，非常强大。此外，用户还可通过写Python代码的方式自定义修复规则。修复效果如下动图所示：更多示例如：自动识别没有权限，在命令前面添加 sudo ➜ apt…

Python开发 2023年4月2日
000
将表格内不一样的数据，用Python自动发送给不同的人，实现高效摸鱼

事情是这样的，罪恶的资本家老板，快下班了给我发一个压缩包，让我把数据发给客户微信，搞完就可以下班了，我心想这么好，一个文件不是让我直接就提前下班吗，万万没想到… 我就知道，万恶的资本家怎么可能放弃剥削我的机会，我打开一看，一个压缩包里面放了几百个表格，一个表格里面N个人，几十万条数据，三个微信好友一万多人，我真的会谢…都特么四点了，这不是搞我吗？换别的同事，…

Python开发 2023年4月2日
000
Python分析14亿条数据，分分钟就处理好了

Google Ngram viewer是一个有趣和有用的工具，它使用谷歌从书本中扫描来的海量的数据宝藏，绘制出单词使用量随时间的变化。举个例子，单词 Python (区分大小写) ：这幅图来自：books.google.com/ngrams… ，描绘了单词 ‘Python’ 的使用量随时间的变化。它是由谷歌的n-gram 数据集驱动的，根据书本印刷的每…

Python开发 2023年3月31日
000
花了两天从几十万行代码里总结出的22个Python万用公式，非常有用

哈喽兄弟们在大家的日常python程序的编写过程中，都会有自己解决某个问题的解决办法，或者是在程序的调试过程中，用来帮助调试的程序公式。小编通过几十万行代码的总结处理，总结出了22个python万用公式，可以帮助大家解决在日常的python编程中遇到的大多数问题，一起来看看吧。 1、一次性进行多个数值的输入对于数值的输入问题，是很多笔试题目中经常遇到的…

Python开发 2023年4月2日
000
Python爬取往期股票数据，分析中奖规律！

快过年了，手头有点紧，但是作为一个男人，身上怎么能够没有大把钞票呢？于是我决定用Python来分析一波股票，赢了会所嫩*，输了下海干活！好了，上面是我吹牛逼的，不过确实有小伙伴看了爬股票数据进行分析的教程中过，但是我还是不建议各位去碰这玩意，今天咱们就是纯纯的分享技术哈~ 准备工作既然要去赚马内，咱们首先要获取往期的数据来进行分析，通过往期的规律来对当…

Python开发 2023年3月31日
000
这份工具清单，令Python 提速N倍，简直太好用了

在众多编程语言中，Python的社区生态是其中的佼佼者之一。几乎所有的技术痛点，例如优化代码提升速度，在社区内都有很多成功的解决方案。本文分享的就是一份可以令 Python 变快的工具清单，值得了解下。一、序言这篇文章会提供一些优化代码的工具。会让代码变得更简洁，或者更迅速。当然这些并不能代替算法设计，但是还是能让Python加速很多倍。其实…

Python开发 2023年4月2日
000

Python批量导出word文档中的图片、嵌入式文件

相关文章