Python批量导出word文档中的图片、嵌入式文件

yizhihongxing

学生试卷中的题目有要提交截图的,也有要提交文件的,为了方便学生考试,允许单独交或者嵌入Word中提交,那么事后如何整理学生的答案?单独提交的比较方便,直接扫描文件名匹配名字后放入指定文件夹即可。但是嵌入到Word中的图片和文件怎么提取出来呢?

现有如下需求:提取出一个Word文档中所有的图片(png、jpg)和嵌入的文件(任意格式)放入到指定的文件夹。

解决

docx是一个压缩包,解压缩后图片一般都放在文档名.docxwordmedia目录下:

Python批量导出word文档中的图片、嵌入式文件

 

 

而嵌入式文件一般都放在文档名.docxwordembeddings目录下:

Python批量导出word文档中的图片、嵌入式文件

 

 

经过询问度娘,发现提取图片比较简单,直接使用docx库中的Document.part.rels{k:v.target_ref}找到文件的相对路径,用Document.part.rels{k:v.target_part.blob}读出文件内容。简单判断一下路径和文件后缀是不是我们需要的media下的png文件和embeddings下的bin文件,是的话写入到新文件中即可:

提取图片

安装python-docx库

pip install python-docx

提取

import os

from docx import Document  # pip install python-docx

is_debug = True

if __name__ == '__main__':
    # 需要导出的Word文档路径
    # Python学习交流群 279199867
    target_file = r'paperHBase试题.docx'
    # 导出文件所在目录
    output_dir = r'paperoutput'

    # 加载Word文档
    doc = Document(target_file)
    # 遍历Word包中的所有文件
    dict_rel = doc.part.rels
    # r_id:文件身份码,rel:文件对象 
    for r_id, rel in dict_rel.items():
        if not ( # 如果文件不是在media或者embeddings中的,直接跳过
                str(rel.target_ref).startswith('media')
                or str(rel.target_ref).startswith('embeddings')
        ):
            continue
        
        # 如果文件不是我们想要的后缀,也直接跳过
        file_suffix = str(rel.target_ref).split('.')[-1:][0]
        if file_suffix.lower() not in ['png', 'jpg', 'bin']:
            continue

        # 如果输出目录不存在,创建
        if not os.path.exists(output_dir):
            os.makedirs(output_dir)
        
        # 构建导出文件的名字和路径
        file_name = r_id + '_' + str(rel.target_ref).replace('/', '_')
        file_path = os.path.join(output_dir,file_name)
        
        # 将二进制数据写入到新位置的文件中
        with open(file_path, "wb") as f:
            f.write(rel.target_part.blob)
        
        # 打印结果
        if is_debug:
            print('导出文件成功:', file_name)

 

 

运行结果:

Python批量导出word文档中的图片、嵌入式文件

 

 

可以看到,图片都能正常导出,但是学生嵌入的JAVA文件并没有导出,或者说导出的是bin文件,没有完全导出。

提取嵌入式文件

再次询问度娘发现,这种其实也是zip压缩包,但是不能直接提取出,它有个更专业的名字,叫ole文件,我们之前的doc、xls、ppt等没有带x的上古文档文件都是这种格式。那如何提取出文件呢?度娘告诉我有个叫oletools的项目可以,于是下载下来浅浅地分析了下,发现确实可以!

oletools项目地址:https://github.com/decalage2/oletools

或者gitee上别人转存的地址:https://gitee.com/yunqimg/oletools

我是用的gitee上的版本,因为github打不开 QwQ

经相关文档介绍,项目下的oletools-masteroletoolsoleobj.py就可以提取这种bin后缀的ole文件,简单试一下,在oleobj.py所在目录下打开命令行,把刚刚提取出的rId12_embeddings_oleObject1.bin文件复制到oleobj.py所在目录,执行如下命令:

注意: 在此之前我执行了一下安装oletools的命令,如果不安装可能会出错:pip install oletools,或者说oleobj.py依赖olefile:pip install olefile,在安装oletools时顺便安装了olefile。

python oleobj.py rId12_embeddings_oleObject1.bin

成功导出

Microsoft Windows [版本 10.0.22000.708]
(c) Microsoft Corporation。保留所有权利。

D:MinuyDownloadsoletools-masteroletools-masteroletools>python oleobj.py rId12_embeddings_oleObject1.bin
oleobj 0.56 - http://decalage.info/oletools
THIS IS WORK IN PROGRESS - Check updates regularly!
Please report any issue at https://github.com/decalage2/oletools/issues

-------------------------------------------------------------------------------
File: 'rId12_embeddings_oleObject1.bin'
extract file embedded in OLE object from stream 'x01Ole10Native':
Parsing OLE Package
Filename = "Boos.java"
Source path = "D:111´ó20´óÊý¾Ý Àî¾üÁéBoos.java"
Temp path = "C:UsersADMINI~1AppDataLocalTempBoos.java"
saving to file rId12_embeddings_oleObject1.bin_Boos.java

D:MinuyDownloadsoletools-masteroletools-masteroletools>

 

导出的文件也能正常访问:

 Python批量导出word文档中的图片、嵌入式文件

 

 

于是把oletools目录复制到工程项目下,稍微修改一下oleobj.py能让我的代码调用它,在oleobj.py中添加如下代码:

def export_main(ole_files, output_dir, log_leve=DEFAULT_LOG_LEVEL):
    ensure_stdout_handles_unicode()

    logging.basicConfig(level=LOG_LEVELS[log_leve], stream=sys.stdout,
                        format='%(levelname)-8s %(message)s')
    # 启用日志模块
    log.setLevel(logging.NOTSET)

    any_err_stream = False
    any_err_dumping = False
    any_did_dump = False

    for container, filename, data 
            in xglob.iter_files(ole_files,
                                recursive=False,
                                zip_password=None,
                                zip_fname='*'):

        if container and filename.endswith('/'):
            continue
        
        # 输出文件夹
        err_stream, err_dumping, did_dump = 
            process_file(filename, data, output_dir)

        any_err_stream |= err_stream
        any_err_dumping |= err_dumping
        any_did_dump |= did_dump

    return_val = RETURN_NO_DUMP
    if any_did_dump:
        return_val += RETURN_DID_DUMP
    if any_err_stream:
        return_val += RETURN_ERR_STREAM
    if any_err_dumping:
        return_val += RETURN_ERR_DUMP
    return return_val


def export_ole_file(ole_files, output_dir, debug=False):
    debug_leve = 'critical'
    if debug:
        debug_leve = 'info'
        
    # 导出
    result = export_main(
        ole_files,
        output_dir,
        debug_leve
    )

    if result and debug:
        print('导出ole文件出错', ole_files)

 

在提取文件的代码后面加上如下调用:

if str(rel.target_ref).startswith('embeddings'):
  # 解压嵌入式文件
  export_ole_file([file_path], output_dir)

再次运行

 Python批量导出word文档中的图片、嵌入式文件

 

 

成功导出嵌入到Word中的文件!

成功解决问题~

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Python批量导出word文档中的图片、嵌入式文件 - Python技术站

(0)
上一篇 2023年4月2日 下午5:28
下一篇 2023年4月2日

相关文章

  • 毕业设计经典案例:Python实现疫苗接种数据库管理

    那一年过年前,疫情开始爆发,对全国人民的生活和工作造成了严重的影响。但凭借着国家强盛的实力,新冠疫苗也很快的被技术人员研发出来,人们通过接种新冠疫苗来抵御新冠病毒的危害。本次通过接种新冠疫苗的这个数据统计,来设计“疫苗接种数据库”,存储人们接种疫苗的相关信息,并实现“增删改查”等基本操作以及其他的拓展功能。 国内新冠疫苗人员接种后,如果不通过数据统计到数据库…

    Python开发 2023年4月2日
    00
  • 如何让电脑永不息屏?Python:这事我熟,只需5行代码…

    最近新来的小老弟问我,按照公司规定,电脑只有十分钟就锁屏,但是他不想让电脑在空闲十分钟后锁屏。 于是我问他,是不是想挑战一下公司信息安全? 不过小老弟很机智,来了句公司信息安全大于天,他就是想让自己多学点知识 ~ 既然他都这么说了,我就勉为其难的教一下他吧! 电脑永不息屏的两种方法 1、电脑手动方式 一般我们让电脑不息屏,正常操作步骤为: 电脑桌面空白处点击…

    Python开发 2023年4月2日
    00
  • python语法到底多精妙?八大核心语句,带你深度了解

    Python 是一种代表简单思想的语言,其语法相对简单,很容易上手。不过,如果就此小视 Python 语法的精妙和深邃,那就大错特错了。本文精心筛选了最能展现 Python 语法之精妙的十个知识点,并附上详细的实例代码。如能在实战中融会贯通、灵活使用,必将使代码更为精炼、高效,同时也会极大提升代码B格,使之看上去更老练,读起来更优雅。 1. for – el…

    Python开发 2023年3月31日
    00
  • Python之字典删除元素(6种方式)

    文中代码 smart_girl = {“name”:”yuan wai”, “age”: 25,”address”:”Beijing”}   第一种方式:pop()方法 注意:找不到对应的key,pop方法会抛出异常KeyError smart_girl.pop(“name”) #返回值是value # Python学习交流裙 708525271   第二种…

    Python开发 2023年3月31日
    00
  • 程序员最浪漫的表白方式,将情书写在她的照片里,Python简直太厉害啦~

    这不光棍节快到了,表弟准备写一封情书给他的女神,想在光棍节之前脱单。 为了提高成功率,于是跑来找我给他参谋参谋,本来我是不想理他的,不过谁让他是我表弟呢(请我洗jio),于是教给他程序员的终极浪漫绝招,先假装给女神拍照,然后再把情书写到她的照片上打印出来送给她,嘿嘿~ 实现步骤 想要实现把情书写在像素中,那么我们就需要用到pillow这个神器。 众所周知,图…

    Python开发 2023年4月2日
    00
  • Python分析14亿条数据,分分钟就处理好了

    Google Ngram viewer是一个有趣和有用的工具,它使用谷歌从书本中扫描来的海量的数据宝藏,绘制出单词使用量随时间的变化。 举个例子,单词 Python (区分大小写) : 这幅图来自:books.google.com/ngrams… ,描绘了单词 ‘Python’ 的使用量随时间的变化。 它是由谷歌的n-gram 数据集驱动的,根据书本印刷的每…

    Python开发 2023年3月31日
    00
  • Python实现批量将文件按分类保存,文件再多,只需一秒钟解决

    当我们电脑里面的文本或者或者文件夹太多了,有时候想找到自己想要的文件,只能通过去搜索文件名,要是名字忘记了的话,那你也搜不了吧,当然你可通过后缀名去搜索,但是通过搜索出来的文件只会更多,这还只是文件多的情况下。 如果文件名字基本一样,只有序号不一样呢?那特么眼睛看瞎了估计还没找到。 那么我们可以用Python来对文件进行批量自动分类保存到文件夹,下次找的时候…

    Python开发 2023年4月2日
    00
  • 趁这个软件还没倒闭,我连夜用Python下载了所有壁纸…

    最近啊,有些人总是喜欢乱点一些七七八八的网站,没错,就是那个巳月,点完了又喊我爬,自己不爬! 就是这些,眼熟吗,反正我一个不认识!!一开始我是严词拒绝的!我是那样的人吗?要不是他请我喝奶茶让我来,我才不瞎搞呢!     软件环境 Python 3.8 解释器 Pycharm 编辑器 模块使用 requests 数据请求模块 re 正则 代码展示 代码仅做展示…

    Python开发 2023年4月2日
    00
合作推广
合作推广
分享本页
返回顶部