python批量提取word内信息

yizhihongxing

下面我将为您提供“Python批量提取Word内信息”的完整攻略。

一、准备工作

  1. 安装python-docx库
pip install python-docx
  1. 准备需要批量提取信息的Word文档

二、代码实现

以下是代码示例:

from docx import Document
import os

# 设置Word文件所在文件夹路径和关键词
file_dir = '文件夹路径'
keyword = '关键词'

# 遍历文件夹内所有Word文件
for file in os.listdir(file_dir):
    if file.endswith('.docx'):
        # 打开Word文档
        doc = Document(file_dir + '/' + file)

        # 提取全部段落内的文本
        text = ''
        for para in doc.paragraphs:
            text += para.text

        # 查找关键词并输出结果
        if keyword in text:
            print(f'{file} 中包含关键词 {keyword}')

代码的具体说明:
1. 导入python-docx库和os库;
2. 设置Word文件所在文件夹路径和关键词;
3. 遍历文件夹内所有Word文件,打开Word文档;
4. 提取Word文档内全部段落的文本并储存在字符串 text 中;
5. 查找 text 中是否包含关键词 keyword,如果包含则输出结果。

三、示例说明

示例一

在文件夹 D:\word_files 内有以下三个Word文档:

- test1.docx
- test2.docx
- test3.docx
from docx import Document
import os

# 设置Word文件所在文件夹路径和关键词
file_dir = 'D:/word_files'
keyword = '猫头鹰'

# 遍历文件夹内所有Word文件
for file in os.listdir(file_dir):
    if file.endswith('.docx'):
        # 打开Word文档
        doc = Document(file_dir + '/' + file)

        # 提取全部段落内的文本
        text = ''
        for para in doc.paragraphs:
            text += para.text

        # 查找关键词并输出结果
        if keyword in text:
            print(f'{file} 中包含关键词 {keyword}')

执行结果:

test1.docx 中包含关键词 猫头鹰
test3.docx 中包含关键词 猫头鹰

其中,test1.docxtest3.docx 中包含了关键词 猫头鹰,而 test2.docx 中没有包含该关键词,所以没有输出结果。

示例二

在文件夹 D:\word_files 内有以下三个Word文档:

- document1.docx
- document2.docx
- document3.docx
from docx import Document
import os

# 设置Word文件所在文件夹路径和关键词
file_dir = 'D:/word_files'
keyword = 'Python'

# 遍历文件夹内所有Word文件
for file in os.listdir(file_dir):
    if file.endswith('.docx'):
        # 打开Word文档
        doc = Document(file_dir + '/' + file)

        # 提取全部段落内的文本
        text = ''
        for para in doc.paragraphs:
            text += para.text

        # 查找关键词并输出结果
        if keyword in text:
            print(f'{file} 中包含关键词 {keyword}')

执行结果:

document2.docx 中包含关键词 Python

其中,document2.docx 中包含了关键词 Python,而 document1.docxdocument3.docx 中没有包含该关键词,所以没有输出结果。

希望这个攻略能对您有所帮助。

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:python批量提取word内信息 - Python技术站

(0)
上一篇 2023年6月3日
下一篇 2023年6月3日

相关文章

  • 推荐五个常用的python图像处理库

    下面是推荐五个常用的Python图像处理库的攻略。 1. Pillow Pillow是Python Imaging Library (PIL) 的一个克隆版本,可以很方便的处理一些图像操作,比如加载图像、调整大小、旋转、裁剪、增加滤镜等等。下面是一个示例代码演示如何使用Pillow进行图像旋转和缩放操作: from PIL import Image # 读取…

    python 2023年5月18日
    00
  • 4种方法python批量修改替换列表中元素

    当我们需要对Python中的列表进行批量修改或替换时,有多种方法可以实现。本文将详细讲解4种常用的方法,包括使用循环、列表推导式、map函数和numpy库。 方法一:使用循环 使用循环是一种基本的方法,可以遍历列表中的每个元素,并对其进行修改或替换。下面是一个简单的示例: # 示例1:使用循环批量修改列表中的元素 lst = [1, 2, 3,4, 5] f…

    python 2023年5月13日
    00
  • python排序算法之希尔排序

    Python排序算法之希尔排序 简介 希尔排序(Shell sort)是插入排序的一种高效的改进算法,也被称为“缩小增量排序”。 希尔排序相比于插入排序,主要是通过将序列分割成若干个子序列,对每个子序列进行直接插入排序,使得间隔某个“增量”的元素为有序,再将子序列合并,使得整个序列有序。 实现步骤 确定增量序列d。 按照增量序列将列表分成若干子序列。 对子序…

    python 2023年6月5日
    00
  • 让python同时兼容python2和python3的8个技巧分享

    以下是让python同时兼容python2和python3的8个技巧分享的详细攻略: 1. 引入__future__模块 在Python 2中,可以使用__future__模块来使用Python 3中的特性,这样可以提高代码在Python 2和Python 3之间的兼容性。在Python 2的顶部加入以下代码: from __future__ import …

    python 2023年6月3日
    00
  • 改变 Python 中线程执行顺序的方法

    当我们在 Python 中使用多线程时,默认情况下,线程的执行顺序是不可控的。但是,当我们需要控制线程的执行顺序时,可以使用以下方法: 1. 使用 threading.Lock() 在 Python 中,threading.Lock() 用于控制线程的访问顺序,使得同一时间只有一个线程可以访问共享资源。我们可以通过以下方式来改变 Python 中线程的执行顺…

    python 2023年5月19日
    00
  • python 3的数据库?

    【问题标题】:A database for python 3?python 3的数据库? 【发布时间】:2023-04-05 10:36:01 【问题描述】: 我正在编写一个供多个用户个人使用的服务器软件。不是数百个,也不是数千个,但一次可能有 3-10 个。 因为它是一个线程服务器,所以 SQLite 不能工作。它抱怨这样的线程: ProgrammingE…

    Python开发 2023年4月5日
    00
  • Python实现利用163邮箱远程关电脑脚本

    利用163邮箱远程关电脑脚本是指使用Python编写的一些脚本,可以通过发送邮件到指定的163邮箱,实现远程关机的功能。本文将详细讲解如何使用Python实现利用163邮箱远程关电脑脚本的完整攻略,包括以下几个方面: 创建163邮箱 配置电脑 编写Python脚本 实践示例 创建163邮箱 在使用163邮箱远程关电脑脚本之前,需要创建一个163邮箱。可以访问…

    python 2023年5月15日
    00
  • Python爬取城市租房信息实战分享

    Python爬取城市租房信息实战分享 1. 概述 本篇文章将介绍如何使用Python语言爬取城市租房信息的过程。本文使用的是Python 3.x版本和requests库、BeautifulSoup库和pandas库等。 具体的操作包括向目标网站发送HTTP请求,解析响应内容,提取目标数据和存储数据等步骤。 2. 准备工作 在开始爬虫之前,需要安装相应的库和软…

    python 2023年5月14日
    00
合作推广
合作推广
分享本页
返回顶部