下面我将为您提供“Python批量提取Word内信息”的完整攻略。
一、准备工作
- 安装python-docx库
pip install python-docx
- 准备需要批量提取信息的Word文档
二、代码实现
以下是代码示例:
from docx import Document
import os
# 设置Word文件所在文件夹路径和关键词
file_dir = '文件夹路径'
keyword = '关键词'
# 遍历文件夹内所有Word文件
for file in os.listdir(file_dir):
if file.endswith('.docx'):
# 打开Word文档
doc = Document(file_dir + '/' + file)
# 提取全部段落内的文本
text = ''
for para in doc.paragraphs:
text += para.text
# 查找关键词并输出结果
if keyword in text:
print(f'{file} 中包含关键词 {keyword}')
代码的具体说明:
1. 导入python-docx库和os库;
2. 设置Word文件所在文件夹路径和关键词;
3. 遍历文件夹内所有Word文件,打开Word文档;
4. 提取Word文档内全部段落的文本并储存在字符串 text
中;
5. 查找 text
中是否包含关键词 keyword
,如果包含则输出结果。
三、示例说明
示例一
在文件夹 D:\word_files
内有以下三个Word文档:
- test1.docx
- test2.docx
- test3.docx
from docx import Document
import os
# 设置Word文件所在文件夹路径和关键词
file_dir = 'D:/word_files'
keyword = '猫头鹰'
# 遍历文件夹内所有Word文件
for file in os.listdir(file_dir):
if file.endswith('.docx'):
# 打开Word文档
doc = Document(file_dir + '/' + file)
# 提取全部段落内的文本
text = ''
for para in doc.paragraphs:
text += para.text
# 查找关键词并输出结果
if keyword in text:
print(f'{file} 中包含关键词 {keyword}')
执行结果:
test1.docx 中包含关键词 猫头鹰
test3.docx 中包含关键词 猫头鹰
其中,test1.docx
和 test3.docx
中包含了关键词 猫头鹰
,而 test2.docx
中没有包含该关键词,所以没有输出结果。
示例二
在文件夹 D:\word_files
内有以下三个Word文档:
- document1.docx
- document2.docx
- document3.docx
from docx import Document
import os
# 设置Word文件所在文件夹路径和关键词
file_dir = 'D:/word_files'
keyword = 'Python'
# 遍历文件夹内所有Word文件
for file in os.listdir(file_dir):
if file.endswith('.docx'):
# 打开Word文档
doc = Document(file_dir + '/' + file)
# 提取全部段落内的文本
text = ''
for para in doc.paragraphs:
text += para.text
# 查找关键词并输出结果
if keyword in text:
print(f'{file} 中包含关键词 {keyword}')
执行结果:
document2.docx 中包含关键词 Python
其中,document2.docx
中包含了关键词 Python
,而 document1.docx
和 document3.docx
中没有包含该关键词,所以没有输出结果。
希望这个攻略能对您有所帮助。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:python批量提取word内信息 - Python技术站