以下是关于Python读取Word文档操作的完整攻略。
1. 安装依赖包
首先需要安装python-docx包,可以使用pip命令进行安装。
pip install python-docx
2. 读取Word文档
读取Word文档需要使用docx模块中的Document类。
from docx import Document
document = Document('example.docx')
以上代码使用Document类打开了一个名为“example.docx”的Word文档。需要注意的是,文件路径需要使用绝对路径或相对于当前工作目录的相对路径。
3. 读取文档内容
读取整个文档内容可以使用Document对象的paragraphs属性。paragraphs属性返回一个包含每个段落的Paragraph对象的列表。
for paragraph in document.paragraphs:
print(paragraph.text)
以上代码会将文档中所有段落的内容打印出来。
4. 读取表格内容
读取Word文档中的表格需要使用Table类。首先需要获取文档中所有的表格,然后遍历每个表格的单元格获取单元格内容。
for table in document.tables:
for row in table.rows:
for cell in row.cells:
print(cell.text)
以上代码会将文档中所有表格的单元格内容打印出来。
示例1:统计段落数量
下面的示例演示了如何读取一个Word文档,并计算文档中包含的段落数量。
from docx import Document
document = Document('example.docx')
count = 0
for paragraph in document.paragraphs:
count += 1
print('文档中段落数量为:', count)
以上代码会打印出包含在文档中的段落数量。
示例2:读取表格内容并保存为CSV文件
下面的示例演示了如何读取一个Word文档中的表格,并将表格内容保存为CSV文件。
from docx import Document
import csv
document = Document('example.docx')
csv_file = open('table_data.csv', 'w', newline='', encoding='utf-8')
writer = csv.writer(csv_file)
for table in document.tables:
for row in table.rows:
row_data = []
for cell in row.cells:
row_data.append(cell.text.strip())
writer.writerow(row_data)
csv_file.close()
以上代码打开一个名为“example.docx”的Word文档,查询文档中的表格,并将表格内容写入一个名为“table_data.csv”的CSV文件中。在上述代码中,使用了Python标准库中的csv模块。需要注意的是,csv文件需要用utf-8编码打开。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Python 读取 Word 文档操作 - Python技术站