如何利用python批量提取txt文本中所需文本并写入excel

yizhihongxing

这里给出如何利用Python批量提取txt文本中所需文本并写入Excel的攻略,共分为五个步骤。

第一步

首先需要安装两个Python库,它们分别是pandas和glob,pandas用于将提取的内容写入Excel,glob用于遍历目标文件夹中的所有文件。

import pandas as pd
import glob

第二步

使用glob库来遍历目标文件夹下的所有txt文件,并逐个读取其文本。

# 遍历指定文件夹下的所有txt文件,用file_path来存储每个文件的路径
file_path_list = glob.glob("目标文件夹/*.txt")

# 用data_list列表存储所有文件中的所有文本内容
data_list = []
for fp in file_path_list:
    with open(fp, 'r', encoding='utf-8') as f:
        data = f.read()
        data_list.append(data)

第三步

对读取的文本进行处理,提取需要的内容。

# 对每个文件中的文本进行处理,并将处理结果存储在一个列表中
processed_data_list = []
for data in data_list:
    # 根据文本特点,使用正则表达式来提取需要的内容,并将其存储到processed_data_list列表中
    processed_data = process_text(data)
    processed_data_list.append(processed_data)

第四步

将提取的内容写入Excel。

# 将processed_data_list列表中所有元素依次写入Excel第一列中
df = pd.DataFrame(processed_data_list, columns=["数据"])
df.to_excel("结果.xlsx", index=False)

第五步

完整代码示例:

import pandas as pd
import glob

# 遍历指定文件夹下的所有txt文件,用file_path来存储每个文件的路径
file_path_list = glob.glob("目标文件夹/*.txt")

# 用data_list列表存储所有文件中的所有文本内容
data_list = []
for fp in file_path_list:
    with open(fp, 'r', encoding='utf-8') as f:
        data = f.read()
        data_list.append(data)

# 对每个文件中的文本进行处理,并将处理结果存储在一个列表中
processed_data_list = []
for data in data_list:
    # 根据文本特点,使用正则表达式来提取需要的内容,并将其存储到processed_data_list列表中
    processed_data = process_text(data)
    processed_data_list.append(processed_data)

# 将processed_data_list列表中所有元素依次写入Excel第一列中
df = pd.DataFrame(processed_data_list, columns=["数据"])
df.to_excel("结果.xlsx", index=False)

其中,process_text函数需要根据实际情况自己编写,其目的是对提取的文本进行处理、提取需要的内容。以下是两个示例:

示例1

假设目标文本中每行都有一个数字,现在需要提取这些数字,并将它们存储到一个列表中。

import re

def process_text(data):
    # 使用正则表达式提取文本中所有数字,并将它们存储在一个列表中
    pattern = r'\d+'
    numbers = re.findall(pattern, data)
    return numbers

示例2

假设目标文本中有很多行文字,每行文字中都有一些关键词,现在需要提取每行文字中的关键词,并将它们用逗号拼接起来,最终形成一个字符串。

def process_text(data):
    # 根据文本中的特点,使用split函数将文本拆分成多行
    lines = data.split('\n')
    final_result = []
    for line in lines:
        # 对每一行使用split函数拆分成多个单词,然后筛选出关键词存储到result列表中
        words = line.split(' ')
        result = []
        for word in words:
            if "关键词" in word:
                result.append(word)
        # 最后将result中的关键词用逗号拼接起来,存储到final_result列表中
        final_result.append(','.join(result))
    # 返回拼接好的字符串列表
    return final_result

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:如何利用python批量提取txt文本中所需文本并写入excel - Python技术站

(0)
上一篇 2023年5月14日
下一篇 2023年5月14日

相关文章

  • Pandas最常用的7种字符串处理方法

    Pandas是一个强大的数据处理工具,除了能处理数值和时间序列等数据类型外,还能够方便地处理字符串数据。 常用的字符串处理函数如下表所示: 函数名称 函数功能说明 lower() 将的字符串转换为小写。 upper() 将的字符串转换为大写。 len() 得出字符串的长度。 strip() 去除字符串两边的空格(包含换行符)。 split() 用指定的分割符…

    Pandas 2023年3月5日
    00
  • Pandas 读写json

    下面是详细讲解Pandas读写json的完整攻略: 准备工作 在使用Pandas读写json文件之前,需要确保已经安装了Pandas库以及相关的json库。可以使用以下命令来安装: pip install pandas pip install json 读取json文件 Pandas提供了read_json()方法来读取json文件。可以使用以下命令来读取j…

    python-answer 2023年3月27日
    00
  • 使用merge()连接两个Pandas DataFrames

    使用merge()函数连接两个Pandas DataFrames的过程如下: 准备数据 假设我们有两个数据集,分别是employees和departments。employees数据集包含雇员的基本信息,而departments数据集包含部门的基本信息。 import pandas as pd # 定义employees数据集 employees = pd.…

    python-answer 2023年3月27日
    00
  • 从Pandas数据框架的某一列获取唯一值

    获取Pandas数据框架中某一列的唯一值可以使用Pandas库中的unique()方法。下面是详细的攻略流程: 1.首先,导入必要的Python库,包括Pandas和NumPy: import pandas as pd import numpy as np 2.加载数据。可以使用read_csv()方法将数据从路径加载到Pandas数据框架中: data =…

    python-answer 2023年3月27日
    00
  • Pandas替换及部分替换(replace)实现流程详解

    Pandas替换及部分替换(replace)实现流程详解 replace()方法 str.replace()方法 总结 Pandas替换及部分替换(replace)实现流程详解 在数据清洗的过程中,替换成为常用的操作之一。Pandas提供了多种替换实现方式,如replace()和str.replace()等方法。 1. replace()方法 replace…

    python 2023年5月14日
    00
  • python plotly画柱状图代码实例

    下面是详细的“Python Plotly画柱状图代码实例”的攻略: 准备工作 在开始画图之前,我们需要确保准备好了以下两项工作: 安装plotly库:我们可以使用pip install plotly进行安装,如果你使用的是Jupyter Notebook,还需要使用jupyter labextension install @jupyterlab/plotly…

    python 2023年6月13日
    00
  • Python Pandas数据中对时间的操作

    下面是详细的讲解: 1. Pandas中对时间的操作简介 Pandas是Python数据分析库中最为常用的一款,在其设计中,对于时间的处理方式也是独具匠心。可以非常方便地实现时间序列数据的处理,从而更加便利地进行数据分析、统计以及可视化等操作。 Pandas处理时间数据主要有以下方面:1. 生成时间序列2. 时间的索引和切片3. 时间的重采样4. 时间的移动…

    python 2023年5月14日
    00
  • Python pandas DataFrame操作的实现代码

    Python pandas DataFrame 操作的实现代码攻略 为了进行Python pandas DataFrame操作,首先需要导入pandas模块。常用的pandas模块操作有以下几种: 创建DataFrame:在pandas模块中,可以通过list、dict和CSV文件创建DataFrame。 读取CSV文件并创建DataFrame:pandas…

    python 2023年5月14日
    00
合作推广
合作推广
分享本页
返回顶部