如何利用python批量提取txt文本中所需文本并写入excel

这里给出如何利用Python批量提取txt文本中所需文本并写入Excel的攻略,共分为五个步骤。

第一步

首先需要安装两个Python库,它们分别是pandas和glob,pandas用于将提取的内容写入Excel,glob用于遍历目标文件夹中的所有文件。

import pandas as pd
import glob

第二步

使用glob库来遍历目标文件夹下的所有txt文件,并逐个读取其文本。

# 遍历指定文件夹下的所有txt文件,用file_path来存储每个文件的路径
file_path_list = glob.glob("目标文件夹/*.txt")

# 用data_list列表存储所有文件中的所有文本内容
data_list = []
for fp in file_path_list:
    with open(fp, 'r', encoding='utf-8') as f:
        data = f.read()
        data_list.append(data)

第三步

对读取的文本进行处理,提取需要的内容。

# 对每个文件中的文本进行处理,并将处理结果存储在一个列表中
processed_data_list = []
for data in data_list:
    # 根据文本特点,使用正则表达式来提取需要的内容,并将其存储到processed_data_list列表中
    processed_data = process_text(data)
    processed_data_list.append(processed_data)

第四步

将提取的内容写入Excel。

# 将processed_data_list列表中所有元素依次写入Excel第一列中
df = pd.DataFrame(processed_data_list, columns=["数据"])
df.to_excel("结果.xlsx", index=False)

第五步

完整代码示例:

import pandas as pd
import glob

# 遍历指定文件夹下的所有txt文件,用file_path来存储每个文件的路径
file_path_list = glob.glob("目标文件夹/*.txt")

# 用data_list列表存储所有文件中的所有文本内容
data_list = []
for fp in file_path_list:
    with open(fp, 'r', encoding='utf-8') as f:
        data = f.read()
        data_list.append(data)

# 对每个文件中的文本进行处理,并将处理结果存储在一个列表中
processed_data_list = []
for data in data_list:
    # 根据文本特点,使用正则表达式来提取需要的内容,并将其存储到processed_data_list列表中
    processed_data = process_text(data)
    processed_data_list.append(processed_data)

# 将processed_data_list列表中所有元素依次写入Excel第一列中
df = pd.DataFrame(processed_data_list, columns=["数据"])
df.to_excel("结果.xlsx", index=False)

其中,process_text函数需要根据实际情况自己编写,其目的是对提取的文本进行处理、提取需要的内容。以下是两个示例:

示例1

假设目标文本中每行都有一个数字,现在需要提取这些数字,并将它们存储到一个列表中。

import re

def process_text(data):
    # 使用正则表达式提取文本中所有数字,并将它们存储在一个列表中
    pattern = r'\d+'
    numbers = re.findall(pattern, data)
    return numbers

示例2

假设目标文本中有很多行文字,每行文字中都有一些关键词,现在需要提取每行文字中的关键词,并将它们用逗号拼接起来,最终形成一个字符串。

def process_text(data):
    # 根据文本中的特点,使用split函数将文本拆分成多行
    lines = data.split('\n')
    final_result = []
    for line in lines:
        # 对每一行使用split函数拆分成多个单词,然后筛选出关键词存储到result列表中
        words = line.split(' ')
        result = []
        for word in words:
            if "关键词" in word:
                result.append(word)
        # 最后将result中的关键词用逗号拼接起来,存储到final_result列表中
        final_result.append(','.join(result))
    # 返回拼接好的字符串列表
    return final_result
阅读剩余 58%

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:如何利用python批量提取txt文本中所需文本并写入excel - Python技术站

(0)
上一篇 2023年5月14日
下一篇 2023年5月14日

相关文章

  • pandas.DataFrame.drop_duplicates 用法介绍

    pandas.DataFrame.drop_duplicates用法介绍 介绍 pandas.DataFrame.drop_duplicates()方法返回一个DataFrame,其中包含DataFrame重复行的条目。在数据处理中,通常需要删除重复的行,以保证数据的一致性和准确性。 语法 DataFrame.drop_duplicates(subset=N…

    python 2023年5月14日
    00
  • 浅谈python数据类型及类型转换

    这里是详细讲解“浅谈python数据类型及类型转换”的完整攻略。 一、Python数据类型 Python中常见的数据类型有以下几种: 1. 整型(int) Python中可以表示整数,例如:1, 2, 3, 4等等。整型是可以进行数值运算的。 2. 浮点型(float) 浮点型可以表示小数,例如:1.2, 3.5, 6.7等等。浮点型也是可以进行数值运算的。…

    python 2023年5月14日
    00
  • Pandas 如何处理DataFrame中的inf值

    当在 Pandas 中操作 DataFrame 时,有可能会出现缺失值或者无穷值。本篇攻略就是要解决如何处理 DataFrame 中的 inf 值,这个问题需要我们分几步来解决。 如何检查 DataFrame 中是否存在 inf 值 我们可以使用 Pandas 中的 isinf 函数来判断 DataFrame 中是否有无穷值。以下是一个简单的示例: impo…

    python 2023年6月13日
    00
  • 如何用pandas处理hdf5文件

    下面是详细讲解如何用pandas处理hdf5文件的完整攻略: 什么是HDF5文件 HDF5文件是一种具有高度可扩展性和可移植性的数据格式,通常用于存储和管理大量结构化数据。HDF5文件包含一个层次结构,其中可以存储多个数据集,并且数据集可以具有任意数量的轴。 如何使用pandas处理HDF5文件 Pandas提供了许多函数,可用于读取和写入HDF5文件。下面…

    python 2023年5月14日
    00
  • python批量设置多个Excel文件页眉页脚的脚本

    下面是关于“python批量设置多个Excel文件页眉页脚的脚本”的完整攻略。 1. 环境准备 首先,需要安装并配置Python的相关环境,建议使用Python3版本。同时,你可能需要使用额外的三方库——openpyxl和os。 可以使用pip命令来安装以上两个库: pip install openpyxl pip install os 2. 程序实现 下面…

    python 2023年6月13日
    00
  • Pandas GroupBy Unstack

    Pandas是一个基于NumPy的Python数据处理库,可以对数据进行多种形式的操作和处理。其中Groupby和Unstack是Pandas中用于数据处理的非常重要的函数。 GroupBy 背景 在实际数据处理中,经常需要将数据按照某种条件进行分组,例如将销售数据按照不同的城市进行分组分析,统计各城市的销售情况和市场占比等。Groupby函数可以很方便的完…

    python-answer 2023年3月27日
    00
  • pandas中read_sql使用参数进行数据查询的实现

    pandas是一款强大的Python数据分析框架。read_sql是pandas框架中用于查询数据库数据并返回结果的函数之一。通过read_sql函数,可以轻松地将SQL语句转换为pandas DataFrame。本篇攻略将会详细讲解如何使用pandas中read_sql函数进行参数化的数据查询。 准备工作 在使用pandas中的read_sql函数进行数据…

    python 2023年5月14日
    00
  • 将Pandas数据框架导出到Excel文件中

    导出Pandas数据框架到Excel文件通常是分析数据的重要一步。下面是完整的攻略: 安装必要的库 在导出数据到Excel之前,需要先安装必要的库,推荐使用pandas和openpyxl: pip install pandas openpyxl 如果因为网络问题安装失败,可以考虑换用镜像源,例如: pip install -i https://pypi.tu…

    python-answer 2023年3月27日
    00
合作推广
合作推广
分享本页
返回顶部