python 文件读写和数据清洗

Python 文件读写和数据清洗是数据分析和机器学习过程中重要的一环。数据清洗过程中需要从外部文件读取数据，进行数据处理和转换，再输出到另一个文件中。在 Python 中，有多种方式可以进行文件读写和数据清洗的操作。

文件读写

打开文件

使用 Python 的内置函数 open 可以打开一个文本文件进行读写操作。open 接收两个参数：文件名和模式。模式可以是 'r'（只读模式）、'w'（写入模式）、'a'（追加模式）等。如果不传递模式参数，默认使用只读模式打开文件。

file = open('example.txt', 'r')

读取文件

可以使用 read() 方法读取文件对象中的内容。read() 方法以文件的第一个字符开始读取，直到文件末尾。例如：

file = open('example.txt', 'r')
content = file.read()
print(content)

在上面的示例中，我们首先使用 open() 函数打开文件 'example.txt' 并以只读模式读取它。然后使用 content = file.read() 读取文件的全部内容。最后，我们输出读取到的内容。

关闭文件

在完成文件的读写操作后，使用 close() 方法关闭文件对象，并释放系统资源。代码示例如下：

file = open('example.txt', 'r')
content = file.read()
print(content)
file.close()

数据清洗

使用 Python 读取文件后，我们需要进行数据清洗，包括去除无用的字符和空格，筛选出需要的数据等等。

去除无用字符和空格

对字符串进行清洗的常见操作包括去除无用的字符和空格。下面是一个简单的示例，读取一个文本文件并去除其中的换行符和空格：

with open('example.txt', 'r') as file:
    content = file.read()
    content = content.replace('\n', '')
    content = content.replace(' ', '')
    print(content)

在上面的示例中，我们打开名为 'example.txt' 的文件，并使用 with 语句打开文件后自动将其关闭。然后读取文件内容，并使用 replace() 方法逐一替换换行符和空格，最后输出清洗后的内容。

筛选出需要的数据

在数据清洗过程中，通常需要筛选出满足特定条件的数据。例如，我们要筛选出某个文本文件中所有长度大于 10 的单词，可以使用如下代码：

with open('example.txt', 'r') as file:
    content = file.read()
    words = content.split()  # 将文本内容进行分词
    selected_words = [word for word in words if len(word) > 10]  # 筛选满足条件的单词
    print(selected_words)

在上面的示例中，我们首先通过 file.read() 方法读取文本内容，然后使用 split() 方法对文本进行分词。接着，我们使用列表推导式 [word for word in words if len(word) > 10] 筛选出长度大于 10 的单词并存储在 selected_words 变量中。最后，我们输出选出的单词列表。

通过上述示例，我们了解了如何使用 Python 进行文件读写和数据清洗的相关操作。在实际项目中，我们需要根据不同的需求选择适合的读写方式和数据清洗技巧，来满足我们对数据的分析和处理需求。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：python 文件读写和数据清洗 - Python技术站