基于索引过滤Pandas数据框架

2023年3月27日下午3:05 • python-answer

下面是详细讲解基于索引过滤Pandas数据框架的完整攻略：

一、背景知识

在使用 Pandas 数据框架进行数据分析工作时，经常需要对数据按照某些条件进行筛选，并进行数据的处理和分析。而在 Pandas 中，使用索引来过滤数据是一种常见的方式，它可以方便快捷地对数据进行筛选，提高数据分析的效率。

二、基本语法

基于索引过滤 Pandas 数据框架的基本语法如下：

DataFrame.loc[row_indexer, column_indexer]

其中，row_indexer 表示行索引器，用于选取数据框架中的行；column_indexer 表示列索引器，用于选取数据框架中的列。

除了使用 loc 方法，还可以使用 iloc 方法来进行索引过滤操作。不过，相较于 iloc 方法，loc 方法更为灵活，可以根据标签进行索引过滤，而 iloc 方法只能使用整数进行索引过滤。

三、实例说明

下面，我们以一个简单的数据集为例进行讲解，以便更好地理解基于索引过滤 Pandas 数据框架的操作。

import pandas as pd

# 创建数据集
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'David', 'Emily'],
    'gender': ['F', 'M', 'M', 'M', 'F'],
    'height': [165, 176, 180, 182, 158],
    'weight': [62, 72, 85, 78, 56],
    'score': [85, 90, 92, 89, 95]
}

df = pd.DataFrame(data)

我们看一下上述代码创建的数据集 df：

       name gender  height  weight  score
0     Alice      F     165      62     85
1       Bob      M     176      72     90
2   Charlie      M     180      85     92
3     David      M     182      78     89
4     Emily      F     158      56     95

现在，假设我们需要选取 df 数据集中的一部分数据进行分析，我们可以使用上述提到的 loc 方法或 iloc 方法进行数据过滤。

1. 索引过滤指定行、指定列

如果只需要选取 df 数据集中的一部分行和一部分列进行分析，可以使用以下语法：

# 索引过滤指定行和指定列
df.loc[1:3, ['name', 'gender', 'score']]

运行结果为：

      name gender  score
1      Bob      M     90
2  Charlie      M     92
3    David      M     89

这里我们选取了 df 数据集中的 2-4 行和 name、gender、score 三列进行分析，即输出 df 数据集中 2-4 行，以及 name、gender、score 三列数据。

2. 索引过滤指定行、全部列

如果只需要选取 df 数据集中的一部分行，但是需要输出 df 数据集中的全部列进行分析，可以使用以下语法：

# 索引过滤指定行，全部列
df.loc[1:3, :]

运行结果为：

      name gender  height  weight  score
1      Bob      M     176      72     90
2  Charlie      M     180      85     92
3    David      M     182      78     89

这里我们选取了 df 数据集中的 2-4 行，并输出了 df 数据集中的全部列进行分析。

3. 索引过滤指定列、全部行

如果只需要选取 df 数据集中的一部分列，但是需要输出 df 数据集中的全部行进行分析，可以使用以下语法：

# 索引过滤指定列，全部行
df.loc[:, ['name', 'score']]

运行结果为：

      name  score
0    Alice     85
1      Bob     90
2  Charlie     92
3    David     89
4    Emily     95

这里我们选取了 df 数据集中的 name、score 两列，并输出了 df 数据集中的全部行进行分析。

4. 索引过滤指定行、指定列并进行修改

如果需要对选取的数据进行修改，可以在上述例子的基础上加入修改代码来实现。例如，我们选择第 2-4 行和第 1、3 列的数据进行修改，将选取的其中一部分数据的 score 值加上 5 分：

# 索引过滤指定行和指定列，并进行修改
df.loc[1:3, ['score']] += 5

修改后的 df 数据集为：

      name gender  height  weight  score
0    Alice      F     165      62     85
1      Bob      M     176      72     95
2  Charlie      M     180      85     97
3    David      M     182      78     94
4    Emily      F     158      56     95