python pandas query的使用方法

当我们需要从一份数据中查询出符合特定条件的数据时，就可以使用pandasi的query功能了。query功能基于类似SQL的语法，在python中使用起来非常方便。下面是python pandas query的使用方法的完整攻略:

1. 确认数据格式

在使用query方法之前，我们需要确保数据是DataFrame格式。如果数据并不是DataFrame，请先使用相关方法将其转化为DataFrame。

import pandas as pd

# 举例：使用read_csv方法读取csv文件，将其转化为DataFrame
data = pd.read_csv("data.csv")
df = pd.DataFrame(data)

2. 使用查询串

我们需要构造查询串，将其传入query方法中，方法会根据查询串返回符合条件的数据集。

2.1 基本语法

查询串的语法类似于SQL查询语句，基本语法如下：

df.query('expression')

其中，expression是查询串，可以使用类似SQL查询语句中WHERE子句的表达式。

2.2 查询语句的表达式

查询语句中的表达式包括以下部分：

变量的引用
运算符
值

在查询语句中可以使用的运算符包括：

运算符	说明
==	等于
!=	不等于
>	大于
<	小于
>=	大于等于
<=	小于等于
&	and

~	not

例如，查询df中age列大于18的行，可以使用以下查询语句：

result = df.query('age > 18')

2.3 在查询语句中使用变量

在查询语句中可以使用变量，变量需要以“@”符号开头。例如，查询df中age列大于18并且gender列等于'Male'的行，可以使用以下查询语句：

result = df.query('age > 18 and gender == @Male')

3. 示例说明

下面给出两个查询实例，说明了query方法的使用方法。

3.1 示例一

假设我们有以下数据：

data = {
    'student_id': [1, 2, 3, 4, 5],
    'name': ['张三', '李四', '王五', '赵六', '孙七'],
    'age': [18, 19, 20, 21, 22],
    'gender': ['Male', 'Male', 'Female', 'Male', 'Female']
}
df = pd.DataFrame(data)

我们需要查询出年龄大于等于20岁的男性学生列表，即查询出age列大于等于20并且gender列等于'Male'的行。可以使用以下代码：

result = df.query('age >= 20 and gender == @Male')

3.2 示例二

假设我们有以下数据：

data = {
    'No.': ['A1', 'A2', 'B1', 'B2', 'B3', 'C1', 'C2', 'C3'],
    'value': [100, 200, 150, 250, 300, 170, 180, 190]
}
df = pd.DataFrame(data)

我们需要查询出No列中以'B'开头的行的value列值的平均值。可以使用以下代码：

result = df.query('No.str.startswith("B")', engine='python').mean()

其中，使用No.str.startswith("B")函数判断No列值是否以'B'字符开头。

通过以上示例，相信你已经可以熟练安装使用pandas中的query方法了。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：python pandas query的使用方法 - Python技术站