【pandas基础】–数据检索

pandas的数据检索功能是其最基础也是最重要的功能之一。

pandas中最常用的几种数据过滤方式如下:

  1. 行列过滤:选取指定的行或者列
  2. 条件过滤:对列的数据设置过滤条件
  3. 函数过滤:通过函数设置更加复杂的过滤条件

本篇所有示例所使用的测试数据如下:

import pandas as pd
import numpy as np

fp = "http://databook.top:8888/pandas/cn-people.csv"
df = pd.read_csv(fp)
df

image.png

1. 行列过滤

pandas中最常用的按行或者按列选择数据的函数是 lociloc

1.1 loc 函数

loc函数通过标签索引选择行列数据,可以在一个语句中同时指定行和列的条件。
按范围选取行:

df.loc([1:5, :])

image.png

选取指定的行:

df.loc[[1, 5], :]

image.png

按范围选取列:

df.loc[:, "年份":"指标中文"]

image.png

选取指定的列:

df.loc[:, ["年份","指标中文"]]

image.png

行和列也可以同时设置:

df.loc[1:3, ["年份","指标中文"]]

image.png

1.2 iloc 函数

iloc函数通过整数位置索引选择行列数据。
这种方法与loc方法类似,但是它使用整数位置而不是标签。

按范围选择行:

df.iloc([1:5, :])

image.png
注意这里可以看出ilocloc的区别,同样的范围[1:5]
iloc不包括index=5的数据,而loc包括index=5的数据。

选择指定的行:

df.iloc[[1, 5], :]

image.png
这种选择方式下,ilocloc函数返回的结果是一样的。

按范围选择列:

df.iloc[:, 0:3]

image.png
注意,这里是 ilocloc的另一个区别,
iloc只能用数字序列来表示列的范围(第一列对应数字0),
回顾之前的loc函数,我们可以用列名来表示范围的df.loc[:, "年份":"指标中文"]

另外,iloc表示列的范围0:3表示是0,1,2三列,不包括3这一列。

选择指定的列:

df.iloc[:, [0, 2]]

image.png

loc一样,iloc也可以行和列同时设置:

df.iloc[1:5, [0, 2]]

image.png

2. 条件过滤

行列过滤的方式是基于索引和列名称来过滤的,除此之外,还可以根据列的值来过滤。
这也是分析时常用的过滤方式。

2.1 单条件

根据列的值来过滤,列的值是数值还是字符串都可以。

df[df["年份"] > 2020]

image.png

字符串的过滤方式:

df[df["指标中文"].str.contains("乡村")].head()

image.png

2.2 多条件

除了设置单独的条件之外,也支持通过逻辑符号&|来设置多个条件。

df[(df["年份"] > 2020) & (df["指标中文"].str.contains("乡村"))]

image.png
必须同时满足年份>2021指标中文包含乡村两个条件的数据,只有1条。

df[(df["年份"] > 2020) | (df["指标中文"].str.contains("乡村"))].head(6)

image.png
只要满足年份>2021指标中文包含乡村两个条件之一的数据。

3. 函数过滤

pandas中还有两种通过函数来过滤和转换数据的方式,这种方式可以将自定义的函数应用到数据之上。
这样就提供了相当灵活的数据操作方式。

3.1 apply

针对DataFrame某一列数据的apply
比如下面的示例增加一列,其值是将value列的数据放大10倍:

df["value10倍"] = df["value"].apply(lambda x: x*10)
df

image.png

3.2 map

针对DataFrame某一列数据的map
比如下面的示例增加一列,其值是设置指标中文的缩写。

df["指标缩写"] = df["指标中文"].map({"年末总人口": "总人口", "乡村人口": "乡村"})
df

image.png

4. 总结回顾

本篇主要介绍了pandas数据检索的常用方式,数据检索是做分析时最常用的步骤。
通过数据过滤方法,快速确定用于分析的数据范围,剥离无用的数据,提高分析的效率。

数据检索方式由易到难分别为:

  1. 行列过滤,lociloc
  2. 条件过滤,单条件和多条件过滤
  3. 函数过滤,自定义函数灵活的调整已有列的数据

本文关联的微信视频号短视频:
pandas03-数据检索.png

原文链接:https://www.cnblogs.com/wang_yb/p/17388485.html

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:【pandas基础】–数据检索 - Python技术站

(0)
上一篇 2023年5月10日
下一篇 2023年5月10日

相关文章

  • Python练习-购物单

    Python练习-购物单是一道经典的Python编程题目,考验了应用者对Python基本语法的掌握程度以及对控制流、函数和数据类型等相关知识的理解。为了帮助大家完成这个练习,以下是完整的攻略说明。 题目描述 本练习的目标是根据一份购物清单,计算出一个人需要支付的总价。清单格式如下: 苹果 4.5 元/kg 香蕉 3.8 元/kg 西瓜 7.5 元/kg ..…

    python 2023年6月3日
    00
  • Python实现求解斐波那契第n项的解法(包括矩阵乘法+快速幂)

    以下是关于“Python实现求解斐波那契第n项的解法(包括矩阵乘法+快速幂)”的完整攻略: 简介 斐波那契数列是一个非常经典的数列,它的每一项都是前两项的和。在本教程中,我们将介绍Python实现求解斐波那契第n项的解法,包括矩阵乘法和快速幂两种方法。 矩阵乘法 矩阵乘法是一种高效的求解斐波那契数列的方法。我们可以使用矩阵乘法的方式来计算斐波那契数列的第n项…

    python 2023年5月14日
    00
  • 跟老齐学Python之啰嗦的除法

    在Python中,除法运算符/的结果可能会出现小数,这是因为Python默认使用浮点数进行除法运算。但是在某些情况下,我们需要使用整数进行除法运算,这时候就需要使用Python中的整除运算符//。 下面是“跟老齐学Python之啰嗦的除法”的完整攻略: 1. Python中的除法运算符 在Python中,除法运算符/的结果可能会出现小数,例如: >&g…

    python 2023年5月14日
    00
  • pandas 中对特征进行硬编码和onehot编码的实现

    在Pandas中,特征的硬编码和One-Hot编码可以通过使用get_dummies()方法来实现。 硬编码 在硬编码中,我们将非数字类型的特征转换为数字。例如,在一个房屋销售数据集中,如果我们需要将“房屋类型”从分类变量转换为数字,我们可以使用以下代码: import pandas as pd # 加载数据集 df = pd.read_csv(‘housi…

    python 2023年5月20日
    00
  • python基于tkinter点击按钮实现图片的切换

    下面是关于“python基于tkinter点击按钮实现图片的切换”的完整攻略: 步骤一:准备工作 在编写代码前,需要完成以下几个步骤: 确保你的计算机中已经安装了Python环境,并且安装了Tkinter库。 准备两张需要切换的图片,例如”image1.png”和”image2.png”。 将图片放置在你的Python脚本文件所在的文件夹中。 步骤二:导入必…

    python 2023年6月13日
    00
  • 使用python实现递归版汉诺塔示例(汉诺塔递归算法)

    下面是详细讲解“使用Python实现递归版汉诺塔示例(汉诺塔递归算法)”的完整攻略。 汉诺塔问题 汉诺塔问题是一个经典的递归问题,其问题描述如下: 有三个柱子A、B、C,A柱子上有n个盘子,盘子大小不等,大的在下,小的在上。现在要将A柱子上的盘子移动到C柱子上,移动过程中可以借助B柱子,但要求任何时刻都不能出现大盘子小盘子上方的情况。问如何移动才能完成任务?…

    python 2023年5月14日
    00
  • Python 实现定积分与二重定积分的操作

    下面是Python实现定积分和二重定积分操作的完整攻略: Markdown表达式 在给出使用Python实现定积分和二重积分的操作之前,我们先介绍一下如何在Markdown中表达数学公式和符号。Markdown使用LaTeX语言的数学公式表示法,可以很方便地表示各种数学公式和符号。 行内公式:公式在行内,用 $ 符号包围。 例如:$f(x)=\int_a^b…

    python 2023年6月3日
    00
  • Python 获得命令行参数的方法(推荐)

    Python 获得命令行参数的方法(推荐) Python 是一种高效、易学且分布式的语言,它可以用来编写各种应用程序,包括命令行工具。因此,获取命令行参数是 Python 中非常基础的操作之一。 基本使用方法 在 Python 中,获取命令行参数可以使用 sys.argv 方法。sys.argv 中的第一个参数表示脚本本身的名称,后面的参数依次表示命令行输入…

    python 2023年6月2日
    00
合作推广
合作推广
分享本页
返回顶部