【pandas基础】–数据检索

pandas的数据检索功能是其最基础也是最重要的功能之一。

pandas中最常用的几种数据过滤方式如下:

  1. 行列过滤:选取指定的行或者列
  2. 条件过滤:对列的数据设置过滤条件
  3. 函数过滤:通过函数设置更加复杂的过滤条件

本篇所有示例所使用的测试数据如下:

import pandas as pd
import numpy as np

fp = "http://databook.top:8888/pandas/cn-people.csv"
df = pd.read_csv(fp)
df

image.png

1. 行列过滤

pandas中最常用的按行或者按列选择数据的函数是 lociloc

1.1 loc 函数

loc函数通过标签索引选择行列数据,可以在一个语句中同时指定行和列的条件。
按范围选取行:

df.loc([1:5, :])

image.png

选取指定的行:

df.loc[[1, 5], :]

image.png

按范围选取列:

df.loc[:, "年份":"指标中文"]

image.png

选取指定的列:

df.loc[:, ["年份","指标中文"]]

image.png

行和列也可以同时设置:

df.loc[1:3, ["年份","指标中文"]]

image.png

1.2 iloc 函数

iloc函数通过整数位置索引选择行列数据。
这种方法与loc方法类似,但是它使用整数位置而不是标签。

按范围选择行:

df.iloc([1:5, :])

image.png
注意这里可以看出ilocloc的区别,同样的范围[1:5]
iloc不包括index=5的数据,而loc包括index=5的数据。

选择指定的行:

df.iloc[[1, 5], :]

image.png
这种选择方式下,ilocloc函数返回的结果是一样的。

按范围选择列:

df.iloc[:, 0:3]

image.png
注意,这里是 ilocloc的另一个区别,
iloc只能用数字序列来表示列的范围(第一列对应数字0),
回顾之前的loc函数,我们可以用列名来表示范围的df.loc[:, "年份":"指标中文"]

另外,iloc表示列的范围0:3表示是0,1,2三列,不包括3这一列。

选择指定的列:

df.iloc[:, [0, 2]]

image.png

loc一样,iloc也可以行和列同时设置:

df.iloc[1:5, [0, 2]]

image.png

2. 条件过滤

行列过滤的方式是基于索引和列名称来过滤的,除此之外,还可以根据列的值来过滤。
这也是分析时常用的过滤方式。

2.1 单条件

根据列的值来过滤,列的值是数值还是字符串都可以。

df[df["年份"] > 2020]

image.png

字符串的过滤方式:

df[df["指标中文"].str.contains("乡村")].head()

image.png

2.2 多条件

除了设置单独的条件之外,也支持通过逻辑符号&|来设置多个条件。

df[(df["年份"] > 2020) & (df["指标中文"].str.contains("乡村"))]

image.png
必须同时满足年份>2021指标中文包含乡村两个条件的数据,只有1条。

df[(df["年份"] > 2020) | (df["指标中文"].str.contains("乡村"))].head(6)

image.png
只要满足年份>2021指标中文包含乡村两个条件之一的数据。

3. 函数过滤

pandas中还有两种通过函数来过滤和转换数据的方式,这种方式可以将自定义的函数应用到数据之上。
这样就提供了相当灵活的数据操作方式。

3.1 apply

针对DataFrame某一列数据的apply
比如下面的示例增加一列,其值是将value列的数据放大10倍:

df["value10倍"] = df["value"].apply(lambda x: x*10)
df

image.png

3.2 map

针对DataFrame某一列数据的map
比如下面的示例增加一列,其值是设置指标中文的缩写。

df["指标缩写"] = df["指标中文"].map({"年末总人口": "总人口", "乡村人口": "乡村"})
df

image.png

4. 总结回顾

本篇主要介绍了pandas数据检索的常用方式,数据检索是做分析时最常用的步骤。
通过数据过滤方法,快速确定用于分析的数据范围,剥离无用的数据,提高分析的效率。

数据检索方式由易到难分别为:

  1. 行列过滤,lociloc
  2. 条件过滤,单条件和多条件过滤
  3. 函数过滤,自定义函数灵活的调整已有列的数据

本文关联的微信视频号短视频:
pandas03-数据检索.png

原文链接:https://www.cnblogs.com/wang_yb/p/17388485.html

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:【pandas基础】–数据检索 - Python技术站

(0)
上一篇 2023年5月10日
下一篇 2023年5月10日

相关文章

  • Python使用字典实现的简单记事本功能示例

    以下是详细的Python使用字典实现的简单记事本功能示例攻略。 简介 在Python中,字典是一种非常常用的数据类型,它可以将键值对进行映射。这种特性使得字典在实现小型记事本功能时非常方便。下面就以Python使用字典实现的简单记事本功能示例为例,详细讲解实现的过程。 实现过程 首先,需要确定我们要实现的记事本具有哪些基本功能。一般而言,我们需要实现如下功能…

    python 2023年6月3日
    00
  • 全网最全python库selenium自动化使用详细教程

    全网最全Python库selenium自动化使用详细教程 什么是selenium? Selenium是一款自动化测试工具,支持多种浏览器,包括Chrome,Firefox,Safari等。通过Selenium,可以自动化测试网站的功能,包括单击、输入文本等常见的测试操作。Selenium通过WebDriver控制浏览器,并提供一系列API,方便用户进行自动化…

    python 2023年5月14日
    00
  • Python如何将list中的string转换为int

    以下是“Python如何将list中的string转换为int”的完整攻略。 1. 使用for循环和int()函数 可以使用for循环遍历列表中的每个元素,并使用int()函数将其转换为整数。 my_list = [‘1’, ‘2’, ‘3’, ‘4’, ‘5’] new_list = [] for item in my_list: new_list.app…

    python 2023年5月13日
    00
  • 分分钟入门python语言

    分分钟入门Python语言攻略 为什么选择Python语言 Python语言自诞生以来,广受欢迎,已成为最受欢迎的编程语言之一。Python语言的优势在于其简洁易学,代码可读性强,同时也有丰富的库和工具支持。Python语言也被广泛应用于数据分析、人工智能、Web应用和游戏开发等领域。 安装和配置Python 在开始Python编程之前,需要先安装Pytho…

    python 2023年5月13日
    00
  • Pandas保存csv数据的三种方式详解

    Pandas保存CSV数据的三种方式详解 Pandas是一款数据分析工具,它非常简单、易于使用,广泛应用于数据操作和分析中。而CSV(Comma Separated Value)是一种轻量级的数据交换格式。在Pandas中,我们经常需要将数据保存为CSV格式。 本文将详细讲解Pandas保存CSV数据的三种方式。 使用to_csv()方法 使用Pandas的…

    python 2023年5月13日
    00
  • baselines示例程序train_cartpole.py的ImportError

    首先我们需要了解一下baselines是什么。baselines 是开源的深度增强学习工具包,旨在通过起点代码和强化学习最新技术的易于使用的实现来加速研究进展。train_cartpole.py 是其中一个示例程序,用来演示 OpenAI gym CartPole-v0 环境。当我们在执行该程序时,有时会遇到 ImportError 的错误。 下面是解决 t…

    python 2023年5月13日
    00
  • 全网最新用python实现各种文件类型转换的方法

    全网最新用Python实现各种文件类型转换的方法 在Python中,我们可以使用各种库来实现文件类型转换,例如Pillow库、ffmpeg库、pywin32库等等。下面我们来分别介绍一下这些库,并且给出两条示例说明。 Pillow库 Pillow是Python Imaging Library(PIL)的替代品,是一个强大的图像处理库。我们可以使用Pillow…

    python 2023年6月2日
    00
  • python工具模块介绍-time 时间访问和转换

    快速入门 In [1]: import time # 获取当前时间 In [25]: time.strftime(“%Y-%m-%d_%H-%M-%S”, time.localtime()) Out[25]: ‘2018-06-17_20-05-36’ # 停顿0.5秒 In [26]: time.sleep(0.5) 简介 功能:时间访问和转换。 相关模块…

    python 2023年4月25日
    00
合作推广
合作推广
分享本页
返回顶部