【pandas基础】–数据检索

pandas的数据检索功能是其最基础也是最重要的功能之一。

pandas中最常用的几种数据过滤方式如下:

  1. 行列过滤:选取指定的行或者列
  2. 条件过滤:对列的数据设置过滤条件
  3. 函数过滤:通过函数设置更加复杂的过滤条件

本篇所有示例所使用的测试数据如下:

import pandas as pd
import numpy as np

fp = "http://databook.top:8888/pandas/cn-people.csv"
df = pd.read_csv(fp)
df

image.png

1. 行列过滤

pandas中最常用的按行或者按列选择数据的函数是 lociloc

1.1 loc 函数

loc函数通过标签索引选择行列数据,可以在一个语句中同时指定行和列的条件。
按范围选取行:

df.loc([1:5, :])

image.png

选取指定的行:

df.loc[[1, 5], :]

image.png

按范围选取列:

df.loc[:, "年份":"指标中文"]

image.png

选取指定的列:

df.loc[:, ["年份","指标中文"]]

image.png

行和列也可以同时设置:

df.loc[1:3, ["年份","指标中文"]]

image.png

1.2 iloc 函数

iloc函数通过整数位置索引选择行列数据。
这种方法与loc方法类似,但是它使用整数位置而不是标签。

按范围选择行:

df.iloc([1:5, :])

image.png
注意这里可以看出ilocloc的区别,同样的范围[1:5]
iloc不包括index=5的数据,而loc包括index=5的数据。

选择指定的行:

df.iloc[[1, 5], :]

image.png
这种选择方式下,ilocloc函数返回的结果是一样的。

按范围选择列:

df.iloc[:, 0:3]

image.png
注意,这里是 ilocloc的另一个区别,
iloc只能用数字序列来表示列的范围(第一列对应数字0),
回顾之前的loc函数,我们可以用列名来表示范围的df.loc[:, "年份":"指标中文"]

另外,iloc表示列的范围0:3表示是0,1,2三列,不包括3这一列。

选择指定的列:

df.iloc[:, [0, 2]]

image.png

loc一样,iloc也可以行和列同时设置:

df.iloc[1:5, [0, 2]]

image.png

2. 条件过滤

行列过滤的方式是基于索引和列名称来过滤的,除此之外,还可以根据列的值来过滤。
这也是分析时常用的过滤方式。

2.1 单条件

根据列的值来过滤,列的值是数值还是字符串都可以。

df[df["年份"] > 2020]

image.png

字符串的过滤方式:

df[df["指标中文"].str.contains("乡村")].head()

image.png

2.2 多条件

除了设置单独的条件之外,也支持通过逻辑符号&|来设置多个条件。

df[(df["年份"] > 2020) & (df["指标中文"].str.contains("乡村"))]

image.png
必须同时满足年份>2021指标中文包含乡村两个条件的数据,只有1条。

df[(df["年份"] > 2020) | (df["指标中文"].str.contains("乡村"))].head(6)

image.png
只要满足年份>2021指标中文包含乡村两个条件之一的数据。

3. 函数过滤

pandas中还有两种通过函数来过滤和转换数据的方式,这种方式可以将自定义的函数应用到数据之上。
这样就提供了相当灵活的数据操作方式。

3.1 apply

针对DataFrame某一列数据的apply
比如下面的示例增加一列,其值是将value列的数据放大10倍:

df["value10倍"] = df["value"].apply(lambda x: x*10)
df

image.png

3.2 map

针对DataFrame某一列数据的map
比如下面的示例增加一列,其值是设置指标中文的缩写。

df["指标缩写"] = df["指标中文"].map({"年末总人口": "总人口", "乡村人口": "乡村"})
df

image.png

4. 总结回顾

本篇主要介绍了pandas数据检索的常用方式,数据检索是做分析时最常用的步骤。
通过数据过滤方法,快速确定用于分析的数据范围,剥离无用的数据,提高分析的效率。

数据检索方式由易到难分别为:

  1. 行列过滤,lociloc
  2. 条件过滤,单条件和多条件过滤
  3. 函数过滤,自定义函数灵活的调整已有列的数据

本文关联的微信视频号短视频:
pandas03-数据检索.png

原文链接:https://www.cnblogs.com/wang_yb/p/17388485.html

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:【pandas基础】–数据检索 - Python技术站

(0)
上一篇 2023年5月10日
下一篇 2023年5月10日

相关文章

  • Django框架会话技术实例分析【Cookie与Session】

    Django框架会话技术实例分析【Cookie与Session】 本文将深入探讨Django框架中的会话技术,其中包括Cookie与Session两种常见的实现方式,通过实例分析,给大家带来更全面的理解。 什么是会话技术? 会话技术是Web开发中常用的一种技术,它可以实现跨页面(同一域名下)的数据共享。当用户在网站上进行操作时,我们可以通过会话技术来保存用户…

    python 2023年6月3日
    00
  • Python从单元素字典中获取key和value的实例

    使用Python从单元素字典中获取key和value的实例,可以通过字典中的内置方法items()来实现。下面是详细的攻略。 步骤 定义一个单元素字典,例如{“key”: “value”}。 通过使用内置方法items(),获取字典中的键值对元组。 通过索引1获取字典中的值value,索引0获取字典中的键key。 下面是示例代码: # 示例1:获取单元素字典…

    python 2023年5月13日
    00
  • Python 列表的基本操作介绍

    以下是详细讲解“Python列表的基本操作介绍”的完整攻略。 在Python中,列表是一种非常常用的数据类型,它可以存储多个元素,并且支持各种操作。本文将介绍Python列表的基本操作,包括创建列表、访问列表元素、添加和删除元素、列表切片、列表排序等。 创建列表 在Python中,可以使用方括号[]或list()函数来创建一个列表。例如: lst1 = [1…

    python 2023年5月13日
    00
  • python 遍历磁盘目录的三种方法

    针对 “python 遍历磁盘目录的三种方法”,我会详细讲解一下。 1. 使用os模块的walk方法 在Python中,可以使用os模块的walk方法进行文件遍历,该方法会遍历指定目录及其子目录下的所有文件,并以元组的形式返回各个文件的路径信息。 示例代码: import os path = ‘C:\Data’ for root, dirs, files i…

    python 2023年6月2日
    00
  • Python下的常用下载安装工具pip的安装方法

    Python下的常用下载安装工具pip的安装方法 pip是Python的一个常用的第三方库下载、安装和管理工具。下面将详细介绍pip的安装方法。 1. 检查Python版本 首先需要检查Python的版本是否是2.7.9或更高版本。可以通过执行以下命令来查看Python的版本: python –version 如果Python的版本不符合要求,则需要先升级…

    python 2023年5月14日
    00
  • 基于Python实现计算纳什均衡的示例详解

    基于Python实现计算纳什均衡的示例详解 纳什均衡是博弈论中的一个重要概念,它指的是在博弈中所有参与者都采取最优策略的状态。本文将介绍如何使用Python实现计算纳什均衡的过程。 1. 纳什均衡的定义 在博弈论中,纳什均衡是指在博弈中所有参与者都采取最优策略的状态。具体来说,如果在一个博弈中,每参与者都选择了一种策略,且没有任何一个参与者可以通过改变自己的…

    python 2023年5月14日
    00
  • Python中列表的基本操作汇总

    Python中列表的基本操作汇总 在Python编程中,列表是一种非常常用的数据类型,它可以存储多个元素,并且支持各种操作。本文将详细介绍Python中列表基本操作,包括创建、访问、添加、删除、修改、排序和遍历等操作。 列表的创建 在Python中,我们可以使用括号[]或list()函数来创建一个列表。具体来说,我们可以使用方括号[]将多个元素拼接在一起,形…

    python 2023年5月13日
    00
  • Python机器学习之使用Pyecharts制作可视化大屏

    下面我将详细讲解“Python机器学习之使用Pyecharts制作可视化大屏”的完整攻略。 1. 简介 Pyecharts是基于Echarts.js的一个Python数据可视化库,是一款易于使用、高性能且高度可定制的可视化构建工具。它可以轻松地将数据转化为多种图表形式,例如折线图、柱状图、散点图、地图等。在机器学习的应用中,数据可视化是十分有必要的,因为它可…

    python 2023年5月18日
    00
合作推广
合作推广
分享本页
返回顶部