pandas is in和not in的使用说明

yizhihongxing

Pandasisin和Notin的使用说明

Pandasisin和Notin的作用

Pandasisin和Notin是用于过滤数据的两个常用方法,可以筛选数据集中符合某些条件的数据,可以用于数据清洗或处理中。

Pandasisin和Notin的语法

pandasisin函数的语法如下:

DataFrame.column_name.isin(values_list)

notin函数的语法如下:

~DataFrame.column_name.isin(values_list)

其中,values_list参数是一个列表,包含需要进行筛选的值。而在notin函数中,利用~符号对结果取反,表示只筛选不在列表中的值。

Pandasisin和Notin的示例

下面通过实例说明如何使用pandasisinnotin进行数据筛选。

示例1

假设我们有一个包含商品名称、价格和库存量的数据集,我们希望找到所有价格为50或100的商品信息。使用pandasisin函数可以轻松实现:

import pandas as pd

data = {
    'product': ['A', 'B', 'C', 'D', 'E'],
    'price': [50, 30, 100, 80, 120],
    'stock': [10, 20, 5, 7, 3]
}

df = pd.DataFrame(data)

result = df[df['price'].isin([50, 100])]
print(result)

输出结果如下所示:

  product  price  stock
0       A     50     10
2       C    100      5

示例2

假设我们有一个包含多个城市旅游景点名称、评分和门票价格的数据集,我们希望找到4个城市的旅游景点信息,这四个城市分别是“北京”、“上海”、“广州”和“深圳”,使用notin函数可以轻松实现:

import pandas as pd

data = {
    'city': ['北京', '上海', '广州', '深圳', '成都', '重庆', '杭州', '南京', '武汉', '长沙'],
    'attraction': ['故宫', '东方明珠', '长隆', '世界之窗', '宽窄巷子', '洪崖洞', '西湖', '中山陵', '黄鹤楼', '岳麓山'],
    'score': [9.0, 8.8, 8.6, 9.2, 8.5, 8.7, 9.1, 8.9, 8.4, 8.3],
    'price': [60, 110, 230, 280, 50, 60, 80, 90, 40, 70]
}

df = pd.DataFrame(data)

result = df[~df['city'].isin(['成都', '重庆', '杭州', '南京'])]
print(result)

输出结果如下所示:

  city attraction  score  price
0  北京        故宫    9.0     60
1  上海      东方明珠    8.8    110
2  广州        长隆    8.6    230
3  深圳     世界之窗    9.2    280
8  武汉       黄鹤楼    8.4     40
9  长沙       岳麓山    8.3     70

如上所示,通过notin函数,我们可以快速筛选掉四个城市的旅游景点,保留其他城市的数据信息。

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:pandas is in和not in的使用说明 - Python技术站

(0)
上一篇 2023年5月14日
下一篇 2023年5月14日

相关文章

  • 用Pandas和Matplotlib创建棒棒糖图表

    当我们要对一些数据进行可视化展示时,棒棒糖图表(lollipop chart)是一种非常好的选择。Pandas和Matplotlib是数据科学家们最常用的可视化工具,在这里我们将使用这两个工具来创建棒棒糖图表。 首先,我们需要安装Pandas和Matplotlib。可以使用pip命令进行安装: pip install pandas matplotlib 接下…

    python-answer 2023年3月27日
    00
  • 如何使用Pandas从现有的CSV文件创建多个CSV文件

    使用Pandas从现有的CSV文件创建多个CSV文件的过程可以分为以下几个步骤: 读取原始CSV文件并进行数据处理 按照需要创建多个数据子集 将每个数据子集保存为独立的CSV文件 下面我们来更详细地讲解每个步骤的具体内容: 步骤一:读取原始CSV文件并进行数据处理 我们首先要读取原始CSV文件,并对其中的数据进行处理。在这个过程中,我们可以使用Pandas提…

    python-answer 2023年3月27日
    00
  • 十分钟搞定pandas(入门教程)

    下面是针对“十分钟搞定pandas(入门教程)”这篇文章的详细讲解攻略。 一、前言 本文主要介绍了如何通过Python库pandas来实现对数据的处理和分析。通过学习本文,可以掌握pandas基本操作、数据筛选、分析等技能,为进一步学习和应用pandas打下基础。 二、pandas介绍 pandas是Python中一个常用的数据处理库,可以处理各种类型的数据…

    python 2023年5月14日
    00
  • 在Pandas中获取绝对值

    获取绝对值是数据处理中常用的一种运算,在Pandas中可以使用abs()函数轻松地完成该操作。 1. abs()函数的基本用法 abs()函数可以作用于Series、DataFrame和Panel类型的数据结构,用于获取Series/DataFrame/Panel中每个元素的绝对值。函数使用如下: data.abs() 上述代码将获取变量data中每个元素的…

    python-answer 2023年3月27日
    00
  • python把数据框写入MySQL的方法

    Python 具有丰富的数据库操作模块,例如 SQLite、MySQL、PostgreSQL 等。在实际项目中,通常需要将数据以数据框的形式导入数据库。接下来,将使用 Python 将数据框写入 MySQL 的方法,详细说明数据框导入 MySQL 的步骤。 准备工作 在使用 Python 之前,需要安装 mysql-connector-python 模块,此…

    python 2023年6月13日
    00
  • python批量设置多个Excel文件页眉页脚的脚本

    下面是关于“python批量设置多个Excel文件页眉页脚的脚本”的完整攻略。 1. 环境准备 首先,需要安装并配置Python的相关环境,建议使用Python3版本。同时,你可能需要使用额外的三方库——openpyxl和os。 可以使用pip命令来安装以上两个库: pip install openpyxl pip install os 2. 程序实现 下面…

    python 2023年6月13日
    00
  • python Pandas时序数据处理

    Python Pandas时序数据处理完整攻略 什么是时序数据 时序数据是时间上有序的数据集合,包括时间序列和面板数据。时间序列是一个固定时间范围内的数据序列,通常由时间戳(时间点的标签)和对应的数据值组成。面板数据是时间序列数据集合,可以理解为多维时间序列。 Pandas时序数据模块 Pandas是Python的一个数据分析库,其提供了丰富的数据处理模块,…

    python 2023年5月14日
    00
  • 用Matplotlib在条形图上绘制Pandas数据框架的多列数据

    在Matplotlib中,我们可以使用bar()方法在条形图上绘制Pandas数据框架的多列数据。具体步骤如下: 首先,确保你已经导入了Matplotlib和Pandas模块: import matplotlib.pyplot as plt import pandas as pd 然后创建一个Pandas数据框架,包含你想要绘制的多列数据。例如: df = …

    python-answer 2023年3月27日
    00
合作推广
合作推广
分享本页
返回顶部