检查Pandas数据框架中的NaN

yizhihongxing

Pandas 中,NaN 是指 Not a Number,代表缺失值或无效值。检查 Pandas 数据框架中的 NaN 是数据预处理中重要的一步。下面介绍如何进行完整的 NaN 检查:

1. 查看数据框架中的缺失值

可以使用 isnull()isna() 函数查看数据框架中缺失值的情况。这两个函数的作用相同,都返回一个布尔型数组,表示数据框架中缺失值的位置。

import pandas as pd
import numpy as np

df = pd.DataFrame({'A': [1, 2, np.nan], 'B': [4, np.nan, np.nan], 'C': [7, 8, 9]})
print(df.isnull())
print(df.isna())

输出结果:

       A      B      C
0  False  False  False
1  False   True  False
2   True   True  False

       A      B      C
0  False  False  False
1  False   True  False
2   True   True  False

从上面的结果可以看出,df.isnull()df.isna() 返回了一个与原始数据框架维度相同的数据框架,其中缺失值的位置为 True,非缺失值的位置为 False

2. 统计数据框架中缺失值的数量

可以使用 isnull().sum()isna().sum() 函数统计缺失值的数量。这两个函数的作用相同,均返回每列中缺失值的数量。

print(df.isnull().sum())
print(df.isna().sum())

输出结果:

A    1
B    2
C    0
dtype: int64

A    1
B    2
C    0
dtype: int64

从上面的结果可以看出,在 df 中,A 列有 1 个缺失值,B 列有 2 个缺失值,C 列没有缺失值。

3. 统计数据框架中非缺失值的数量

可以使用 count() 函数统计数据框架中非缺失值的数量。

print(df.count())

输出结果:

A    2
B    1
C    3
dtype: int64

从上面的结果可以看出,在 df 中,A 列有 2 个非缺失值,B 列有 1 个非缺失值,C 列有 3 个非缺失值。

4. 删除数据框架中的缺失值

可以使用 dropna() 函数删除数据框架中的缺失值。该函数返回一个新的数据框架,其中缺失值所在的行或列被删除。

print(df.dropna()) # 删除含缺失值的行
print(df.dropna(axis=1)) # 删除含缺失值的列

输出结果:

     A    B  C
0  1.0  4.0  7

   C
0  7
1  8
2  9

从上面的结果可以看出,df.dropna() 删除了第二行,包含缺失值的列被全部删除;df.dropna(axis=1) 删除了 B 列和 C 列,因为它们都含有缺失值。

以上就是关于检查 Pandas 数据框架中的 NaN 的完整攻略和实例说明。

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:检查Pandas数据框架中的NaN - Python技术站

(0)
上一篇 2023年3月27日
下一篇 2023年3月27日

相关文章

  • 如何在Pandas DataFrame的组中应用函数

    在Pandas DataFrame的组中应用函数,可以采用groupby函数进行分组,然后使用apply函数应用函数到每个分组。下面我们通过一个简单的例子来详细讲解如何在Pandas DataFrame的组中应用函数,步骤如下: 1.导入必要的库和数据集 首先,需要导入Pandas库,并读取一个包含以下信息的数据集: Name City Gender Age…

    python-answer 2023年3月27日
    00
  • pandas中groupby操作实现

    下面我将会详细介绍Pandas中GroupBy操作的实现,攻略中包含以下内容: 什么是GroupBy操作? GroupBy的语法和方法 操作示例1:按照某个列进行分组 操作示例2:使用多个列进行分组 总结 1. 什么是GroupBy操作? 在数据处理中,通常会对数据按照某个条件进行分组,然后进行统计、聚合等操作。这个分组操作就是GroupBy操作。 Pand…

    python 2023年5月14日
    00
  • python时间日期函数与利用pandas进行时间序列处理详解

    Python时间日期函数与利用Pandas进行时间序列处理攻略 简介 时间和日期在编程中是一个非常重要的概念,特别是涉及到实时数据和对数据进行时间序列分析时。 Python提供了丰富的时间和日期函数,这个攻略将深入介绍Python的时间和日期函数,并说明如何使用Pandas进行时间序列处理。 时间和日期表示 在Python中,时间和日期都可以使用dateti…

    python 2023年5月14日
    00
  • pandas 缺失值与空值处理的实现方法

    下面是详细讲解 “pandas缺失值与空值处理的实现方法”的完整攻略: 前言 当我们处理数据时,经常会遇到一些数据缺失或为空的情况。这样的数据会影响我们之后的处理和分析,因此需要对其进行处理。pandas是Python中一个常用的数据处理库,提供了许多灵活的方式来处理缺失值和空值。 在pandas中缺失值和空值是一个概念(NaN或NA),代表着缺失或未知的数…

    python 2023年5月14日
    00
  • pandas is in和not in的使用说明

    Pandasisin和Notin的使用说明 Pandasisin和Notin的作用 Pandasisin和Notin是用于过滤数据的两个常用方法,可以筛选数据集中符合某些条件的数据,可以用于数据清洗或处理中。 Pandasisin和Notin的语法 pandasisin函数的语法如下: DataFrame.column_name.isin(values_li…

    python 2023年5月14日
    00
  • pandas实现滑动窗口的示例代码

    关于如何使用pandas实现滑动窗口, 我们可以按照以下步骤进行: 1. 安装pandas 在开始使用pandas之前,我们需要先安装pandas。可以通过以下命令在终端上安装pandas: pip install pandas 2. 导入必要的库 在开始使用pandas时,我们需要导入numpy、pandas等必要的库。在这里,我们可以使用以下代码: im…

    python 2023年5月14日
    00
  • Python操作PDF实现制作数据报告

    Python操作PDF实现制作数据报告攻略 PDF(Portable Document Format)文档是我们日常工作中非常常见的一种文档类型,Python有许多库可以用于PDF文档的操作。下面将详细讲解如何使用Python操作PDF实现制作数据报告。 1. 安装依赖库 要使用Python操作PDF,需要安装第三方库pyPDF2和reportlab。可使用…

    python 2023年5月14日
    00
  • 从Pandas数据框架的某一列获取唯一值

    获取Pandas数据框架中某一列的唯一值可以使用Pandas库中的unique()方法。下面是详细的攻略流程: 1.首先,导入必要的Python库,包括Pandas和NumPy: import pandas as pd import numpy as np 2.加载数据。可以使用read_csv()方法将数据从路径加载到Pandas数据框架中: data =…

    python-answer 2023年3月27日
    00
合作推广
合作推广
分享本页
返回顶部