Pandas之Dropna滤除缺失数据的实现方法

一、Dropna的基本用法

Pandas中的dropna函数是用来滤除缺失数据的。具体如何实现呢?让我们首先来看一下dropna函数的基本用法。

函数定义:

DataFrame.dropna(
    axis=0,       # 行或列
    how='any',    # 如果遇到缺失数据对应的行或列是any或all的话将会被滤除
    thresh=None,  # 非空数据点数的阈值,取值范围为 [0,无穷大]
    subset=None,  # 包含探测缺失值的列名的 list
    inplace=False # 是否直接操作原数据集而不返回副本
)

参数解释:

  • axis(整数,默认0): 是否执行按行或列的范畴操作,axis=0按行操作,axis=1按列操作。

  • how(字符串,默认'any'): 如果遇到缺失数据对应的行或列是 any 或 all 的话将会被滤除。'any'指的是只要有一个缺失数据就删除该行或列;'all'则是只有当行或列中的数据全部为缺失数据时才删除该行或列。

  • thresh(整数,默认 None): 非空数据点数的阈值。如果某行或列中非空数据点数小于 thresh ,则认为它是一个缺失数据行或列,将该行或列滤除。

  • subset(由列名称组成的数组,默认 None): 如果指定了 subset 参数,那么 Pandas 会根据 subset 参数指定的列名来执行滤除缺失数据的操作。

  • inplace(布尔型,默认 False): 是否在原数据集的基础上直接执行操作,直接更改原来的数据,inplace=True。

下面通过一些示例说明dropna的实现方式。

使用dropna函数前,需要先导入pandas库,并构造一个数据集:

import pandas as pd

df = pd.DataFrame([['Tom', 174, 68.5], ['Jerry', 168, None], [None,None,None], ['Mary', 159, 54.5]],
                  columns=['Name', 'Height', 'Weight'])
print(df)

输出结果:

    Name  Height  Weight
0    Tom   174.0    68.5
1  Jerry   168.0     NaN
2   None     NaN     NaN
3   Mary   159.0    54.5

接着,执行dropna函数:

df = df.dropna()
print(df)

输出结果:

   Name  Height  Weight
0   Tom   174.0    68.5
3  Mary   159.0    54.5

可以看到,与原数据相比,缺失的行被滤除了。

二、指定操作按行或按列进行

dropna函数中的axis参数用于指定按行或按列操作。默认值为0,表示按行处理。下面,我们来看一下如何使用dropna函数来指定操作按列进行。

通过示例介绍,如何使用dropna函数指定按列进行处理:

import pandas as pd

df = pd.DataFrame([['Tom', 174, 68.5], ['Jerry', 168, None], [None,None,None], ['Mary', 159, 54.5]],
                  columns=['Name', 'Height', 'Weight'])
print(df)

df = df.dropna(axis=1)
print(df)

输出结果为:

   Height
0   174.0
1   168.0
2     NaN
3   159.0

由于这次指定了按列进行处理,所以滤除后的数据只剩下'Height'一列,其他列全部被滤除。

三、总结

一个数据集中如果有一些缺失的数据,那么它会影响到数据的处理与分析。因此,在数据处理和数据分析过程中,我们通常需要去掉这些缺失的数据。而dropna函数就是一个常用的滤除缺失数据的函数,其效率高、功能强大,使用方便。

关于dropna函数的详情,可以查看官方文档:https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dropna.html。

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Pandas之Dropna滤除缺失数据的实现方法 - Python技术站

(0)
上一篇 2023年5月14日
下一篇 2023年5月14日

相关文章

  • 一文搞懂Python中Pandas数据合并

    我来为你详细讲解一下Python中Pandas数据合并的攻略。 1. 简介 Pandas是一个Python第三方库,提供了一种高效、便捷的数据处理工具,常用于数据清洗、分析和可视化。数据合并是数据处理过程中的常见操作之一,Pandas提供了多种数据合并手段,具体如下: concat:可以将两个或多个DataFrame对象进行简单的连接操作; merge:可以…

    python 2023年5月14日
    00
  • 按行拆分Pandas数据框架

    按行拆分Pandas数据框架指将原本一行数据拆分成多个行数据。以下是按行拆分Pandas数据框架的完整攻略: 准备工作 在开始按行拆分Pandas数据框架之前,我们需要先引入Pandas库,并读取待处理的数据文件。下面是一个读取csv文件的示例: import pandas as pd # 读取csv文件 df = pd.read_csv("dat…

    python-answer 2023年3月27日
    00
  • 如何对Pandas数据框架进行排序

    要对Pandas数据框进行排序,可以使用sort_values()函数。该函数的语法如下: DataFrame.sort_values(by, axis=0, ascending=True, inplace=False, kind=’quicksort’, na_position=’last’) 参数说明: by:指定排序依据的列名或者一组列名 axis:指…

    python-answer 2023年3月27日
    00
  • 彻彻底底地理解Python中的编码问题

    接下来我会详细讲解“彻彻底底地理解Python中的编码问题”的完整攻略。 了解编码的基础知识 在Python中,字符串是使用Unicode编码的。Unicode是一个字符集,可以表示各种各样的字符。但是,Unicode对于如何将字符转换为具体的字节序列并没有做出规定,因此需要用编码来实现字符与字节之间的转换。 常见的编码方式有UTF-8、UTF-16、GB2…

    python 2023年5月14日
    00
  • pyinstaller使用大全

    PyInstaller 使用大全 PyInstaller 是一个非常流行的 Python 打包工具,它可以将 Python 代码和其依赖的库打包成一个可执行文件,方便我们在其他不具备 Python 环境的机器上运行程序。本文将对 PyInstaller 的基本使用方法进行详细介绍,包括安装 PyInstaller、使用 PyInstaller 打包程序、解决…

    python 2023年5月14日
    00
  • C语言中对文件最基本的读取和写入函数

    在C语言中,对文件最基本的读取和写入函数是fopen、fread、fwrite和fclose函数,这些函数都在stdio.h头文件中声明。 打开文件函数fopen 打开文件函数fopen用于打开一个文件,它的基本语法是: FILE *fopen(const char *filename, const char *mode); 其中,filename是文件的路…

    python 2023年6月13日
    00
  • Pandas DataFrame结构对象常用的属性和方法

    Pandas DataFrame是一个二维表结构,包含了行和列的标签,每一列可以有不同的数据类型。 以下是Pandas DataFrame结构对象常用的属性和方法: DataFrame结构对象属性 DataFrame对象常用的属性有: shape:返回DataFrame的形状(行数、列数) index:返回DataFrame的行索引 columns:返回Da…

    Pandas 2023年3月4日
    00
  • Python拆分给定的列表并插入EXCEL文件中

    让我为你详细地讲解一下如何使用Python拆分给定的列表并插入EXCEL文件中。 一、拆分给定列表 首先我们需要使用Python中的split()函数来拆分给定的列表,将其拆分成多个元素。split()函数可以按照指定的分隔符将字符串拆分成多个子串,并返回一个列表。 例如,我们有一个包含若干个逗号分隔的字符串的列表,这些字符串的形式为“元素1,元素2,元素3…

    python-answer 2023年3月27日
    00
合作推广
合作推广
分享本页
返回顶部