当涉及到数据分析与数据科学时,Pandas是一个非常有用和流行的工具,可以使数据处理变得容易、高效并且有乐趣。其中Pandas中DataFrame是一种非常强大和常用的数据结构,它允许您以表格的形式存储和操作数据。在这篇文章中,我们将讨论DataFrame的常用基本函数。
基本函数
当我们使用DataFrame时,我们将经常使用以下基本函数:
head()
: 返回DataFrame的前几行记录,默认为5条记录,也可以自定义查看的记录数目;tail()
: 返回DataFrame的最后几行记录,默认为5条记录,也可以自定义查看的记录数目;info()
: 返回一个包含DataFrame列名称、每列的非空数据行数、数据类型和内存使用情况的数据总结信息;describe()
: 返回计数、平均值、标准差、最小值、第一四分位数、中位数、第三四分位数和最大值等统计结果;shape()
: 返回DataFrame的行数和列数、是一个由两个整数组成的元祖;columns()
: 返回DataFrame所有的列名;dtypes()
: 返回DataFrame每一列的数据类型。
下面,我们将在一个示例DataFrame中使用这些函数:
import pandas as pd
import numpy as np
# 创建示例DataFrame
df = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
'B': ['B0', 'B1', 'B2', 'B3'],
'C': ['C0', 'C1', 'C2', 'C3'],
'D': ['D0', 'D1', 'D2', 'D3']})
# 查看DataFrame前两行记录
df.head(2)
# 查看DataFrame最后两行记录
df.tail(2)
# 查看DataFrame的数据类型
df.dtypes
# 返回DataFrame的数据总结信息
df.info()
# 返回计数、平均值、标准差、最小值、第一四分位数、中位数、第三四分位数和最大值等统计结果;
df.describe()
# 返回DataFrame的行数和列数
df.shape
# 返回所有的列名
df.columns
在上例中我们创建了一个包含四个列的示例DataFrame,然后使用DataFrame的基本功能函数完成了各种操作。
总结
在这篇小结中,我们讨论了Pandas中DataFrame的基本操作函数,其中包括head(), tail(), info(),describe(),以及shape(),columns()和dtypes()。这些函数可以为我们提供有关DataFrame的有用信息,并快速检查DataFrame数据是否符合我们的期望。在实际数据处理和分析工作中,这些基本函数是非常有用的,您应该熟练掌握它们的用法。
示例:
在实际的数据分析或数据科学工作中,我们经常会遇到需要了解不同国家、地区的各类统计数据,如各个国家的人口、GDP、出生率、死亡率等。下面是一个类似的示例:
# 读取csv文件,注意Excel数据需要存为纯文本格式csv
df = pd.read_csv('country_statistics.csv')
# 查看前5行数据记录
df.head()
# 查看后5行数据记录
df.tail()
# 返回数据信息
df.info()
# 返回基本的统计结果
df.describe()
# 返回记录数目和列数
df.shape
# 返回所有的列名
df.columns
上例中,我们使用了read_csv函数读取了一个包含多个国家各类统计信息的csv文件,并使用DataFrame的基本函数对数据进行了处理、分析、统计。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Pandas中DataFrame基本函数整理(小结) - Python技术站