Pandas中DataFrame基本函数整理(小结)

当涉及到数据分析与数据科学时，Pandas是一个非常有用和流行的工具，可以使数据处理变得容易、高效并且有乐趣。其中Pandas中DataFrame是一种非常强大和常用的数据结构，它允许您以表格的形式存储和操作数据。在这篇文章中，我们将讨论DataFrame的常用基本函数。

基本函数

当我们使用DataFrame时，我们将经常使用以下基本函数：

head(): 返回DataFrame的前几行记录，默认为5条记录，也可以自定义查看的记录数目；
tail(): 返回DataFrame的最后几行记录，默认为5条记录，也可以自定义查看的记录数目；
info(): 返回一个包含DataFrame列名称、每列的非空数据行数、数据类型和内存使用情况的数据总结信息；
describe(): 返回计数、平均值、标准差、最小值、第一四分位数、中位数、第三四分位数和最大值等统计结果；
shape(): 返回DataFrame的行数和列数、是一个由两个整数组成的元祖；
columns(): 返回DataFrame所有的列名；
dtypes(): 返回DataFrame每一列的数据类型。

下面，我们将在一个示例DataFrame中使用这些函数：

import pandas as pd
import numpy as np

# 创建示例DataFrame
df = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                   'B': ['B0', 'B1', 'B2', 'B3'],
                   'C': ['C0', 'C1', 'C2', 'C3'],
                   'D': ['D0', 'D1', 'D2', 'D3']})

# 查看DataFrame前两行记录
df.head(2)

# 查看DataFrame最后两行记录
df.tail(2)

# 查看DataFrame的数据类型
df.dtypes

# 返回DataFrame的数据总结信息
df.info()

# 返回计数、平均值、标准差、最小值、第一四分位数、中位数、第三四分位数和最大值等统计结果；
df.describe()

# 返回DataFrame的行数和列数
df.shape

# 返回所有的列名
df.columns

在上例中我们创建了一个包含四个列的示例DataFrame，然后使用DataFrame的基本功能函数完成了各种操作。

总结

在这篇小结中，我们讨论了Pandas中DataFrame的基本操作函数，其中包括head()， tail()， info()，describe()，以及shape()，columns()和dtypes()。这些函数可以为我们提供有关DataFrame的有用信息，并快速检查DataFrame数据是否符合我们的期望。在实际数据处理和分析工作中，这些基本函数是非常有用的，您应该熟练掌握它们的用法。

示例：

在实际的数据分析或数据科学工作中，我们经常会遇到需要了解不同国家、地区的各类统计数据，如各个国家的人口、GDP、出生率、死亡率等。下面是一个类似的示例：

# 读取csv文件，注意Excel数据需要存为纯文本格式csv
df = pd.read_csv('country_statistics.csv')

# 查看前5行数据记录
df.head()

# 查看后5行数据记录
df.tail()

# 返回数据信息
df.info()

# 返回基本的统计结果
df.describe()

# 返回记录数目和列数
df.shape

# 返回所有的列名
df.columns

上例中，我们使用了read_csv函数读取了一个包含多个国家各类统计信息的csv文件，并使用DataFrame的基本函数对数据进行了处理、分析、统计。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Pandas中DataFrame基本函数整理(小结) - Python技术站

Pandas中DataFrame基本函数整理(小结)

基本函数

总结

相关文章