Python学习之pandas数据分析核心支持库

简介

pandas是Python中一款强大的数据分析库，需要安装后才能使用。pandas基于NumPy库开发，可轻松处理具有浮点值和标签的数据，其中包括导入、清理、处理、合并、截取、过滤、变换和统计等操作。

安装

在Python环境中，使用pip命令进行安装（需要管理员身份）：

pip install pandas

安装完成后，可以在Python编译器中通过引入pandas进行使用。

pandas常用数据结构

Series

Series是一种标签化的一维数组，其中包含了一个值序列，并且可以通过索引进行访问。常见的创建Series的方式有：

使用列表创建Series。

import pandas as pd
s = pd.Series([1,3,5,np.nan,6,8])

使用NumPy数组创建Series。

import numpy as np
import pandas as pd
arr = np.array([1, 3, 5, np.nan, 6, 8])
s = pd.Series(arr)

DataFrame

DataFrame是一种标签化的二维数组，类似于Excel的数据表格。在DataFramen中，每一列是一个Series，每一行是一个数据集，并且可以通过列名或行名访问。常见的创建DataFrame的方式有：

使用字典创建DataFrame。

import pandas as pd
data = {
    'name':['Jack', 'Tom', 'Mary'],
    'age':[22, 28, 24],
    'height':[1.78, 1.82, 1.65]
}
df = pd.DataFrame(data)

读取CSV文件创建DataFrame。

import pandas as pd
df = pd.read_csv('data.csv')

其中，data.csv为本地存储的CSV文件，可以通过文件路径进行读取。

pandas常用操作

数据选择与访问

使用列名选择数据。

import pandas as pd
data = {
    'name':['Jack', 'Tom', 'Mary'],
    'age':[22, 28, 24],
    'height':[1.78, 1.82, 1.65]
}
df = pd.DataFrame(data)
print(df['age'])

使用行索引选择数据。

import pandas as pd
data = {
    'name':['Jack', 'Tom', 'Mary'],
    'age':[22, 28, 24],
    'height':[1.78, 1.82, 1.65]
}
df = pd.DataFrame(data)
print(df.loc[0])

数据清理

删除包含缺失值的行。

import pandas as pd
data = {
    'name':['Jack', 'Tom', 'Mary'],
    'age':[22, np.nan, 24],
    'height':[1.78, 1.82, np.nan]
}
df = pd.DataFrame(data)
df.dropna()

数据聚合

按照某一列进行分组计数。

import pandas as pd
data = {
    'name':['Jack', 'Tom', 'Mary', 'Tom', 'Mary'],
    'age':[22, 28, 24, 27, 29],
    'height':[1.78, 1.82, 1.65, 1.72, 1.59]
}
df = pd.DataFrame(data)
df.groupby('name').count()

结束语

以上是关于pandas数据分析库的简单介绍和部分实例展示。pandas是一款极其强大的数据分析工具，可以简单易用地完成各种各样的数据处理任务，帮助用户快速分析数据，并做出更明智的决策。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：python学习之panda数据分析核心支持库 - Python技术站

python学习之panda数据分析核心支持库