Python学习之pandas数据分析核心支持库
简介
pandas是Python中一款强大的数据分析库,需要安装后才能使用。pandas基于NumPy库开发,可轻松处理具有浮点值和标签的数据,其中包括导入、清理、处理、合并、截取、过滤、变换和统计等操作。
安装
在Python环境中,使用pip命令进行安装(需要管理员身份):
pip install pandas
安装完成后,可以在Python编译器中通过引入pandas进行使用。
pandas常用数据结构
Series
Series是一种标签化的一维数组,其中包含了一个值序列,并且可以通过索引进行访问。常见的创建Series的方式有:
使用列表创建Series。
import pandas as pd
s = pd.Series([1,3,5,np.nan,6,8])
使用NumPy数组创建Series。
import numpy as np
import pandas as pd
arr = np.array([1, 3, 5, np.nan, 6, 8])
s = pd.Series(arr)
DataFrame
DataFrame是一种标签化的二维数组,类似于Excel的数据表格。在DataFramen中,每一列是一个Series,每一行是一个数据集,并且可以通过列名或行名访问。常见的创建DataFrame的方式有:
使用字典创建DataFrame。
import pandas as pd
data = {
'name':['Jack', 'Tom', 'Mary'],
'age':[22, 28, 24],
'height':[1.78, 1.82, 1.65]
}
df = pd.DataFrame(data)
读取CSV文件创建DataFrame。
import pandas as pd
df = pd.read_csv('data.csv')
其中,data.csv为本地存储的CSV文件,可以通过文件路径进行读取。
pandas常用操作
数据选择与访问
使用列名选择数据。
import pandas as pd
data = {
'name':['Jack', 'Tom', 'Mary'],
'age':[22, 28, 24],
'height':[1.78, 1.82, 1.65]
}
df = pd.DataFrame(data)
print(df['age'])
使用行索引选择数据。
import pandas as pd
data = {
'name':['Jack', 'Tom', 'Mary'],
'age':[22, 28, 24],
'height':[1.78, 1.82, 1.65]
}
df = pd.DataFrame(data)
print(df.loc[0])
数据清理
删除包含缺失值的行。
import pandas as pd
data = {
'name':['Jack', 'Tom', 'Mary'],
'age':[22, np.nan, 24],
'height':[1.78, 1.82, np.nan]
}
df = pd.DataFrame(data)
df.dropna()
数据聚合
按照某一列进行分组计数。
import pandas as pd
data = {
'name':['Jack', 'Tom', 'Mary', 'Tom', 'Mary'],
'age':[22, 28, 24, 27, 29],
'height':[1.78, 1.82, 1.65, 1.72, 1.59]
}
df = pd.DataFrame(data)
df.groupby('name').count()
结束语
以上是关于pandas数据分析库的简单介绍和部分实例展示。pandas是一款极其强大的数据分析工具,可以简单易用地完成各种各样的数据处理任务,帮助用户快速分析数据,并做出更明智的决策。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:python学习之panda数据分析核心支持库 - Python技术站