Python Pandas学习之基本数据操作详解
基础知识
首先我们需要导入Pandas模块,并创建一个DataFrame对象:
import pandas as pd
data = {'name': ['Tom', 'Jerry', 'Lucy'], 'age': [20, 24, 22], 'score': [80, 78, 85]}
df = pd.DataFrame(data)
这个DataFrame包含了三列数据:name、age和score。我们可以通过以下方式读取这个DataFrame的基本信息:
# 查看前N行数据,默认为5
df.head()
# 查看数据类型
df.dtypes
# 查看数据维度
df.shape
# 查看每一列的统计信息
df.describe()
数据选择与过滤
我们可以通过以下方式选择和过滤数据:
# 选择一列
df['name']
# 选择多列
df[['name', 'age']]
# 选择特定行
df[1:2]
# 根据条件选择数据
df[df['age'] > 21]
数据排序
我们可以根据一列或多列对数据进行排序:
# 按照年龄从小到大排序
df.sort_values('age')
# 按照年龄从大到小排序
df.sort_values('age', ascending=False)
# 按照多列排序
df.sort_values(['age', 'score'], ascending=[True, False])
数据聚合
我们可以对数据进行聚合操作,例如计算平均值、总和等:
# 计算每一列的平均值
df.mean()
# 计算每一列的总和
df.sum()
# 计算每一行的平均值
df.mean(axis=1)
# 计算每一行中age值的最大值
df.groupby('name')['age'].max()
数据可视化
我们可以使用Pandas内置的绘图函数进行数据可视化:
# 绘制折线图
df.plot(kind='line', x='name', y='age')
# 绘制柱状图
df.plot(kind='bar', x='name', y='score')
# 绘制散点图
df.plot(kind='scatter', x='age', y='score')
示例说明
示例1:读取CSV文件并进行基本操作
import pandas as pd
# 读取csv文件
data = pd.read_csv('data.csv')
# 查看前10行数据
data.head(10)
# 查看数据类型
data.dtypes
# 查看数据维度
data.shape
# 根据条件选择数据
data[data['age'] > 30]
# 统计每个区域的平均年龄
data.groupby('region')['age'].mean()
# 绘制柱状图
data.groupby('region')['age'].mean().plot(kind='bar')
示例2:创建DataFrame并绘制散点图
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
# 创建DataFrame
data = pd.DataFrame({'x': np.random.rand(100), 'y': np.random.rand(100)})
# 绘制散点图
data.plot(kind='scatter', x='x', y='y')
# 显示图形
plt.show()
以上示例演示了如何读取CSV文件并进行基本操作,以及如何创建DataFrame并绘制散点图。更多Pandas的使用方法可以参考官方文档和其他相关资料。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Python Pandas学习之基本数据操作详解 - Python技术站