下面我来详细讲解Python中快速掌握Data Frame的常用操作的完整攻略:
1. 导入 Pandas
Pandas 是 Python 中一个数据处理库,用于数据的分析、清洗、转换和可视化等处理,而 DataFrame 则是其核心数据结构之一。在使用 DataFrame 之前,首先需要导入 Pandas 模块:
import pandas as pd
2. 创建 DataFrame
- 使用字典创建 DataFrame
使用字典类型数据可以方便、简单地创建一个 DataFrame。
data = {'姓名': ['小明', '小红', '小刚'],
'性别': ['男', '女', '男'],
'年龄': [20, 18, 21]}
df = pd.DataFrame(data)
此时,可以使用 print(df)
或 df.head()
来查看 DataFrame 的内容。其中,head()
函数默认显示前五行数据。
- 使用列表创建 DataFrame
也可以使用列表类型的数据来创建 DataFrame,表格中的每一列数据对应一个列表。
name = ['小明', '小红', ... , '小刚']
sex = ['男', '女', ... , '男']
age = [20, 18, ... , 21]
df = pd.DataFrame({'姓名': name, '性别': sex, '年龄': age})
3. 选择数据
- 选择一列数据
可以使用 DataFrame 的列名来选择一列数据,获取的数据为 Series 类型。
df['姓名'] # 获取姓名列数据
- 选择多列数据
选择多列数据时,需要在列名中增加对应列名。
df[['姓名', '年龄']] # 获取姓名和年龄列数据
- 选择一行数据
可以使用 loc[row_index]
来选择一行数据,其中 row_index 为行的索引值。
df.loc[0] # 获取第一行数据
- 选择多行数据
选择多行数据时,需要在行索引中增加对应行索引。
df.loc[[0, 1]] # 获取第一行和第二行数据
- 选择某个区域的数据
使用行、列索引的组合获取 DataFrame 中某一区域的数据。
df.loc[0:1, ['姓名', '年龄']] # 获取第一行到第二行,姓名和年龄两列的数据
4. 区分向量化操作和标量化操作
DataFrame 中的每个列都是一个 Series 类型,向量化操作可以同时对 Series 中的每个值进行操作,如计算每个值的平方:
df['年龄'] ** 2
标量化操作是对 DataFrame 中的元素进行操作,比如计算 DataFrame 的总和:
df.sum()
5. 数据清洗
在数据处理的过程中,经常需要清洗数据,比如删除重复、处理缺失值。
# 删除重复数据
df.drop_duplicates(inplace=True)
# 处理缺失值:删除含有缺失值的行
df.dropna(inplace=True)
# 处理缺失值:用均值来填充缺失值
df.fillna(df.mean(), inplace=True)
6. 数据排序和统计
- 排序
对 DataFrame 中的数据进行排序可以使用 sort_values()
函数。
df.sort_values(by=['年龄'], inplace=True)
- 统计
对 DataFrame 中的数据进行统计可以使用 describe()
函数。
df.describe()
以上便是快速掌握 Data Frame 常用操作的完整攻略,希望可以对您有所帮助。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Python中快速掌握Data Frame的常用操作 - Python技术站