Python Pandas处理CSV文件的常用技巧分享
CSV(Comma Separated Value)文件是一种常见的数据存储格式,可以使用Python Pandas库来读取、分析和处理CSV文件。以下是一些常用的技巧:
读取CSV文件
要读取CSV文件,可以使用Pandas的read_csv()函数。
import pandas as pd
df = pd.read_csv('file.csv')
print(df.head())
此代码将读取名为file.csv的文件,并使用Pandas DataFrame将其存储在变量df中。head()函数可用于显示前几行数据。
筛选数据
Pandas的DataFrame对象具有强大的数据筛选功能。以下是一些常用的筛选技巧:
根据值进行筛选
import pandas as pd
df = pd.read_csv('file.csv')
# 只选择'Male'性别的数据
male_data = df[df['Gender'] == 'Male']
print(male_data.head())
根据行列标签进行筛选
import pandas as pd
df = pd.read_csv('file.csv')
# 选择特定的行和列
selected_data = df.loc[[2, 4, 5], ['Name', 'Age']]
print(selected_data.head())
分组和聚合数据
使用groupby()函数将数据按组进行分组,之后使用agg()函数来聚合数据并执行特定的计算。例如,以下代码将根据性别分组,并计算每个性别的平均年龄和最大年龄。
import pandas as pd
df = pd.read_csv('file.csv')
# 按性别分组,计算平均年龄和最大年龄
grouped_data = df.groupby('Gender').agg({'Age': ['mean', 'max']})
print(grouped_data.head())
示例1
假设我们有一个包含以下数据的CSV文件:
Name,Gender,Age
John,Male,23
Sara,Female,25
Tim,Male,36
Amy,Female,19
我们想要读取文件,并根据性别对数据进行筛选。只选择男性数据。以下是实现代码:
import pandas as pd
df = pd.read_csv('file.csv')
# 只选择'Male'性别的数据
male_data = df[df['Gender'] == 'Male']
print(male_data.head())
运行结果:
Name Gender Age
0 John Male 23
2 Tim Male 36
示例2
假设我们有一个包含以下数据的CSV文件:
Name,Gender,Age,Salary
John,Male,23,4500
Sara,Female,25,5500
Tim,Male,36,6500
Amy,Female,19,3500
我们想要读取数据文件,并按照性别分组计算平均年龄和平均薪资。以下是实现代码:
import pandas as pd
df = pd.read_csv('file.csv')
# 按性别分组,计算平均年龄和平均薪资
grouped_data = df.groupby('Gender').agg({'Age': 'mean', 'Salary': 'mean'})
print(grouped_data.head())
运行结果:
Age Salary
Gender
Female 22.000000 4500.0
Male 29.666667 5500.0
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Python Pandas处理CSV文件的常用技巧分享 - Python技术站