Python数据分析之pandas函数详解
本文主要讲解pandas在数据分析中的常用函数,包括数据读入、数据清洗、数据处理、数据可视化等方面的函数用法和示例。
数据读入
pandas中读取文件的函数十分灵活,包括read_csv、read_excel、read_sql等函数,可以读取多种格式的文件和数据库。下面给出一个以read_csv为例读取csv文件的示例:
import pandas as pd
data = pd.read_csv('data.csv', encoding='UTF-8')
print(data.head())
该示例中,使用pandas的read_csv函数读入文件data.csv,指定编码为UTF-8,并用head()函数打印前5行数据。
数据清洗
数据清洗是数据分析中非常重要的步骤,主要是对数据进行去重、确实值处理以及异常值处理等。pandas中提供了众多的函数供数据清洗使用,如drop_duplicates、fillna、replace等。下面给出一个以drop_duplicates为例进行去重的示例:
import pandas as pd
data = pd.read_csv('data.csv', encoding='UTF-8')
data.drop_duplicates(subset=['id'], keep='first', inplace=True)
该示例中,对于data中的id列进行去重,并保留第一次出现的记录。
数据处理
pandas中拥有很多数据处理的函数,如分组、聚合、排序、合并等函数,这些函数为数据分析提供了很大的方便性。下面给出一个以groupby为例进行分组的示例:
import pandas as pd
data = pd.read_csv('data.csv', encoding='UTF-8')
grouped = data.groupby(by=['gender'])
print(grouped.size())
该示例中,按照data中的gender列进行分组,并统计每个组的大小。
数据可视化
数据可视化可以使数据更加直观、易于理解,pandas中提供了很多绘图函数,如bar、line、scatter等。下面给出一个以bar为例进行绘图的示例:
import pandas as pd
import matplotlib.pyplot as plt
data = pd.read_csv('data.csv', encoding='UTF-8')
grouped = data.groupby(by=['gender'])
grouped.size().plot(kind='bar')
plt.show()
该示例中,按照data中的gender列进行分组,统计每个组的大小,并用bar函数绘制柱状图。
以上是pandas常用的函数及示例的详细讲解,希望对大家有所帮助。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Python数据分析之pandas函数详解 - Python技术站