Python数据分析库pandas基本操作方法

yizhihongxing

下面是针对“Python数据分析库pandas基本操作方法”的完整攻略,包括pandas的基本数据结构、数据导入与输出、数据清洗、数据统计分析等方面的基本操作方法。

一、pandas的基本数据结构

pandas的基本数据结构主要有两种,即Series和DataFrame。其中,Series相当于一维数组,包含数据以及数据对应的索引;DataFrame则是二维表格,可以看成是Series的一个容器,包含多个Series以及相应的索引。

1. Series

创建Series对象的方法如下:

import pandas as pd

# 通过数组创建Series
arr = [1, 2, 3, 4]
s = pd.Series(arr)
print(s)

# 通过字典创建Series
dict = {'a': 1, 'b': 2, 'c': 3, 'd': 4}
s = pd.Series(dict)
print(s)

上述代码通过数组和字典创建了两个Series对象,分别输出如下:

0    1
1    2
2    3
3    4
dtype: int64

a    1
b    2
c    3
d    4
dtype: int64

2. DataFrame

创建DataFrame对象的方法如下:

import pandas as pd

# 通过二维数组创建DataFrame
arr = [[1,2,3],[4,5,6],[7,8,9]]
df = pd.DataFrame(arr, columns=['a', 'b', 'c'], index=['x', 'y', 'z'])
print(df)

# 通过字典创建DataFrame
dict = {'a': [1,4,7], 'b': [2,5,8], 'c': [3,6,9]}
df = pd.DataFrame(dict, index=['x', 'y', 'z'])
print(df)

上述代码通过二维数组和字典创建了两个DataFrame对象,分别输出如下:

   a  b  c
x  1  2  3
y  4  5  6
z  7  8  9

   a  b  c
x  1  2  3
y  4  5  6
z  7  8  9

二、数据导入与输出

1. 数据导入

pandas支持读取多种数据格式,包括CSV、Excel、JSON等格式。常用的读取方法有如下几种:

import pandas as pd

# 读取CSV格式的数据
df = pd.read_csv('data.csv')

# 读取Excel格式的数据
df = pd.read_excel('data.xlsx')

# 读取JSON格式的数据
df = pd.read_json('data.json')

上述代码通过read_csv()、read_excel()、read_json()方法,分别读取了CSV、Excel、JSON格式的数据。读取完毕后,可以使用head()方法查看前几行数据:

print(df.head())

2. 数据输出

pandas支持将数据输出为多种格式,包括CSV、Excel、JSON等格式。常用的输出方法有如下几种:

import pandas as pd

# 输出为CSV格式
df.to_csv('output.csv', index=False)

# 输出为Excel格式
df.to_excel('output.xlsx', index=False)

# 输出为JSON格式
df.to_json('output.json', orient='records')

上述代码通过to_csv()、to_excel()、to_json()方法,分别将数据输出为CSV、Excel、JSON格式的文件。其中,to_csv()和to_excel()方法还可以指定输出的文件名和索引信息。

三、数据清洗

1. 处理缺失值

pandas中常用的处理缺失值的方法有两种,即dropna()和fillna()。其中,dropna()方法用于删除包含缺失值的行或列;fillna()方法用于将缺失值用指定的值进行填充。

import pandas as pd

# 创建包含缺失值的DataFrame
data = {'name': ['Tom', 'Jerry', 'Mike', 'Kate'], 'age': [20, 30, None, 25]}
df = pd.DataFrame(data)

# 删除包含缺失值的行
df = df.dropna()

# 将缺失值填充为0
df = df.fillna(0)

上述代码通过dropna()和fillna()方法,分别删除了包含缺失值的行,以及将缺失值填充为0。

2. 处理重复值

pandas中常用的处理重复值的方法是drop_duplicates(),方法会删除DataFrame对象中的重复行。

import pandas as pd

# 创建包含重复行的DataFrame
data = {'name': ['Tom', 'Jerry', 'Mike', 'Tom'], 'age': [20, 30, 25, 20]}
df = pd.DataFrame(data)

# 删除重复行
df = df.drop_duplicates()

上述代码通过drop_duplicates()方法,删除了DataFrame对象中的重复行。

四、数据统计分析

1. 基本统计量计算

pandas中常用的基本统计量计算的方法包括mean()、median()、mode()、var()、std()、sum()等。通过这些方法,可以计算出DataFrame中每列数据的平均值、中位数、众数、方差、标准差、和等信息。

import pandas as pd

# 创建DataFrame对象
data = {'name': ['Tom', 'Jerry', 'Mike', 'Kate'], 'age': [20, 30, 25, 22], 'score': [80, 90, 85, 95]}
df = pd.DataFrame(data)

# 计算平均值
print(df.mean())

# 计算中位数
print(df.median())

# 计算众数
print(df.mode())

# 计算方差
print(df.var())

# 计算标准差
print(df.std())

上述代码通过mean()、median()、mode()、var()、std()方法,分别计算了DataFrame中每列数据的平均值、中位数、众数、方差、标准差等信息。

2. 分组统计

pandas中的分组统计功能十分强大,可以使用groupby()方法对数据进行分组,然后使用聚合函数进行统计计算。

import pandas as pd

# 创建DataFrame对象
data = {'name': ['Tom', 'Jerry', 'Mike', 'Kate'], 'age': [20, 30, 25, 22], 'score': [80, 90, 85, 95]}
df = pd.DataFrame(data)

# 按照age列进行分组,计算每组的平均分
result = df.groupby(by='age').mean()

print(result)

上述代码使用groupby()方法将DataFrame对象按照age列进行分组,然后使用mean()方法计算每组的平均分。

两条示例说明

示例一:读取CSV文件并统计数据信息

import pandas as pd

# 读取CSV格式的数据
df = pd.read_csv('data.csv')

# 计算每个科目的平均成绩
mean_score = df.mean()
print(mean_score)

# 计算每个班级的平均成绩
class_mean_score = df.groupby(by='class').mean()
print(class_mean_score)

上述代码通过read_csv()方法读取了CSV格式的数据,然后使用mean()方法分别计算了每个科目的平均成绩,以及每个班级的平均成绩。

示例二:处理缺失值并输出到Excel文件

import pandas as pd

# 读取CSV格式的数据
df = pd.read_csv('data.csv')

# 将缺失值填充为0
df = df.fillna(0)

# 输出到Excel文件
df.to_excel('output.xlsx', index=False)

上述代码通过fillna()方法将CSV文件中的缺失值填充为0,然后使用to_excel()方法将数据输出到Excel文件中。

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Python数据分析库pandas基本操作方法 - Python技术站

(0)
上一篇 2023年5月14日
下一篇 2023年5月14日

相关文章

  • 在python中pandas读文件,有中文字符的方法

    在Python中使用Pandas读取文件,如果文件中包含中文或其他非英文字符,需要注意编码格式。在读取文件时必须指定正确的编码格式,以便能够正确地读取中文字符。 以下是读取CSV文件中含有中文字符的方法: 方法一:指定编码方式 可以在读取csv文件时指定编码方式,示例代码如下: import pandas as pd df = pd.read_csv(‘fi…

    python 2023年5月14日
    00
  • 在Pandas Dataframe中突出显示nan值

    要在Pandas Dataframe中突出显示nan值,可以采用以下方法: 1.首先创建一个样例Dataframe: import pandas as pd import numpy as np df = pd.DataFrame({‘A’: [1, 2, np.nan, 4], ‘B’: [5, np.nan, 7, np.nan], ‘C’: [np.n…

    python-answer 2023年3月27日
    00
  • python+selenium爬取微博热搜存入Mysql的实现方法

    下面是“python+selenium爬取微博热搜存入Mysql的实现方法”的详细攻略: 1. 准备工作 安装 Selenium Selenium 是 Python 的一种库,用于浏览器自动化测试,可以自动在浏览器中打开网页、模拟人类操作,从而实现自动化获取网页的效果。我们可以通过以下命令来安装 Selenium: pip install selenium …

    python 2023年6月13日
    00
  • 如何在Python中把Sklearn数据集转换为Pandas数据帧

    要在Python中将sklearn数据集转换为pandas数据帧,需要先导入所需的库和数据集,然后使用pandas的DataFrame方法将数据转换为数据帧格式。以下是详细的步骤: 步骤1:导入所需的库 首先要导入所需的库,包括pandas和所需特定的sklearn数据集。例如,如果你要导入iris数据集,使用以下代码: import pandas as p…

    python-answer 2023年3月27日
    00
  • 如何在Pandas数据框架中把整数转换成浮点数

    在 Pandas 数据框架中,可以使用 astype() 方法将整数转换为浮点数。下面是详细的步骤和代码示例。 1. 创建数据框架 我们首先需要创建一个 Pandas 数据框架。在这个示例中,我们将使用以下代码创建一个包含整数的数据框架: import pandas as pd df = pd.DataFrame({ ‘int_column’: [1, 2,…

    python-answer 2023年3月27日
    00
  • Pandas中Apply函数加速百倍的技巧分享

    下面我将为您详细讲解“Pandas中Apply函数加速百倍的技巧分享”的完整攻略。 初识Pandas Apply Pandas中的apply()函数是一个非常实用的函数,它可用于在Pandas中的Series或DataFrame中执行一些函数操作。apply()函数有多种版本,包括apply(),applymap()和map()函数。其中,apply()函数…

    python 2023年5月14日
    00
  • 使用Python Pandas .iloc[] 提取行数

    当我们针对一个DataFrame数据表需要提取行数时,就需要使用Pandas中的.iloc[]方法。.iloc[]方法的用法如下: dataframe.iloc[row_index, column_index] 其中,row_index表示要提取的行数的序号,column_index则表示要提取的列数的序号。Pandas可以支持多种方式来表示row_inde…

    python-answer 2023年3月27日
    00
  • Python Pandas对缺失值的处理方法

    Python Pandas对缺失值的处理方法主要有以下几个: 删除缺失值 填充缺失值 插值法填充 下面详细介绍这三种方法的使用。 删除缺失值 删除缺失值是常用的处理缺失值的方法,如果数据集中缺失值较少,可以将含有缺失值的行或列删除,以保证结果的精准度。Pandas提供了 dropna() 函数实现删除缺失值的功能。 示例1: import pandas as…

    python 2023年5月14日
    00
合作推广
合作推广
分享本页
返回顶部