Python数据分析库pandas基本操作方法

下面是针对“Python数据分析库pandas基本操作方法”的完整攻略,包括pandas的基本数据结构、数据导入与输出、数据清洗、数据统计分析等方面的基本操作方法。

一、pandas的基本数据结构

pandas的基本数据结构主要有两种,即Series和DataFrame。其中,Series相当于一维数组,包含数据以及数据对应的索引;DataFrame则是二维表格,可以看成是Series的一个容器,包含多个Series以及相应的索引。

1. Series

创建Series对象的方法如下:

import pandas as pd

# 通过数组创建Series
arr = [1, 2, 3, 4]
s = pd.Series(arr)
print(s)

# 通过字典创建Series
dict = {'a': 1, 'b': 2, 'c': 3, 'd': 4}
s = pd.Series(dict)
print(s)

上述代码通过数组和字典创建了两个Series对象,分别输出如下:

0    1
1    2
2    3
3    4
dtype: int64

a    1
b    2
c    3
d    4
dtype: int64

2. DataFrame

创建DataFrame对象的方法如下:

import pandas as pd

# 通过二维数组创建DataFrame
arr = [[1,2,3],[4,5,6],[7,8,9]]
df = pd.DataFrame(arr, columns=['a', 'b', 'c'], index=['x', 'y', 'z'])
print(df)

# 通过字典创建DataFrame
dict = {'a': [1,4,7], 'b': [2,5,8], 'c': [3,6,9]}
df = pd.DataFrame(dict, index=['x', 'y', 'z'])
print(df)

上述代码通过二维数组和字典创建了两个DataFrame对象,分别输出如下:

   a  b  c
x  1  2  3
y  4  5  6
z  7  8  9

   a  b  c
x  1  2  3
y  4  5  6
z  7  8  9

二、数据导入与输出

1. 数据导入

pandas支持读取多种数据格式,包括CSV、Excel、JSON等格式。常用的读取方法有如下几种:

import pandas as pd

# 读取CSV格式的数据
df = pd.read_csv('data.csv')

# 读取Excel格式的数据
df = pd.read_excel('data.xlsx')

# 读取JSON格式的数据
df = pd.read_json('data.json')

上述代码通过read_csv()、read_excel()、read_json()方法,分别读取了CSV、Excel、JSON格式的数据。读取完毕后,可以使用head()方法查看前几行数据:

print(df.head())

2. 数据输出

pandas支持将数据输出为多种格式,包括CSV、Excel、JSON等格式。常用的输出方法有如下几种:

import pandas as pd

# 输出为CSV格式
df.to_csv('output.csv', index=False)

# 输出为Excel格式
df.to_excel('output.xlsx', index=False)

# 输出为JSON格式
df.to_json('output.json', orient='records')

上述代码通过to_csv()、to_excel()、to_json()方法,分别将数据输出为CSV、Excel、JSON格式的文件。其中,to_csv()和to_excel()方法还可以指定输出的文件名和索引信息。

三、数据清洗

1. 处理缺失值

pandas中常用的处理缺失值的方法有两种,即dropna()和fillna()。其中,dropna()方法用于删除包含缺失值的行或列;fillna()方法用于将缺失值用指定的值进行填充。

import pandas as pd

# 创建包含缺失值的DataFrame
data = {'name': ['Tom', 'Jerry', 'Mike', 'Kate'], 'age': [20, 30, None, 25]}
df = pd.DataFrame(data)

# 删除包含缺失值的行
df = df.dropna()

# 将缺失值填充为0
df = df.fillna(0)

上述代码通过dropna()和fillna()方法,分别删除了包含缺失值的行,以及将缺失值填充为0。

2. 处理重复值

pandas中常用的处理重复值的方法是drop_duplicates(),方法会删除DataFrame对象中的重复行。

import pandas as pd

# 创建包含重复行的DataFrame
data = {'name': ['Tom', 'Jerry', 'Mike', 'Tom'], 'age': [20, 30, 25, 20]}
df = pd.DataFrame(data)

# 删除重复行
df = df.drop_duplicates()

上述代码通过drop_duplicates()方法,删除了DataFrame对象中的重复行。

四、数据统计分析

1. 基本统计量计算

pandas中常用的基本统计量计算的方法包括mean()、median()、mode()、var()、std()、sum()等。通过这些方法,可以计算出DataFrame中每列数据的平均值、中位数、众数、方差、标准差、和等信息。

import pandas as pd

# 创建DataFrame对象
data = {'name': ['Tom', 'Jerry', 'Mike', 'Kate'], 'age': [20, 30, 25, 22], 'score': [80, 90, 85, 95]}
df = pd.DataFrame(data)

# 计算平均值
print(df.mean())

# 计算中位数
print(df.median())

# 计算众数
print(df.mode())

# 计算方差
print(df.var())

# 计算标准差
print(df.std())

上述代码通过mean()、median()、mode()、var()、std()方法,分别计算了DataFrame中每列数据的平均值、中位数、众数、方差、标准差等信息。

2. 分组统计

pandas中的分组统计功能十分强大,可以使用groupby()方法对数据进行分组,然后使用聚合函数进行统计计算。

import pandas as pd

# 创建DataFrame对象
data = {'name': ['Tom', 'Jerry', 'Mike', 'Kate'], 'age': [20, 30, 25, 22], 'score': [80, 90, 85, 95]}
df = pd.DataFrame(data)

# 按照age列进行分组,计算每组的平均分
result = df.groupby(by='age').mean()

print(result)

上述代码使用groupby()方法将DataFrame对象按照age列进行分组,然后使用mean()方法计算每组的平均分。

两条示例说明

示例一:读取CSV文件并统计数据信息

import pandas as pd

# 读取CSV格式的数据
df = pd.read_csv('data.csv')

# 计算每个科目的平均成绩
mean_score = df.mean()
print(mean_score)

# 计算每个班级的平均成绩
class_mean_score = df.groupby(by='class').mean()
print(class_mean_score)

上述代码通过read_csv()方法读取了CSV格式的数据,然后使用mean()方法分别计算了每个科目的平均成绩,以及每个班级的平均成绩。

示例二:处理缺失值并输出到Excel文件

import pandas as pd

# 读取CSV格式的数据
df = pd.read_csv('data.csv')

# 将缺失值填充为0
df = df.fillna(0)

# 输出到Excel文件
df.to_excel('output.xlsx', index=False)

上述代码通过fillna()方法将CSV文件中的缺失值填充为0,然后使用to_excel()方法将数据输出到Excel文件中。

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Python数据分析库pandas基本操作方法 - Python技术站

(0)
上一篇 2023年5月14日
下一篇 2023年5月14日

相关文章

  • 使用python3 实现插入数据到mysql

    当我们想要在Python中向MySQL数据库插入数据时,我们需要利用Python的MySQL Connector模块来实现。下面这些步骤将教你如何在Python中实现MySQL数据库的数据插入。 步骤一:安装MySQL Connector模块 在开始使用MySQL Connector模块之前,我们需要先安装它。你可以使用以下命令在终端中安装: pip3 in…

    python 2023年6月13日
    00
  • Python数据分析库pandas高级接口dt的使用详解

    Python数据分析库pandas高级接口dt的使用详解 简介 pandas是Python中非常流行的数据处理库,它能够高效地处理数据集,提供了大量的数据结构和数据处理方法。其中,dt接口是pandas中的一个高级接口,它能够在Series和DataFrame上进行快速的向量化操作,并且提供了很多与时间序列有关的方法。 dt的基本使用 获得dt对象 dt接口…

    python 2023年5月14日
    00
  • 用Pandas的read_html()来抓取维基百科的表格

    当需要从互联网上获取数据时,网页上的表格是一个很好的数据源。而Python中的Pandas库提供了一个方便的方法来获取HTML表格。这个方法是read_html(),它可以从web页面上的table标签中提取出数据。 使用read_html()来抓取维基百科的表格有以下步骤: 1.导入所需的库 import pandas as pd 2.创建一个URL变量,…

    python-answer 2023年3月27日
    00
  • python pandas.DataFrame选取、修改数据最好用.loc,.iloc,.ix实现

    对于pandas中的DataFrame,我们可以使用选取、修改数据的方式来进行数据的处理和修改。针对DataFrame数据的选取和修改,使用.loc、.iloc、.ix这三种方式来实现是较为常见的做法。 .loc .loc是通过索引方式来取得数据,可以使用如下方式选取一列或多列数据: import pandas as pd # 创建一个DataFrame d…

    python 2023年5月14日
    00
  • Pandas内存管理

    Pandas是一个广泛应用于数据分析和处理的Python库,其内存管理是其高效性的一个重要组成部分。本文将详细讲解Pandas的内存管理机制。 Pandas对象 在Pandas中,常见的对象有DataFrame和Series。DataFrame类似于一个表格,Series类似于一个向量。这些对象中存储了具体的数据。与其它Python库相比,Pandas对象的…

    python-answer 2023年3月27日
    00
  • Pandas DataFrame中的tuple元素遍历的实现

    Pandas是Python语言中常用的数据科学库之一,提供了用于处理结构化数据的高级数据结构和函数。其中,Pandas DataFrame是最常用的数据结构之一。本攻略将详细讲解如何对Pandas DataFrame中的tuple元素进行遍历。 1. 引言 在进行数据分析时,常常需要遍历Pandas DataFrame中的数据。当某些列的数据类型为tuple…

    python 2023年5月14日
    00
  • Pandas把dataframe或series转换成list的方法

    将DataFrame或Series对象转换为列表可通过Pandas库中的.values.tolist()方法实现。 下面是示例代码: import pandas as pd # 创建一个DataFrame df = pd.DataFrame({‘A’: [1, 2, 3], ‘B’: [4, 5, 6], ‘C’: [7, 8, 9]}) # 将DataFr…

    python 2023年6月13日
    00
  • 如何在Pandas中按组计算量子数

    在Pandas中使用groupby方法可以按组进行数据的聚合操作,常用的聚合操作包括计数、求和、平均值等。下面我们将具体介绍如何使用groupby方法在Pandas中按组计算量子数。 首先,我们导入Pandas库: import pandas as pd 假设我们有一组数据,包含状态(state)、能量(energy)和自旋(spin)三列数据: data …

    python-answer 2023年3月27日
    00
合作推广
合作推广
分享本页
返回顶部