Pandas库之DataFrame使用的学习笔记

Pandas库之DataFrame使用的学习笔记

1. 什么是Pandas DataFrame

Pandas DataFrame是一个二维表格数据结构,可以存储不同类型的列,并提供了多种操作方式。可以将DataFrame看作是一个Excel表格,它有行和列,每列可以存储不同类型的数据,比如整数、浮点数、字符串等。

2. 如何创建DataFrame对象

可以通过多种方式创建DataFrame对象,比如从CSV文件中读取数据、从字典中创建、从numpy数组中创建等。

2.1 从CSV文件中读取数据

可以使用Pandas的read_csv方法读取CSV文件中的数据,返回一个DataFrame对象。

import pandas as pd

df = pd.read_csv("data.csv")
print(df)

2.2 从字典中创建DataFrame对象

可以使用一个字典来创建DataFrame对象,字典的key表示列名,value表示对应列的数据。

import pandas as pd

data = {'name': ['Alice', 'Bob', 'Charlie'], 'age': [20, 25, 30]}
df = pd.DataFrame(data)
print(df)

输出结果如下:

       name  age
0     Alice   20
1       Bob   25
2  Charlie   30

3. 如何操作DataFrame对象

Pandas提供了多种方式操作DataFrame对象,比如选择子集、添加列、删除列等。

3.1 选择子集

可以使用[]操作符选择DataFrame对象的子集,也可以使用lociloc方法选择子集。

import pandas as pd

data = {'name': ['Alice', 'Bob', 'Charlie'], 'age': [20, 25, 30]}
df = pd.DataFrame(data)

# 使用[]选择子集
print(df['name']) # 选择name列
print(df[0:2]) # 选择前两行
print(df[['name', 'age']]) # 选择name和age两列

# 使用loc选择子集
print(df.loc[0]) # 选择第一行
print(df.loc[[0,2]]) # 选择第一行和第三行
print(df.loc[0:2, 'name']) # 选择前三行的name列

# 使用iloc选择子集
print(df.iloc[0]) # 选择第一行
print(df.iloc[[0,2]]) # 选择第一行和第三行
print(df.iloc[0:2, 0]) # 选择前两行的第一列

3.2 添加列

可以使用[]操作符添加列,也可以使用loc方法。

import pandas as pd

data = {'name': ['Alice', 'Bob', 'Charlie'], 'age': [20, 25, 30]}
df = pd.DataFrame(data)

# 使用[]添加列
df['gender'] = ['F', 'M', 'M']
print(df)

# 使用loc添加列
df.loc[:,'score'] = [80, 90, 85]
print(df)

3.3 删除列

可以使用drop方法删除列。

import pandas as pd

data = {'name': ['Alice', 'Bob', 'Charlie'], 'age': [20, 25, 30], 'gender': ['F', 'M', 'M'], 'score': [80, 90, 85]}
df = pd.DataFrame(data)

# 删除列
df = df.drop(['gender'], axis=1)
print(df)

4. 示例

下面是一个使用DataFrame对象处理销售数据的示例。

import pandas as pd

# 读取CSV文件
sales_data = pd.read_csv("sales.csv")

# 显示前5行
print(sales_data.head())

# 按照国家分组,计算总销售额
grouped_data = sales_data.groupby(['country'])['sales'].sum()
print(grouped_data)

# 显示销售额排名前5的国家
top_5_data = grouped_data.sort_values(ascending=False).head(5)
print(top_5_data)

# 将销售数据按照地区和日期分组,计算平均销售额
grouped_data = sales_data.groupby(['region', 'date'])['sales'].mean()
print(grouped_data.head())

# 添加新列
sales_data['profit'] = sales_data['sales'] * 0.2

# 删除列
sales_data = sales_data.drop(['date'], axis=1)
print(sales_data.head())

5. 总结

本篇笔记介绍了Pandas DataFrame的基本操作,包括创建DataFrame对象、选择子集、添加列、删除列等。虽然本文只列举了一些基本操作,但是Pandas提供的功能非常丰富,可以实现复杂的数据处理任务。

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Pandas库之DataFrame使用的学习笔记 - Python技术站

(0)
上一篇 2023年5月14日
下一篇 2023年5月14日

相关文章

  • 浅谈pandas用groupby后对层级索引levels的处理方法

    首先我们需要了解pandas中的groupby方法的基本操作。groupby方法是对数据进行分组操作的基础,其可以按照指定的列或行对数据进行分组并进行分组后的操作。groupby方法的返回值是一个groupby对象,该对象在进行分组操作后,可以使用多种聚合函数进行运算,如sum、mean、count等。 当进行分组后,groupby对象会创建一个层级索引,其…

    python 2023年5月14日
    00
  • Python根据欧拉角求旋转矩阵的实例

    Python根据欧拉角求旋转矩阵的实例 在三维计算机图形学和机器人学中,欧拉角是一种常用的描述物体旋转的方法。在Python中,我们可以使用欧拉角来计算旋转矩阵。本攻略将介绍如何使用Python根据欧拉角求旋转矩阵,并提供两个示例。 欧拉角 欧拉角是一种描述物体旋转的方法,它由三个角度组成,分别是绕x轴旋转的角度(俯仰角)、绕y轴旋转的角度(偏航角)和绕z轴…

    python 2023年5月14日
    00
  • keras模型保存为tensorflow的二进制模型方式

    保存keras模型为tensorflow的二进制模型可以通过Tensorflow的saved_model API实现。下面分为以下步骤: 加载keras模型 将keras模型转换为Tensorflow模型 保存Tensorflow模型 下面是完整攻略: 加载keras模型 首先,需要加载keras模型。假设我们的keras模型存储在 model.h5 文件中…

    python 2023年5月14日
    00
  • 关于numpy中eye和identity的区别详解

    以下是关于“关于numpy中eye和identity的区别详解”的完整攻略。 背景 在NumPy中,可以使用eye()和identity()函数创建矩阵这两个函数都可以用于创建方阵,但它们的用法和功能略有不同。本攻略将介绍eye()和identity函数区别,并提供两个示例来演示如何使用这些函数。 eye()函数 eye()函数用创建一个二维数组,其中对线上…

    python 2023年5月14日
    00
  • 最新Pygame zero最全集合

    以下是最新Pygame zero最全集合的完整攻略,包括两个示例: 最新Pygame zero最全集合 步骤1:安装Pygame zero 首先,需要安装Pygame zero。可以使用以下命令安装Pygame zero: pip install pgzero 步骤2:创建Pygame zero游戏 接下来,需要创建Pygame zero游戏。可以使用以下代…

    python 2023年5月14日
    00
  • 关于Python中的向量相加和numpy中的向量相加效率对比

    简介 在Python中,我们可以使用列表或元组来表示向量,并使用循环来实现向量的加法。但是,使用循环实现向量加法的效率很低,特别是当向量很大时。因此,我们可以使用numpy库来高效地实现向量加法。 本文将介绍如何在Python中实现向量加法,并比较使用循环和numpy库实现向量加法的效率。 向量相加 在Python中,我们可以使用列表或元组来表示向量,并使用…

    python 2023年5月14日
    00
  • NumPy最常用的8个统计函数

    NumPy是Python中用于科学计算的重要库,提供了大量的数学和科学计算函数和工具,包括一系列的统计函数。在数据分析和机器学习等领域,统计函数是非常重要的一部分。 下面是NumPy中最常用9个统计函数: np.mean:计算数组的平均值。 np.median:计算数组的中位数。 np.var:计算数组的方差。 np.std:计算数组的标准差。 np.min…

    2023年3月1日
    00
  • numpy中的掩码数组的使用

    以下是关于NumPy中掩码数组的使用攻略: NumPy中掩码数组的使用 掩码数组是一种特殊的数组,其中某些素被标记为无效或缺失。在NumPy中,掩数组可以使用numpy.ma模块来创建和操作。以下是一些实现方法: 创建掩码数组 可以使用numpy.ma模块中的masked_array()来创建掩码数组。以下是一个示例: import numpy as np …

    python 2023年5月14日
    00
合作推广
合作推广
分享本页
返回顶部