Pandas库之DataFrame使用的学习笔记

Pandas库之DataFrame使用的学习笔记

1. 什么是Pandas DataFrame

Pandas DataFrame是一个二维表格数据结构,可以存储不同类型的列,并提供了多种操作方式。可以将DataFrame看作是一个Excel表格,它有行和列,每列可以存储不同类型的数据,比如整数、浮点数、字符串等。

2. 如何创建DataFrame对象

可以通过多种方式创建DataFrame对象,比如从CSV文件中读取数据、从字典中创建、从numpy数组中创建等。

2.1 从CSV文件中读取数据

可以使用Pandas的read_csv方法读取CSV文件中的数据,返回一个DataFrame对象。

import pandas as pd

df = pd.read_csv("data.csv")
print(df)

2.2 从字典中创建DataFrame对象

可以使用一个字典来创建DataFrame对象,字典的key表示列名,value表示对应列的数据。

import pandas as pd

data = {'name': ['Alice', 'Bob', 'Charlie'], 'age': [20, 25, 30]}
df = pd.DataFrame(data)
print(df)

输出结果如下:

       name  age
0     Alice   20
1       Bob   25
2  Charlie   30

3. 如何操作DataFrame对象

Pandas提供了多种方式操作DataFrame对象,比如选择子集、添加列、删除列等。

3.1 选择子集

可以使用[]操作符选择DataFrame对象的子集,也可以使用lociloc方法选择子集。

import pandas as pd

data = {'name': ['Alice', 'Bob', 'Charlie'], 'age': [20, 25, 30]}
df = pd.DataFrame(data)

# 使用[]选择子集
print(df['name']) # 选择name列
print(df[0:2]) # 选择前两行
print(df[['name', 'age']]) # 选择name和age两列

# 使用loc选择子集
print(df.loc[0]) # 选择第一行
print(df.loc[[0,2]]) # 选择第一行和第三行
print(df.loc[0:2, 'name']) # 选择前三行的name列

# 使用iloc选择子集
print(df.iloc[0]) # 选择第一行
print(df.iloc[[0,2]]) # 选择第一行和第三行
print(df.iloc[0:2, 0]) # 选择前两行的第一列

3.2 添加列

可以使用[]操作符添加列,也可以使用loc方法。

import pandas as pd

data = {'name': ['Alice', 'Bob', 'Charlie'], 'age': [20, 25, 30]}
df = pd.DataFrame(data)

# 使用[]添加列
df['gender'] = ['F', 'M', 'M']
print(df)

# 使用loc添加列
df.loc[:,'score'] = [80, 90, 85]
print(df)

3.3 删除列

可以使用drop方法删除列。

import pandas as pd

data = {'name': ['Alice', 'Bob', 'Charlie'], 'age': [20, 25, 30], 'gender': ['F', 'M', 'M'], 'score': [80, 90, 85]}
df = pd.DataFrame(data)

# 删除列
df = df.drop(['gender'], axis=1)
print(df)

4. 示例

下面是一个使用DataFrame对象处理销售数据的示例。

import pandas as pd

# 读取CSV文件
sales_data = pd.read_csv("sales.csv")

# 显示前5行
print(sales_data.head())

# 按照国家分组,计算总销售额
grouped_data = sales_data.groupby(['country'])['sales'].sum()
print(grouped_data)

# 显示销售额排名前5的国家
top_5_data = grouped_data.sort_values(ascending=False).head(5)
print(top_5_data)

# 将销售数据按照地区和日期分组,计算平均销售额
grouped_data = sales_data.groupby(['region', 'date'])['sales'].mean()
print(grouped_data.head())

# 添加新列
sales_data['profit'] = sales_data['sales'] * 0.2

# 删除列
sales_data = sales_data.drop(['date'], axis=1)
print(sales_data.head())

5. 总结

本篇笔记介绍了Pandas DataFrame的基本操作,包括创建DataFrame对象、选择子集、添加列、删除列等。虽然本文只列举了一些基本操作,但是Pandas提供的功能非常丰富,可以实现复杂的数据处理任务。

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Pandas库之DataFrame使用的学习笔记 - Python技术站

(0)
上一篇 2023年5月14日
下一篇 2023年5月14日

相关文章

  • Pycharm中安装wordcloud等库失败问题及终端通过pip安装的Python库如何添加到Pycharm解释器中(推荐)

    在Pycharm中安装Python库时,可能会遇到安装失败的问题。这可能是由于网络连接问题、库依赖关系等原因导致的。以下是Pycharm中安装wordcloud等库失败问题及终端通过pip安装的Python库如何添加到Pycharm解释器中的完整攻略,包括代码实现的步骤和示例说明: 安装失败问题解决 检查网络连接:在安装Python库时,需要保证网络连接正常…

    python 2023年5月14日
    00
  • Windows下Python3.6安装第三方模块的方法

    在Windows下,安装Python3.6后,可以使用pip来安装第三方模块。以下是安装第三方模块的步骤: 安装pip 在安装第三方模块之前,需要先安装pip。可以从官方网站下载get-pip.py文件。下载完成后,可以使用以下命令安装pip: python get-pip.py 安装第三方模块 安装pip后,可以使用以下命令安装第三方模块: pip ins…

    python 2023年5月14日
    00
  • 用tensorflow实现弹性网络回归算法

    用TensorFlow实现弹性网络回归算法 弹性网络回归是一种常用的线性回归算法,它可以在保持模型简单性的同时,克服最小二乘法(OLS)的一些缺点,例如对多重共线性的敏感性。本攻略将详细讲解如何使用TensorFlow实现弹性网络回归算法,并提供两个示例。 步骤一:导入库 在使用TensorFlow实现弹性回归算法之前,我们需要先导入相关的库。下面是一个简单…

    python 2023年5月14日
    00
  • 使用LibTorch进行C++调用pytorch模型方式

    使用LibTorch进行C++调用pytorch模型是一种常见的操作。下面将对如何使用LibTorch进行C++调用pytorch模型方式进行详细的讲解。 1. 安装LibTorch 首先需要从官网 https://pytorch.org/ 下载与你的CUDA版本和操作系统匹配的LibTorch库。 下载完成后,将下载的文件解压到你想要安装的目录。然后,在运…

    python 2023年5月14日
    00
  • numpy数组之读写文件的实现

    NumPy数组之读写文件的实现 NumPy是Python中一个重要的科学计算库,它提供了高效的多维数组对象和各数学函数,是数据科和机器学习领域不可或的工具之一。本攻略详细介绍NumPy的读写文件的实现,包括取和写入文本文件、二进制文件等。 读取文本文件 NumPy中,使用np()函数读取文文件,例如: import numpy as np # 读取文本文件 …

    python 2023年5月13日
    00
  • Python图像灰度变换及图像数组操作

    Python图像灰度变换及图像数组操作 在Python中,我们可以使用Pillow库对图像进行处理,包括图像灰度变换和图像数组操作。本攻略将详讲解如何实现这些操作。 图像灰度变换 图像灰度变换是将彩色图像转换为灰度图像过程。在Pillow库中,我们可以使用convert函数将彩色图像转换为灰度图像。下面是一个将彩色图转换为灰度像的示例: from PIL i…

    python 2023年5月13日
    00
  • Win10 系统下快速搭建mxnet框架cpu版本

    下面就是Win10系统下快速搭建mxnet框架cpu版本的完整攻略。 安装Anaconda 下载Anaconda:https://www.anaconda.com/distribution/,选择对应的Python版本和操作系统版本进行下载。 双击下载好的Anaconda安装包,按照提示进行安装即可。安装完成后,可以在命令行窗口中输入conda命令进行测试。…

    python 2023年5月14日
    00
  • numpy数组切片的使用

    以下是关于“numpy数组切片的使用”的完整攻略。 背景 在NumPy中,我们可以使用切片(slice)来访问数组中的元素。本攻略将介绍如何使用NumPy数组切片,并提供两个示例来演示如何使用这些方法。 NumPy数组切片 以下是使用NumPy数组切片的示例: import numpy as np # 创建一个数组 arr = np.array([1, 2,…

    python 2023年5月14日
    00
合作推广
合作推广
分享本页
返回顶部