Pandas库之DataFrame使用的学习笔记

yizhihongxing

Pandas库之DataFrame使用的学习笔记

1. 什么是Pandas DataFrame

Pandas DataFrame是一个二维表格数据结构,可以存储不同类型的列,并提供了多种操作方式。可以将DataFrame看作是一个Excel表格,它有行和列,每列可以存储不同类型的数据,比如整数、浮点数、字符串等。

2. 如何创建DataFrame对象

可以通过多种方式创建DataFrame对象,比如从CSV文件中读取数据、从字典中创建、从numpy数组中创建等。

2.1 从CSV文件中读取数据

可以使用Pandas的read_csv方法读取CSV文件中的数据,返回一个DataFrame对象。

import pandas as pd

df = pd.read_csv("data.csv")
print(df)

2.2 从字典中创建DataFrame对象

可以使用一个字典来创建DataFrame对象,字典的key表示列名,value表示对应列的数据。

import pandas as pd

data = {'name': ['Alice', 'Bob', 'Charlie'], 'age': [20, 25, 30]}
df = pd.DataFrame(data)
print(df)

输出结果如下:

       name  age
0     Alice   20
1       Bob   25
2  Charlie   30

3. 如何操作DataFrame对象

Pandas提供了多种方式操作DataFrame对象,比如选择子集、添加列、删除列等。

3.1 选择子集

可以使用[]操作符选择DataFrame对象的子集,也可以使用lociloc方法选择子集。

import pandas as pd

data = {'name': ['Alice', 'Bob', 'Charlie'], 'age': [20, 25, 30]}
df = pd.DataFrame(data)

# 使用[]选择子集
print(df['name']) # 选择name列
print(df[0:2]) # 选择前两行
print(df[['name', 'age']]) # 选择name和age两列

# 使用loc选择子集
print(df.loc[0]) # 选择第一行
print(df.loc[[0,2]]) # 选择第一行和第三行
print(df.loc[0:2, 'name']) # 选择前三行的name列

# 使用iloc选择子集
print(df.iloc[0]) # 选择第一行
print(df.iloc[[0,2]]) # 选择第一行和第三行
print(df.iloc[0:2, 0]) # 选择前两行的第一列

3.2 添加列

可以使用[]操作符添加列,也可以使用loc方法。

import pandas as pd

data = {'name': ['Alice', 'Bob', 'Charlie'], 'age': [20, 25, 30]}
df = pd.DataFrame(data)

# 使用[]添加列
df['gender'] = ['F', 'M', 'M']
print(df)

# 使用loc添加列
df.loc[:,'score'] = [80, 90, 85]
print(df)

3.3 删除列

可以使用drop方法删除列。

import pandas as pd

data = {'name': ['Alice', 'Bob', 'Charlie'], 'age': [20, 25, 30], 'gender': ['F', 'M', 'M'], 'score': [80, 90, 85]}
df = pd.DataFrame(data)

# 删除列
df = df.drop(['gender'], axis=1)
print(df)

4. 示例

下面是一个使用DataFrame对象处理销售数据的示例。

import pandas as pd

# 读取CSV文件
sales_data = pd.read_csv("sales.csv")

# 显示前5行
print(sales_data.head())

# 按照国家分组,计算总销售额
grouped_data = sales_data.groupby(['country'])['sales'].sum()
print(grouped_data)

# 显示销售额排名前5的国家
top_5_data = grouped_data.sort_values(ascending=False).head(5)
print(top_5_data)

# 将销售数据按照地区和日期分组,计算平均销售额
grouped_data = sales_data.groupby(['region', 'date'])['sales'].mean()
print(grouped_data.head())

# 添加新列
sales_data['profit'] = sales_data['sales'] * 0.2

# 删除列
sales_data = sales_data.drop(['date'], axis=1)
print(sales_data.head())

5. 总结

本篇笔记介绍了Pandas DataFrame的基本操作,包括创建DataFrame对象、选择子集、添加列、删除列等。虽然本文只列举了一些基本操作,但是Pandas提供的功能非常丰富,可以实现复杂的数据处理任务。

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Pandas库之DataFrame使用的学习笔记 - Python技术站

(0)
上一篇 2023年5月14日
下一篇 2023年5月14日

相关文章

  • Windows10下 python3.7 安装 facenet的教程

    下面是详细讲解“Windows10下python3.7安装facenet的教程”的完整攻略: 1. 下载并安装Anaconda Anaconda是一个包含Python和许多常用库的科学计算发行版。我们使用Anaconda来简化Python的安装过程。 首先,从官网上下载适合自己的Anaconda版本(https://www.anaconda.com/down…

    python 2023年5月14日
    00
  • 解决Linux Tensorflow2.0安装问题

    解决Linux Tensorflow 2.0安装问题 Tensorflow是一个非常流行的深度学习框架,但在Linux系统上安装Tensorflow 2.0时可能会遇到一些问题。本文将详细讲解如何解决Linux Tensorflow 2.0安装问题,并提供两个示例说明。 1. 安装依赖 在安装Tensorflow 2.0之前,需要先安装一些依赖。可以使用以下…

    python 2023年5月14日
    00
  • tensor和numpy的互相转换的实现示例

    以下是关于“tensor和numpy的互相转换的实现示例”的完整攻略。 背景 在深度学习中,TensorFlow 和 PyTorch 是常用的深度学习框架。在这两个框架中,Tensor 和 NumPy 数组是两种常用的数据类型。在某些情况下,我们可能需要将 Tensor 转换为 NumPy 数组,或将 NumPy 数组转换为 Tensor。本攻略将详细介绍如…

    python 2023年5月14日
    00
  • numpy中np.dstack()、np.hstack()、np.vstack()用法

    以下是关于numpy中np.dstack()、np.hstack()、np.vstack()用法的攻略: numpy中np.dstack()、np.hstack()、np.vstack()用法 在NumPy中,可以使用np.dstack()、np.hstack()、np.vstack()方法将多个数组沿不同的轴组合成一个新的数组。以下是一些常用的方法: np…

    python 2023年5月14日
    00
  • Python进行数据提取的方法总结

    Python进行数据提取的方法总结 数据提取是数据分析和机器学习中非常重要的一步。在本攻略中,我们将介绍Python常用的数据提取方法,并提供两个示例。 步骤一:导入库 首先,我们需要导入常用的数据处理库,包括pandas和numpy。可以使用以下代码导入: import pandas as pd import numpy as np 步骤二:读取数据 接下…

    python 2023年5月14日
    00
  • python安装gdal的两种方法

    GDAL是一个开源的地理信息系统库,提供了对各种栅格和矢量地理数据格式的读写和转换功能。在Python中使用GDAL需要安装GDAL的Python绑定库。以下是Python安装GDAL的两种方法的完整攻略,包括方法的介绍和示例说明: 使用pip安装GDAL 可以使用pip命令安装GDAL的Python绑定库。但是,在安装之前需要先安装GDAL的C++库和头文…

    python 2023年5月14日
    00
  • 详解NumPy矩阵乘法操作

    在NumPy中,矩阵乘法是常见的操作之一。矩阵乘法可以用 numpy.dot() 或 @ 运算符来执行。在这里我们将详细介绍这两种方法以及它们的使用。 numpy.dot() numpy.dot() 函数用于计算两个数组的点积,也就是矩阵乘法。对于二维数组,它计算矩阵乘积,对于一维数组,它计算点积。对于 N 维数组,它是沿最后一个轴的和的乘积。它的语法如下:…

    Numpy 2023年3月3日
    00
  • python爬虫之selenium模块

    来详细讲解一下”Python爬虫之selenium模块”的完整攻略。 什么是selenium模块 Selenium是一个自动化测试框架,可以通过编写程序模拟人为操作浏览器完成任务。由于其自动化浏览器的能力,selenium也可以用来编写网页爬虫。与常见的 requests、BeautifulSoup 等实现解析 HTML 的方式不同,Selenium 是启动…

    python 2023年5月14日
    00
合作推广
合作推广
分享本页
返回顶部