Python 数据处理库 pandas 入门教程基本操作

yizhihongxing

Python数据处理库pandas入门教程基本操作

简介

pandas是Python中一种很流行的数据处理库,既拥有NumPy数组的高性能计算特性,又具备Excel表格和SQL数据库的灵活性与可操作性,是进行数据清洗、分析、转换等操作的必备利器。本文将通过一些基本操作的实例来帮助读者入门pandas。

安装

在开始使用pandas之前应该先安装它。可以通过pip命令来进行安装:

pip install pandas

导入

安装好pandas之后就可以导入它开始使用了,一般约定俗成的别名为pd:

import pandas as pd

数据对象-DataFrame

pandas主要有两种数据类型,一种是DataFrame,另一种是Series。Series是一维数组,而DataFrame则是二维的类似表格的结构,由行和列组成。在操作数据时一般都是以DataFrame的形式载入数据。

创建DataFrame

通过以下代码创建一个DataFrame对象:

import pandas as pd

data = { 
    'name': ['Jack', 'Kelly', 'Mike'],
    'age': [18, 20, 22], 
    'gender': ['male', 'female', 'male']
}

df = pd.DataFrame(data)
print(df)

输出结果:

    name  age  gender
0   Jack   18    male
1  Kelly   20  female
2   Mike   22    male

读取外部数据到DataFrame

pandas可以通过多种方式读取外部的数据文件格式,比如xlxs、csv等等。以下是读取Excel文件的示例:

import pandas as pd

df = pd.read_excel('data.xlsx')
print(df)

保存DataFrame为外部数据文件

pandas同样可以将DataFrame对象保存为多种外部数据文件格式。以下是将DataFrame保存为csv文件的示例:

import pandas as pd

data = { 
    'name': ['Jack', 'Kelly', 'Mike'],
    'age': [18, 20, 22], 
    'gender': ['male', 'female', 'male']
}

df = pd.DataFrame(data)
df.to_csv('output.csv', index=False)

基本操作

查看基本信息

在使用DataFrame时,一般情况下需要先了解数据的基本信息。比如数据有哪些列、每列都有多少非空数据值、数据类型等等。可以通过以下代码获取这些信息:

import pandas as pd

df = pd.read_excel('data.xlsx')

print(df.columns)  # 获取每列的列名
print(df.dtypes)  # 获取每列的数据类型
print(df.info())  # 获取DataFrame的基本信息

数据选择和过滤

在DataFrame中可以通过多种方式进行数据的选择和过滤。最常用的方法是使用列的名称进行选择:

import pandas as pd

df = pd.read_excel('data.xlsx')

# 选择单列:
print(df['age'])

# 选择多列:
print(df[['name', 'gender']])

# 过滤数据:
print(df[df['age'] > 18])

排序

可以按照某一或多个列的数据进行升序或降序排列:

import pandas as pd

df = pd.read_excel('data.xlsx')

# 按照name列的数据进行升序排列:
print(df.sort_values('name'))

# 按照age和name列的数据进行降序排列:
print(df.sort_values(['age', 'name'], ascending=[False, True]))

示例

示例一:分析餐厅小费数据

import pandas as pd

# 读取小费数据
df = pd.read_csv('tips.csv')
# 输出前几行观察数据
print(df.head())

# 计算小费占账单的比例,并加入到DataFrame中
df['tip_pct'] = df['tip'] / df['total_bill']
# 输出前几行观察数据
print(df.head())

# 查看每个顾客的小费占账单比例的均值、中位数等统计信息
print(df['tip_pct'].describe())

# 按照性别和吸烟习惯分组,查看小费占账单比例的统计信息
grouped = df.groupby(['sex', 'smoker'])['tip_pct'].describe()
print(grouped)

示例二:分析电影评分数据

import pandas as pd

# 读取电影评分数据
movies = pd.read_csv('movies.csv')
ratings = pd.read_csv('ratings.csv')
# 根据"movieId"字段进行合并
data = pd.merge(movies, ratings, on='movieId')
# 针对每个电影计算平均分,并选出前20名进行观察
mean_ratings = data.pivot_table('rating', index='title',
                                 columns='userId', aggfunc='mean')
top20 = mean_ratings.mean().sort_values(ascending=False)[:20]
print(top20)

结论

本文主要介绍了pandas的基础知识和操作方法,并且通过两个示例给读者展示了如何运用pandas进行实际数据分析。在未来的实际使用中可以根据自己的需要掌握更多的操作方法和函数来满足复杂的数据处理需求。

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Python 数据处理库 pandas 入门教程基本操作 - Python技术站

(0)
上一篇 2023年5月14日
下一篇 2023年5月14日

相关文章

  • 如何在Pandas中把分类变量转换为数字变量

    在Pandas中将分类变量转换为数字变量需要使用pandas.Categorical和pandas.factorize方法。 具体步骤如下: 将分类变量转换为Categorical数据类型 df[‘category_column’] = pd.Categorical(df[‘category_column’]) 使用factorize()方法将分类变量转换为…

    python-answer 2023年3月27日
    00
  • Python 查看数据类型与格式

    下面是“Python 查看数据类型与格式”的完整攻略: 查看数据类型 要查看一个变量的数据类型,可以使用Python中内置函数type()。此函数将返回变量所属的数据类型,例如: a = 5 b = ‘hello’ c = True print(type(a)) print(type(b)) print(type(c)) 以上代码输出的结果依次为: <…

    python 2023年5月14日
    00
  • 对pandas里的loc并列条件索引的实例讲解

    接下来我将为您详细讲解“对pandas里的loc并列条件索引的实例讲解”的完整攻略。 1. loc索引简介 loc是Pandas DataFrame一种基于标签的索引方式,表示通过标签选取数据,其格式为df.loc[row_indexer,column_indexer]。 其中,row_indexer为行索引,可省略。column_indexer为列索引,也…

    python 2023年5月14日
    00
  • Pandas数据框架中的转换函数

    Pandas是Python语言中非常常见的数据分析库,其中最常用的功能之一就是数据框架(DataFrame)。Pandas中提供了一些转换函数,可以帮助我们对数据进行转换和调整,本攻略将详细讲解这些函数的用法。 转换函数的类型 在Pandas中,转换函数可以分为以下几种类型: 改变数据类型的转换函数 形状变换的转换函数 数据排序的转换函数 重塑数据的转换函数…

    python-answer 2023年3月27日
    00
  • 基于Python的Houdini插件开发过程详情

    基于Python的Houdini插件开发过程详情 什么是Houdini Houdini是一款由加拿大SideFX公司开发的3D计算机图形软件,有着强大的节点图和编程能力,被广泛应用于影视制作、游戏开发、建筑设计等领域。 Houdini插件开发 Houdini支持使用Python编写插件,开发插件可以让用户快速自定义工具,并且可以将自定义工具分享到Houdin…

    python 2023年6月13日
    00
  • 如何用Python将数据集分成训练集和测试集

    要将数据集分成训练集和测试集,首先需要导入所需的库,包括pandas和sklearn。其中 pandas 用于处理数据,sklearn 则用于数据分离。以下是 Python 代码及详细解释: import pandas as pd from sklearn.model_selection import train_test_split # 读入数据集 dat…

    python-answer 2023年3月27日
    00
  • 在python环境下运用kafka对数据进行实时传输的方法

    这里提供一个在Python环境下使用Kafka对数据进行实时传输的示例攻略。 在这个攻略中,我们将使用以下步骤来完成任务: 安装Kafka和Python Kafka客户端 创建一个主题 发送消息到主题 从主题接收消息 安装Kafka和Python Kafka客户端 首先需要安装Kafka和Python Kafka客户端。 Kafka是一个开源的消息队列系统,…

    python 2023年5月14日
    00
  • Pandas数据框架中两列的差异

    首先,需要说明的是 Pandas 是一个数据分析工具包,是基于 Numpy 的一个开源 Python 函数库。Pandas 最核心的数据结构是两种类型的 DataFrame 和 Series,其中 DataFrame 是一种表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型等),DataFrame 可以被看作是由Series组…

    python-answer 2023年3月27日
    00
合作推广
合作推广
分享本页
返回顶部