Python Pandas 中的数据结构详解
简介
Pandas 是基于 NumPy 库的一种数据分析工具,它提供了快速高效的数据结构和数据分析工具,是 Python 数据分析工具中不可或缺的一部分。Pandas 提供了两种主要数据结构:Series 和 DataFrame。
Series
Series 是一种类似于一维数组的数据结构,可以存储整数、浮点数、字符串等类型的数据。Series 可以通过索引访问元素,而且元素可以是任意类型。
示例
我们可以通过 Pandas 库创建一个 Series 对象:
import pandas as pd
# 创建一个 Series 对象
s = pd.Series([1, 3, 5, 7, 9])
print(s)
输出:
0 1
1 3
2 5
3 7
4 9
dtype: int64
从输出结果可以看出,Series 的默认索引从 0 开始,数据类型为 int64。
索引
我们可以通过索引访问 Series 对象中的元素:
# 访问第三个元素
print(s[2])
输出:
5
属性
Series 对象有很多属性,比如 index、dtype、shape 等。我们可以通过这些属性获取 Series 对象的信息:
# 获取 index 属性
print(s.index)
# 获取 dtype 属性
print(s.dtype)
# 获取 shape 属性
print(s.shape)
输出:
RangeIndex(start=0, stop=5, step=1)
int64
(5,)
DataFrame
DataFrame 是一种类似于表格的数据结构,可以存储多种类型的数据。DataFrame 由多个 Series 对象组成,每个 Series 对象表示一列数据,每个 Series 对象都有一个名称,称为列名,而 DataFrame 的行索引表示每行数据的位置。
示例
我们可以通过 Pandas 库创建一个 DataFrame 对象:
import pandas as pd
# 创建一个 DataFrame 对象
data = {
'name': ['Tom', 'Jerry', 'Lucy'],
'gender': ['male', 'male', 'female'],
'age': [23, 25, 18]
}
df = pd.DataFrame(data)
print(df)
输出:
name gender age
0 Tom male 23
1 Jerry male 25
2 Lucy female 18
从输出结果可以看出,DataFrame 中每个 Series 对象表示一列数据,每个列的名称为列名,而行索引从 0 开始,表示每行数据的位置。
索引
我们可以通过行索引或列名索引访问 DataFrame 对象中的元素:
# 访问第二行第一列的元素(行索引从 0 开始)
print(df.iloc[1, 0])
# 访问所有行的 name 列
print(df['name'])
输出:
Jerry
0 Tom
1 Jerry
2 Lucy
Name: name, dtype: object
属性
DataFrame 对象有很多属性,比如 columns、index、dtypes、shape 等。我们可以通过这些属性获取 DataFrame 对象的信息:
# 获取 columns 属性
print(df.columns)
# 获取 index 属性
print(df.index)
# 获取 dtypes 属性
print(df.dtypes)
# 获取 shape 属性
print(df.shape)
输出:
```
Index(['name', 'gender', 'age'], dtype='object')
RangeIndex(start=0, stop=3, step=1)
name object
gender object
age int64
dtype: object
(3, 3)
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Python Pandas 中的数据结构详解 - Python技术站