Pandas是一个数据处理工具,其核心模块是pandas库。在Pandas中,有两种基础的数据结构:Series和DataFrame。
Series
Series是一种类似于一维数组的数据结构,它由一组数据和一组相关的标签组成,我们可以通过索引来访问数据。Series的标签又叫索引,它们可以是整数、浮点数或字符串等类型。
下面是一个创建Series的例子:
import pandas as pd
s = pd.Series([1, 2, 3, 4, 5])
print(s)
输出:
0 1
1 2
2 3
3 4
4 5
dtype: int64
上述代码中,我们创建了一个名为s
的Series,由一组数字1、2、3、4、5组成,并自动分配了默认的整数索引。可以看到,Series中的每个元素都有一个索引,从0开始递增。
我们可以自定义Series的索引,如下所示:
s = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])
print(s)
输出:
a 1
b 2
c 3
d 4
e 5
dtype: int64
上述代码中,我们使用提供的索引为Series创建了一个自定义的索引。
DataFrame
DataFrame是一种类似于二维数组或SQL表的数据结构,它由行索引和列索引组成,以及每列的数据类型可以不同。DataFrame中的每列数据可以是一个Series,也可以是Python中的列表、字典等数据结构。
下面是一个创建DataFrame的例子:
import pandas as pd
data = {
'name': ['Jack', 'Tom', 'Mary'],
'age': [18, 20, 22],
'gender': ['M', 'M', 'F']
}
df = pd.DataFrame(data)
print(df)
输出:
name age gender
0 Jack 18 M
1 Tom 20 M
2 Mary 22 F
可以看到,我们使用一个Python字典创建了一个名为df
的DataFrame,其中每个键对应DataFrame中的一列数据。在这个例子中,数据包含了每个人的姓名、年龄和性别。
我们也可以自定义DataFrame的行索引,如下所示:
df = pd.DataFrame(data, index=['student1', 'student2', 'student3'])
print(df)
输出:
name age gender
student1 Jack 18 M
student2 Tom 20 M
student3 Mary 22 F
上述代码中,我们使用提供的索引为DataFrame创建了一个自定义的行索引。
除了以上提到的两种数据结构之外,Pandas还有其他类型的数据结构,如Panel和Panel4D,但这些类型用得并不多。以上两种数据结构已经足够我们完成大部分的数据处理任务。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Pandas中的数据结构 - Python技术站