Pandas是一种基于NumPy的库,提供了高效的数据结构和数据分析工具。它的核心数据类型是Series和DataFrame。Series是一种一维数组,可以包含任何数据类型。DataFrame是一个表格型的数据结构,包含有行和列的索引,类似于电子表格或者SQL表。Pandas支持多种数据输入和输出格式,包括CSV、Excel、SQL、JSON等。
下面我们将详细讲解Pandas的数据操作:
1. Series数据类型
1.1 创建Series
可以使用以下语句创建一个Series:
import pandas as pd
import numpy as np
s = pd.Series([1, 3, 5, np.nan, 6, 8])
这里我们创建了一个包含整数和空值的Series。可以通过指定索引值来创建Series:
s = pd.Series([1, 3, 5, np.nan, 6, 8], index=['a', 'b', 'c', 'd', 'e', 'f'])
1.2 访问Series
可以通过索引访问Series中的元素:
print(s[0])
print(s['a'])
可以使用切片访问Series中的一段元素:
print(s[:3])
print(s['a':'c'])
1.3 Series运算
Pandas支持对Series进行基本运算,如对数、指数、三角函数等:
print(s.apply(np.exp))
print(s.apply(np.log))
print(s.apply(np.sqrt))
可以使用算数运算符对两个Series进行运算:
s1 = pd.Series([1, 2, 3])
s2 = pd.Series([4, 5, 6])
print(s1 + s2)
print(s1 * s2)
print(s1 / s2)
2. DataFrame数据类型
2.1 创建DataFrame
可以使用以下语句创建一个DataFrame:
data = {'name': ['Tom', 'Jerry', 'Mike', 'Jack'],
'age': [18, 20, 19, 21],
'gender': ['M', 'M', 'M', 'F']}
df = pd.DataFrame(data)
这里我们创建了一个包含名字、年龄和性别的DataFrame。可以使用这个语句指定要显示的列:
df = pd.DataFrame(data, columns=['name', 'age'])
2.2 访问DataFrame
可以使用以下语句访问DataFrame的一行:
print(df.loc[1])
可以使用以下语句访问DataFrame的一列:
print(df['name'])
print(df.name)
可以使用以下语句访问DataFrame中的一部分:
print(df.loc[1:2, 'name':'age'])
2.3 DataFrame运算
Pandas支持对DataFrame进行基本运算,如对数、指数、三角函数等:
print(df.apply(np.exp))
print(df.apply(np.log))
print(df.apply(np.sqrt))
可以使用算数运算符对两个DataFrame进行运算:
df1 = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df2 = pd.DataFrame({'A': [4, 5, 6], 'B': [7, 8, 9]})
print(df1 + df2)
print(df1 * df2)
print(df1 / df2)
以上就是使用Pandas在Python中进行数据操作的详细讲解。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:使用Pandas在Python中进行数据操作 - Python技术站