下面是“pandas库中 DataFrame的用法小结”的完整攻略,分为以下几个部分:
1. 什么是DataFrame
DataFrame是pandas库中的一种数据结构,类似于Excel中的数据表。DataFrame有行和列,行代表样本,列代表特征。DataFrame可以由多种数据源创建,包括Numpy数组、Python字典、CSV文件等。
2. 创建DataFrame
2.1. 从Numpy数组创建DataFrame
示例:
import pandas as pd
import numpy as np
arr = np.array([[1, 2], [3, 4], [5, 6]])
df = pd.DataFrame(arr, columns=['a', 'b'])
print(df)
输出:
a b
0 1 2
1 3 4
2 5 6
2.2. 从Python字典创建DataFrame
示例:
import pandas as pd
data = {'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35]}
df = pd.DataFrame(data)
print(df)
输出:
name age
0 Alice 25
1 Bob 30
2 Charlie 35
2.3. 从CSV文件创建DataFrame
示例:
import pandas as pd
df = pd.read_csv('data.csv')
print(df)
其中,data.csv是包含数据的CSV文件。
3. 操作DataFrame
3.1. 基本操作
示例:
import pandas as pd
data = {'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35]}
df = pd.DataFrame(data)
print(df.head()) # 输出前5行
print(df.info()) # 输出DataFrame的信息
print(df.describe()) # 输出DataFrame的统计信息
3.2. 访问和修改元素
示例:
import pandas as pd
data = {'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35]}
df = pd.DataFrame(data)
print(df['name']) # 输出name列
print(df.loc[0]) # 输出第一行
df.loc[0, 'name'] = 'David' # 将第一行的name修改为David
print(df)
输出:
0 Alice
1 Bob
2 Charlie
Name: name, dtype: object
name Alice
age 25
Name: 0, dtype: object
name age
0 David 25
1 Bob 30
2 Charlie 35
3.3. 筛选和过滤
示例:
import pandas as pd
data = {'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35]}
df = pd.DataFrame(data)
print(df[df['age'] > 30]) # 输出年龄大于30的行
输出:
name age
2 Charlie 35
4. 结语
以上就是“pandas库中 DataFrame的用法小结”的完整攻略,DataFrame是pandas库中非常重要的数据结构,熟练的掌握DataFrame的用法可以让我们更加高效地进行数据分析和挖掘。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:pandas库中 DataFrame的用法小结 - Python技术站