Python中Pandas.copy()与通过变量复制的区别

2023年3月27日下午4:09 • python-answer

Pandas是Python中非常流行的数据处理和分析库，其中copy()方法是复制数据框的一个常见方法。本篇攻略将从以下几个方面详细讲解copy()方法及其与通过变量复制的区别：

copy()方法的基本用法
shallow copy和deep copy的区别
通过变量复制的特点及与copy()方法的区别
实例演示

1. copy()方法的基本用法

copy()方法是Pandas DataFrame类的一个实例方法，用于创建数据框的副本。创建副本的原因可能是为了避免原始数据被修改，在进行数据处理过程中对原始数据进行备份等等。

copy()方法的基本用法非常简单，只需要调用DataFrame类的实例对象，然后调用copy()方法即可。例如：

import pandas as pd

df = pd.DataFrame({'a': [1, 2, 3], 'b': [4, 5, 6]})
df_copy = df.copy()

这样就能够创建一个df的副本df_copy了。我们可以用print输出这两个数据框的信息，来进行对比：

print(df)
print(df_copy)

输出结果为：

由此可见，这两个数据框是完全一致的。

2. shallow copy和deep copy的区别

但是，copy()方法不仅仅是创建一个副本那么简单。根据Pandas官方文档，copy()方法不仅仅是复制数据，还可以进行深拷贝和浅拷贝的操作。接下来我们就分别来讲解一下浅拷贝和深拷贝的区别。

浅拷贝 (shallow copy)：浅拷贝只是创建一个新的数据框，但是数据框中的元素还是原来数据框中的元素的引用。因此，改变原数据框中的元素会同步改变副本中的元素。浅拷贝非常快，但是可能会导致一些意想不到的副作用。

深拷贝 (deep copy)：深拷贝也是创建一个新的数据框，但是元素中包含的数据是全新的。因此，改变原数据框中的元素不会影响副本中的元素。深拷贝更加安全，但是会占用更多的内存和时间。

在Pandas中，通过参数来控制是否进行深拷贝和浅拷贝。当copy()方法不传递参数时，将默认进行深拷贝。如果希望进行浅拷贝，则可以使用深拷贝时的参数进行控制，将其设置为False即可。例如：

df_copy = df.copy(deep=False)

然后我们来看一下浅拷贝和深拷贝的区别。首先，来展示一下深拷贝的效果：

df.iloc[1, 1] = 100
print(df)
print(df_copy)

输出结果为：

这里我们修改了原始数据df里的位置 (1,1) 的值，将值修改为了100。然后我们打印出df和df_copy的内容，可以发现在df_copy中值还是5，没有变化。

然后来展示一下浅拷贝的效果：

df_copy = df.copy(deep=False)
df.iloc[1, 1] = 100
print(df)
print(df_copy)

输出结果为：

在这个例子中，我们也修改了df中位置(1,1)的值。但是由于df_copy是浅拷贝，因此它们共享相同的数据对象，所以df_copy也在位置(1,1)的地方的值变为了100。

3. 通过变量复制的特点及与copy()方法的区别

除了使用copy()方法，还可以通过直接复制来创建数据框的副本。这种方式似乎是更方便的，但是与使用copy()方法相比，变量复制有以下缺点：

变量复制只适用于浅拷贝，因此可能会产生意想不到的副作用；
与copy()方法相比，变量复制的速度更慢；
变量复制不能够指定是否进行深拷贝，因此不能保证每次复制后的数据的安全性。

因此，我们在实际工作中更加推荐使用copy()方法进行数据框的复制。

4. 实例演示

接下来，我们通过一个实例来展示使用copy()方法的效果。我们首先创建一个数据框，并添加一列名为 'c'，值为 a列与b列之和：

import pandas as pd

df = pd.DataFrame({'a': [1, 2, 3], 'b': [4, 5, 6]})
df['c'] = df['a'] + df['b']

df_copy = df.copy()

然后我们在原始数据框df中修改某一数据，例如将位置(1,1)的值改成0：

df.iloc[1, 1] = 0

在这个操作之后，我们打印出df和df_copy的内容：

print(df)
print(df_copy)

输出结果为：

可以看到，df_copy并没有因为df的修改而受到影响，依然被保持在原来的状态。这就是copy()方法的功效。

同时，我们再来测试一下深拷贝和浅拷贝的效果：

df_shallow = df.copy(deep=False)
df.iloc[1, 1] = 100
print(df)
print(df_shallow)

df_deep = df.copy()
df.iloc[0, 0] = 100
print(df)
print(df_deep)

输出结果为：

     a    b  c
0    1    4  5
1  100  100  2
2    3    6  9

     a    b  c
0    1    4  5
1  100  100  2
2    3    6  9

     a    b  c
0  100    4  5
1  100  100  2
2    3    6  9

   a    b  c
0  1    4  5
1  2  100  2
2  3    6  9

从这个例子中，我们可以看到浅拷贝只能复制出新的数据框，并没有完全复制内部的数据。因此，当数据框内部的数值被改变时，浅拷贝的数据框的值也随之改变。而深拷贝则能够完全拷贝出内部数据的副本，因此，即便修改数据框中的值，深拷贝的数据框也不会受到影响。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Python中Pandas.copy()与通过变量复制的区别 - Python技术站

Python中Pandas.copy()与通过变量复制的区别

1. copy()方法的基本用法

2. shallow copy和deep copy的区别

3. 通过变量复制的特点及与copy()方法的区别

4. 实例演示

相关文章