Pandas对象使用自定义函数的3个方法！

Pandas为什么要使用自定义函数？

使用自定义函数可以让我们更灵活地对数据进行处理和分析。在某些情况下，内置的函数可能无法满足我们的需求，例如需要进行特定的数据清洗、转换或计算。这时候，我们可以编写自己的函数来处理数据。同时，自定义函数也可以让我们更好地复用代码，提高开发效率。

接下来我们将详细介绍Pandas使用自定义函数的4种方法。

Pandas使用自定义函数的3种方法

apply()函数

apply() 方法可以将一个函数应用于一维的 Pandas 对象，比如 Series 或 DataFrame 的某一列或某一行。具体来说，对于 DataFrame，apply() 方法默认按列进行操作，也可以通过指定 axis 参数来按行进行操作。

操作 Series 对象

对于操作 Series 对象，使用 apply() 方法可以将一个函数应用于 Series 中的每个元素，然后返回处理后的结果。例如：

import pandas as pd

# 创建一个 Series 对象
s = pd.Series([1, 2, 3, 4, 5])

# 定义一个函数
def square(x):
    return x ** 2

# 使用 apply() 方法应用函数
s.apply(square)

这将返回一个新的 Series 对象，其中每个元素都是原始 Series 对象中相应元素的平方。

操作DataFrame 对象

对于 DataFrame 对象，使用 apply() 方法可以将一个函数应用于 DataFrame 的每一列或每一行。可以通过 axis 参数来指定是对列进行操作（axis=0）还是对行进行操作（axis=1）。例如：

import pandas as pd

# 创建一个 DataFrame 对象
df = pd.DataFrame({'A': [1, 2, 3, 4], 'B': [5, 6, 7, 8], 'C': [9, 10, 11, 12]})

# 定义一个函数
def multiply(x, factor):
    return x * factor

# 使用 apply() 方法应用函数
df.apply(multiply, factor=2, axis=0)

这将返回一个新的 DataFrame 对象，其中每个元素都是原始 DataFrame 对象中相应元素的两倍，因为我们对列进行操作并将因子设置为 2。

与lambda 表达式结合使用

另外，可以通过 apply() 方法与 lambda 表达式结合使用，以创建一次性的简短函数。例如：

import pandas as pd

# 创建一个 Series 对象
s = pd.Series([1, 2, 3, 4, 5])

# 使用 apply() 方法和 lambda 表达式应用函数
s.apply(lambda x: x ** 2)

最后，如果在 apply() 方法中使用参数时，需要将参数传递给函数。可以使用 args 参数来传递单个参数，也可以使用 kwargs 参数来传递关键字参数。例如：

import pandas as pd

# 创建一个 Series 对象
s = pd.Series([1, 2, 3, 4, 5])

# 定义一个函数
def power(x, power=2):
    return x ** power

# 使用 apply() 方法和关键字参数应用函数
s.apply(power, power=3)

这将返回一个新的 Series 对象，其中每个元素都是原始 Series 对象中相应元素的立方，因为我们将指数设置为 3。

applymap()函数

Pandas 的 DataFrame 对象提供了一个 applymap() 方法，该方法可以对 DataFrame 的所有元素应用一个函数，并返回新的 DataFrame 对象。

applymap() 方法接收一个函数作为参数，并将函数应用于 DataFrame 中的每个元素。该函数可以是内置的 Python 函数，也可以是用户自定义的函数。

下面是 applymap() 方法的语法：

DataFrame.applymap(func)

其中，func 表示要应用于 DataFrame 中每个元素的函数。

下面是一个简单的示例，演示了如何使用 applymap() 方法将 DataFrame 中的所有元素转换为小写字母：

import pandas as pd

# 创建一个 DataFrame
df = pd.DataFrame({
   'Name': ['John Smith', 'Jane Doe', 'Tom Jones', 'Sue Smith'],
   'Age': [35, 28, 45, 32],
   'Country': ['USA', 'Canada', 'UK', 'USA']
})

# 定义一个函数，将字符串转换为小写字母
def convert_to_lower(s):
   return s.lower()

# 使用 applymap() 方法将 DataFrame 中的所有元素转换为小写字母
df_lower = df.applymap(convert_to_lower)

print(df_lower)

在这个示例中，我们首先创建了一个包含 Name、Age 和 Country 列的 DataFrame。然后，我们定义了一个名为 convert_to_lower() 的函数，它将字符串转换为小写字母。最后，我们使用 applymap() 方法将该函数应用于 DataFrame 中的每个元素，并将结果存储在一个新的 DataFrame 中。

输出结果如下：

         Name  Age Country
0  john smith   35     usa
1    jane doe   28  canada
2   tom jones   45      uk
3   sue smith   32     usa

另外，使用 applymap() 方法时需要注意以下几点：

如果 DataFrame 的数据类型不同，则 applymap() 方法将对每个元素进行函数映射，并返回新的 DataFrame。
如果 DataFrame 的数据类型相同，则建议使用 apply() 方法，而不是 applymap() 方法。
如果 DataFrame 中包含缺失值（NaN），则 applymap() 方法会将其忽略。

map()函数

Pandas中的 map()是Series对象的一种方法，它将函数应用于Series中的每个元素，然后返回新的Series对象，其每个元素都是应用函数后的结果。

map()函数的基本语法为：

Series.map(func, na_action=None)

其中，func是自定义函数或lambda函数，na_action是指定当Series对象包含缺失值时的行为。

示例代码：

import pandas as pd

# 创建一个Series对象
s = pd.Series([1, 2, 3, 4, 5])

# 自定义一个lambda函数
double = lambda x: x * 2

# 将lambda函数应用于Series对象
new_s = s.map(double)

print(new_s)

输出结果为：

0     2
1     4
2     6
3     8
4    10
dtype: int64

在上面的代码中，我们定义了一个Series对象s，然后定义了一个lambda函数double，将其应用于Series对象s，并将结果保存在新的Series对象new_s中。最后打印出new_s的值。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Pandas对象使用自定义函数的3个方法！ - Python技术站