Pandas最常用的7种字符串处理方法

Pandas是一个强大的数据处理工具,除了能处理数值和时间序列等数据类型外,还能够方便地处理字符串数据。

常用的字符串处理函数如下表所示:

函数名称 函数功能说明
lower() 将的字符串转换为小写。
upper() 将的字符串转换为大写。
len() 得出字符串的长度。
strip() 去除字符串两边的空格(包含换行符)。
split() 用指定的分割符分割字符串。
cat(sep="") 用给定的分隔符连接字符串元素。
get_dummies() 返回一个带有独热编码值的 DataFrame 结构。
contains(pattern) 如果子字符串包含在元素中,则为每个元素返回一个布尔值 True,否则为 False。
replace(a,b) 将值 a 替换为值 b。
count(pattern) 返回每个字符串元素出现的次数。
startswith(pattern) 如果 Series 中的元素以指定的字符串开头,则返回 True。
endswith(pattern) 如果 Series 中的元素以指定的字符串结尾,则返回 True。
findall(pattern) 以列表的形式返出现的字符串。
swapcase() 交换大小写。
islower() 返回布尔值,检查 Series 中组成每个字符串的所有字符是否都为小写。
issupper() 返回布尔值,检查 Series 中组成每个字符串的所有字符是否都为大写。
isnumeric() 返回布尔值,检查 Series 中组成每个字符串的所有字符是否都为数字。
repeat(value) 以指定的次数重复每个元素。
find(pattern) 返回字符串第一次出现的索引位置。

下面就来详细介绍一下Pandas处理字符串的最常用的8种方法。

str.lower()和str.upper()方法

str.lower()方法可以将字符串全部转换成小写字母。
str.upper()方法可以将字符串全部转换成
大写字母。

示例如下:

import pandas as pd

df = pd.DataFrame({'string': ['Lower', 'UPPER', 'Mixed', 'lowercase and UPPERCASE']})

# 转换成小写
df['lower'] = df['string'].str.lower()

# 转换成大写
df['upper'] = df['string'].str.upper()

print(df)

输出:

                    string                    lower                    upper
0                    Lower                     lower                     LOWER
1                    UPPER                     upper                     UPPER
2                    Mixed                     mixed                     MIXED
3  lowercase and UPPERCASE  lowercase and uppercase  LOWERCASE AND UPPERCASE

str.strip()方法

str.strip()方法可以去掉字符串开头和结尾的空格。

比如:

import pandas as pd

df = pd.DataFrame({'string': ['  Leading spaces', 'Trailing spaces   ', '  Both sides  ', 'No spaces']})

# 去掉空格
df['stripped'] = df['string'].str.strip()

print(df)

输出结果为:

               string           stripped
0     Leading spaces    Leading spaces
1   Trailing spaces   Trailing spaces
2        Both sides          Both sides
3          No spaces          No spaces

str.replace()方法

str.replace()方法可以将字符串中的某个子串替换为另一个子串。

示例:

import pandas as pd

df = pd.DataFrame({'string': ['hello, world', 'goodbye, world', 'hello, pandas']})

# 替换子串
df['replaced'] = df['string'].str.replace('world', 'pandas')

print(df)

输出:

           string         replaced
0    hello, world   hello, pandas
1  goodbye, world  goodbye, pandas
2   hello, pandas   hello, pandas

str.split()方法

str.split()方法可以将字符串按照某个分隔符分割成若干个子串,并返回一个包含这些子串的列表。

例如:

import pandas as pd

df = pd.DataFrame({'string': ['apple,banana,orange', 'dog,cat,rabbit', 'John,Paul,George,Ringo']})

# 按逗号分割
df['split'] = df['string'].str.split(',')

print(df)

输出:

                  string                           split
0     apple,banana,orange        [apple, banana, orange]
1           dog,cat,rabbit              [dog, cat, rabbit]
2  John,Paul,George,Ringo  [John, Paul, George, Ringo]

str.extract()方法

str.extract()方法可以从字符串中提取出满足某个正则表达式的子串。

示例:

import pandas as pd

s_extract = pd.Series(['apple_123', 'banana_456', 'carrot_789', 'dog'])
s_extract = s_extract.str.extract(r'(\w+)_(\d+)')
print(s_extract)

输出结果为:

        0    1
0   apple  123
1  banana  456
2  carrot  789
3     NaN  NaN

str.contains()

str.contains()方法用于检查字符串是否包含指定子串,返回布尔值。

例如:

import pandas as pd

# 创建示例Series
s = pd.Series(['apple', 'banana', 'carrot', 'dog'])
s_contains = s.str.contains('a')
print(s_contains)

输出结果为:

0     True
1     True
2     True
3    False
dtype: bool

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Pandas最常用的7种字符串处理方法 - Python技术站

(2)
上一篇 2023年3月5日
下一篇 2023年3月5日

相关文章

  • 浅谈pandas.cut与pandas.qcut的使用方法及区别

    浅谈pandas.cut与pandas.qcut的使用方法及区别 pandas.cut pandas.cut是用于对一列数据进行分段操作的函数。其语法形式为: pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False, dupli…

    python 2023年5月14日
    00
  • 在Pandas DataFrame中应用if条件的方法

    当我们需要根据某些条件对Pandas DataFrame中的数据进行筛选或操作时,就需要使用到if条件语句。在Pandas DataFrame中应用if条件有多种方法,下面分别介绍其中的两种常用方法,包括: 使用DataFrame的loc方法结合条件语句进行操作; 使用Pandas函数中的where方法结合条件语句进行操作。 方法1. 使用DataFrame…

    python-answer 2023年3月27日
    00
  • Python pandas自定义函数的使用方法示例

    下面我将为你详细讲解,“Python pandas自定义函数的使用方法示例”的完整攻略。 简介 Python pandas是一个十分优秀的数据处理库,其强大的数据处理和操作能力,受到了广大数据分析师和研究人员的青睐。在日常的数据处理中,我们经常会遇到一些需要自定义函数的场景,针对不同的具体业务需求和问题,我们需要自己编写函数来实现。Python pandas…

    python 2023年5月14日
    00
  • python pandas 数据排序的几种常用方法

    Python是一种高效的编程语言,而其中的pandas包是一个非常方便的数据分析工具。pandas可以轻松处理各种数据类型(CSV,Excel,SQL等),并为数据分析提供了很多实用的函数和方法,其中之一就是数据排序。本文将介绍python pandas 数据排序的几种常用方法。 一、排序基础 在pandas中,我们可以使用.sort_values()方法对…

    python 2023年5月14日
    00
  • pandas 查询函数query的用法说明

    下面是关于pandas查询函数query的用法说明的完整攻略。 1. 简介 Pandas是一种数据处理工具,在数据处理的过程中,经常需要进行数据筛选,查询等操作。Pandas提供了一个强大的查询函数query,可以帮助我们更方便地进行数据查询和筛选操作。 2. query函数的基本语法 query函数的基本语法为: DataFrame.query(expr,…

    python 2023年5月14日
    00
  • pandas数据选取:df[] df.loc[] df.iloc[] df.ix[] df.at[] df.iat[]

    Pandas是一种Python常用的数据处理工具,它具有很强的数据选取和处理能力,本文将详细讲解Pandas数据选取的完整攻略。 一、pandas数据选取方法 Pandas提供了丰富的数据选取方法,常用的包括: df[]:基于列名或索引选取列或行; df.loc[]:基于行和列名称选取数据; df.iloc[]:通过整数位置选取数据; df.ix[]:基于行…

    python 2023年5月14日
    00
  • 如何计算Pandas数据框架中某一列的NaN出现次数

    计算 Pandas 数据框架中某一列的 NaN 出现次数,可以使用 Pandas 库自带的 isna() 和 sum() 方法。下面是具体的步骤: 读取数据 首先,我们需要读取数据,可以使用 Pandas 的 read_csv() 方法。读取的数据应该是一个 Pandas 数据框架。 import pandas as pd df = pd.read_csv(…

    python-answer 2023年3月27日
    00
  • Pandas的MultiIndex多层索引使用说明

    Pandas的MultiIndex多层索引使用说明 Pandas中的MultiIndex多层索引是一个强大的功能,可以让我们在一个数据框中使用多个层级的索引,方便我们进行数据探索和分析。本文将详细讲解MultiIndex多层索引的使用,包括创建、切片、索引等等。 创建MultiIndex多层索引 在Pandas中,我们可以通过下面的方式来创建一个MultiI…

    python 2023年6月13日
    00
合作推广
合作推广
分享本页
返回顶部