Pandas最常用的7种字符串处理方法

Pandas是一个强大的数据处理工具,除了能处理数值和时间序列等数据类型外,还能够方便地处理字符串数据。

常用的字符串处理函数如下表所示:

函数名称 函数功能说明
lower() 将的字符串转换为小写。
upper() 将的字符串转换为大写。
len() 得出字符串的长度。
strip() 去除字符串两边的空格(包含换行符)。
split() 用指定的分割符分割字符串。
cat(sep="") 用给定的分隔符连接字符串元素。
get_dummies() 返回一个带有独热编码值的 DataFrame 结构。
contains(pattern) 如果子字符串包含在元素中,则为每个元素返回一个布尔值 True,否则为 False。
replace(a,b) 将值 a 替换为值 b。
count(pattern) 返回每个字符串元素出现的次数。
startswith(pattern) 如果 Series 中的元素以指定的字符串开头,则返回 True。
endswith(pattern) 如果 Series 中的元素以指定的字符串结尾,则返回 True。
findall(pattern) 以列表的形式返出现的字符串。
swapcase() 交换大小写。
islower() 返回布尔值,检查 Series 中组成每个字符串的所有字符是否都为小写。
issupper() 返回布尔值,检查 Series 中组成每个字符串的所有字符是否都为大写。
isnumeric() 返回布尔值,检查 Series 中组成每个字符串的所有字符是否都为数字。
repeat(value) 以指定的次数重复每个元素。
find(pattern) 返回字符串第一次出现的索引位置。

下面就来详细介绍一下Pandas处理字符串的最常用的8种方法。

str.lower()和str.upper()方法

str.lower()方法可以将字符串全部转换成小写字母。
str.upper()方法可以将字符串全部转换成
大写字母。

示例如下:

import pandas as pd

df = pd.DataFrame({'string': ['Lower', 'UPPER', 'Mixed', 'lowercase and UPPERCASE']})

# 转换成小写
df['lower'] = df['string'].str.lower()

# 转换成大写
df['upper'] = df['string'].str.upper()

print(df)

输出:

                    string                    lower                    upper
0                    Lower                     lower                     LOWER
1                    UPPER                     upper                     UPPER
2                    Mixed                     mixed                     MIXED
3  lowercase and UPPERCASE  lowercase and uppercase  LOWERCASE AND UPPERCASE

str.strip()方法

str.strip()方法可以去掉字符串开头和结尾的空格。

比如:

import pandas as pd

df = pd.DataFrame({'string': ['  Leading spaces', 'Trailing spaces   ', '  Both sides  ', 'No spaces']})

# 去掉空格
df['stripped'] = df['string'].str.strip()

print(df)

输出结果为:

               string           stripped
0     Leading spaces    Leading spaces
1   Trailing spaces   Trailing spaces
2        Both sides          Both sides
3          No spaces          No spaces

str.replace()方法

str.replace()方法可以将字符串中的某个子串替换为另一个子串。

示例:

import pandas as pd

df = pd.DataFrame({'string': ['hello, world', 'goodbye, world', 'hello, pandas']})

# 替换子串
df['replaced'] = df['string'].str.replace('world', 'pandas')

print(df)

输出:

           string         replaced
0    hello, world   hello, pandas
1  goodbye, world  goodbye, pandas
2   hello, pandas   hello, pandas

str.split()方法

str.split()方法可以将字符串按照某个分隔符分割成若干个子串,并返回一个包含这些子串的列表。

例如:

import pandas as pd

df = pd.DataFrame({'string': ['apple,banana,orange', 'dog,cat,rabbit', 'John,Paul,George,Ringo']})

# 按逗号分割
df['split'] = df['string'].str.split(',')

print(df)

输出:

                  string                           split
0     apple,banana,orange        [apple, banana, orange]
1           dog,cat,rabbit              [dog, cat, rabbit]
2  John,Paul,George,Ringo  [John, Paul, George, Ringo]

str.extract()方法

str.extract()方法可以从字符串中提取出满足某个正则表达式的子串。

示例:

import pandas as pd

s_extract = pd.Series(['apple_123', 'banana_456', 'carrot_789', 'dog'])
s_extract = s_extract.str.extract(r'(\w+)_(\d+)')
print(s_extract)

输出结果为:

        0    1
0   apple  123
1  banana  456
2  carrot  789
3     NaN  NaN

str.contains()

str.contains()方法用于检查字符串是否包含指定子串,返回布尔值。

例如:

import pandas as pd

# 创建示例Series
s = pd.Series(['apple', 'banana', 'carrot', 'dog'])
s_contains = s.str.contains('a')
print(s_contains)

输出结果为:

0     True
1     True
2     True
3    False
dtype: bool
阅读剩余 74%

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Pandas最常用的7种字符串处理方法 - Python技术站

(2)
上一篇 2023年3月5日
下一篇 2023年3月5日

相关文章

  • python绘图pyecharts+pandas的使用详解

    我将为您详细讲解“python绘图pyecharts+pandas的使用详解”。 一. 前言 在数据分析和可视化方面,Python 是非常热门的语言。目前,Python 有许多用于绘制图形的库。然而,由于其简单易用、图形精美等特点,越来越多的人开始使用 pyecharts 作为他们的绘图库。 pyecharts 内部采用了诸如百度 ECharts、Apach…

    python 2023年5月14日
    00
  • 学会这29个常用函数,你就是Pandas专家

    作为Pandas的专家,需要掌握一些常用的函数,并在实际应用中熟练使用它们。下面是学习这29个常用函数的完整攻略: 1. 基本函数 head()、tail():查看DataFrame或Series前几行或后几行的数据。 shape:显示DataFrame或Series数据的维度。 describe():对DataFrame或Series数据的统计特性进行描述…

    python 2023年5月14日
    00
  • Pandas DataFrame结构对象的创建与访问方法

    Pandas DataFrame结构是什么? Pandas DataFrame 是一种二维、大小可变且表格型的数据结构,它可以存储许多类型的数据并提供多种数据操作功能。 DataFrame 既有行索引也有列索引,类似于一个电子表格或 SQL 表格,能够更加方便地处理数据。结构如下图: Pandas DataFrame 的作用主要有: 数据的读取和写入:可以通…

    2023年3月4日
    00
  • 如何在串联Pandas数据帧时添加标识符列

    在Pandas中串联数据帧可以使用concat函数,该函数的axis参数指定了操作方向(行 or 列),若要添加标识符列(也称索引),可以使用keys参数。 以下是完整的攻略: 1.导入Pandas库 import pandas as pd 2.创建多个数据帧 我们可以通过字典进行数据帧的创建,示例代码如下: df1 = pd.DataFrame({‘A’:…

    python-answer 2023年3月27日
    00
  • 如何通过索引和列对Pandas数据框架进行排序

    在Pandas中,我们经常需要对数据进行排序,可以通过 sort_values() 函数来实现。该函数可以按照特定的索引或者列的值对数据框进行排序。下面是如何通过索引和列对Pandas数据框架进行排序的完整攻略。 按照索引排序 可以通过 sort_index() 函数来按照索引对数据框进行排序。该函数默认升序排序,但可以通过指定 ascending 参数来控…

    python-answer 2023年3月27日
    00
  • python pandas利用fillna方法实现部分自动填充功能

    下面我将详细讲解”python pandas 利用 fillna 方法实现部分自动填充功能”的完整攻略。 前言 在数据处理过程中,我们有时候会遇到缺失值的情况。缺失值可能会给我们的分析和建模带来一些问题,比如无法进行预测、导致数据偏差等,因此我们需要对缺失值进行处理。而 fillna 方法就是一个很好的工具,可以用来填充缺失值。 fillna 函数 fill…

    python 2023年5月14日
    00
  • Python 实现将某一列设置为str类型

    实现将某一列设置为str类型需要使用Pandas库中的DataFrame,下面是实现该任务的详细攻略: 第一步: 导入Pandas库 import pandas as pd 第二步:读入数据集 df = pd.read_csv(‘data.csv’) 第三步:将某一列设置为字符串类型 df[‘column_name’] = df[‘column_name’]…

    python 2023年6月13日
    00
  • Python Pandas.factorize()

    让我们来详细讲解Python Pandas.factorize()方法的完整攻略。 一、Pandas.factorize()方法介绍 Pandas.factorize()方法用于将一列中的离散型数据转换成连续的数值型数据。它返回一个元组,包含两个数组,第一个数组是每个唯一值的编码,第二个数组是唯一的、有序的值。 二、Pandas.factorize()方法使…

    python-answer 2023年3月27日
    00
合作推广
合作推广
分享本页
返回顶部