从pandas一个单元格的字符串中提取字符串方式

针对题目所提到的“从pandas一个单元格的字符串中提取字符串方式”的问题，我给出以下完整攻略：

1. str.extract函数

str.extract函数可以通过正则表达式从一个字符串中提取匹配的子字符串，并返回一个Series。其基本语法为：

df['new_column'] = df['old_column'].str.extract(r'正则表达式')

其中，df是需要提取字符串的DataFrame数据，old_column是需要提取的列名，new_column是返回结果列的名称，r'正则表达式'是正则表达式，其语法在这里不再进行赘述。

示例1：从一个包含邮箱地址的字符串中提取邮件域名部分

例如，对于如下的DataFrame数据，其中email列包含了一些包含邮箱地址的字符串：

ID	Name	Email
1	John	john@example.com
2	Peter	peter@abc.com
3	Mary	mary@gmail.com

现在我们希望从email列中提取出邮件域名部分，可以使用以下代码：

df['domain'] = df['Email'].str.extract(r'@(.*)$')

这样就可以在数据集中增加一个domain列，其中包含了每个邮箱地址的邮件域名部分。

示例2：使用多个分组的正则表达式提取多个信息

例如，对于如下的包含了一些含有信息的字符串，在其中提取出完整的记录、信息名以及信息内容三部分：

import pandas as pd

# 定义字符串数据
data = {
    'Text': ['订单号：1234567890，商品：衣服，价格：$39.99',
             '订单号：2345678901，商品：鞋子，价格：$59.99']
}

# 转换为DataFrame格式
df = pd.DataFrame(data)

# 显示原始数据
print(df)

结果为：

                                        Text
0  订单号：1234567890，商品：衣服，价格：$39.99
1  订单号：2345678901，商品：鞋子，价格：$59.99

可以使用如下代码进行信息提取：

df[['OrderID', 'Product', 'Price']] = df['Text'].str.extract(r'(订单号：\d+).*，(商品：\w+).*，(价格：\$[\d\.]+)')

这样，就可以从原始字符串中提取出OrderID、Product和Price三个信息，并添加到DataFrame中。其中，[]表示指定多个列名，每个列名后边跟随了一个=号，表示把提取的信息放到相应的列中。这里的正则表达式包含了三个分组，分别用于匹配订单号、商品名称和价格。注意，正则表达式中使用了\d+来匹配多个连续数字，使用了\w+来匹配多个字母数字字符，使用了\$[\d\.]+来匹配价格部分的真实值。

以上就是针对“从pandas一个单元格的字符串中提取字符串方式”的完整攻略，希望能对您有所帮助。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：从pandas一个单元格的字符串中提取字符串方式 - Python技术站