在pandas DataFrame中使用regex将一个字符串分割成若干列

2023年3月27日下午2:48 • python-answer

yizhihongxing

在pandas中，使用正则表达式可以很方便地将一个字符串分割成若干列，具体步骤如下：

读取需要处理的数据：可以使用pd.read_csv()方法读取数据，如果数据是从其他地方获取的，需要将数据转换成pandas DataFrame格式。

import pandas as pd
df = pd.read_csv('data.csv')

定义正则表达式：定义一个正则表达式来匹配需要分割的字符串，以及需要分割的方式。

例如：需要将一个以“-”分割的字符串“AAA-BBB-CCC”分割成三列，可以定义正则表达式为“-”，表示以“-”为分隔符分割字符串。

import re
pattern = '-'

使用正则表达式进行分割：使用pandas的str.split()方法来进行分割操作，其中参数“pat”表示需要匹配的正则表达式。

df[['col1', 'col2', 'col3']] = df['string'].str.split(pat=pattern, expand=True)

其中，"col1"、"col2"、"col3"表示新创建的三列，"string"表示待分割的字符串所在的列名，"expand=True"表示将分隔后的结果展开成若干列。

例如，对以下数据进行分割：

id	string
1	AAA-BBB-CCC
2	DDD-EEE-FFF

代码如下所示：

import pandas as pd
import re

df = pd.DataFrame({'id': [1, 2], 'string': ['AAA-BBB-CCC', 'DDD-EEE-FFF']})
pattern = '-'
df[['col1', 'col2', 'col3']] = df['string'].str.split(pat=pattern, expand=True)

print(df)

输出结果如下：

   id        string col1 col2 col3
0   1   AAA-BBB-CCC  AAA  BBB  CCC
1   2   DDD-EEE-FFF  DDD  EEE  FFF

处理分割后的结果：根据需要可以对分割后的结果进行进一步处理。

例如，可以将分割后的结果转换成数字类型：

df[['col1', 'col2', 'col3']] = df[['col1', 'col2', 'col3']].astype(int)

以上就是在pandas DataFrame中使用正则表达式将一个字符串分割成若干列的完整攻略，希望能够对你有所帮助。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：在pandas DataFrame中使用regex将一个字符串分割成若干列 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

重置Pandas数据框架中的索引

上一篇 2023年3月27日

在Pandas数据框架中分割一列并获得其中的一部分

下一篇 2023年3月27日

pandas 根据列的值选取所有行的示例

下面是针对“pandas根据列的值选取所有行”的详细攻略： 1. 使用boolean mask 在pandas中，可以使用boolean mask来根据列的值选取所有行。具体的步骤如下：使用pandas读取数据，并将其保存为DataFrame类型。对于目标列，使用比较运算符生成boolean mask。使用boolean mask过滤DataFrame…

python 2023年5月14日
000
通过给定的整数索引选择系列或数据框架的某一行

要通过给定的整数索引选择系列或数据框架的某一行，可以使用loc或iloc方法。使用loc方法 loc方法可以通过标签名来选择行，需要指定行标签。示例代码如下： import pandas as pd # 创建数据框架 df = pd.DataFrame({‘A’: [1, 2, 3], ‘B’: [4, 5, 6], ‘C’: [7, 8, 9]}, in…

python-answer 2023年3月27日
000
在Pandas系列中把多索引串联成单一索引

要将多层级（多索引）的数据转换为单层级索引，可以使用Pandas中的reset_index()方法。这个方法将多层级的行列索引变化为最基础的单层级数据。下面是示例代码： import pandas as pd # 创建有多层级索引的数据 data = {‘color’: [‘blue’, ‘green’, ‘red’, ‘white’, ‘yellow’],…

python-answer 2023年3月27日
000
将嵌套的JSON结构转换为Pandas DataFrames

将嵌套的JSON结构转换为Pandas DataFrame可以使用Pandas库中的json_normalize函数，以下是详细步骤：导入 Pandas 库： import pandas as pd 使用 json_normalize 函数读取 json 数据，json_normalize 函数可以将嵌套的 json 结构转换为扁平的表格结构： df = …

python-answer 2023年3月27日
000
使用Pandas在Python中进行数据操作

Pandas是一种基于NumPy的库，提供了高效的数据结构和数据分析工具。它的核心数据类型是Series和DataFrame。Series是一种一维数组，可以包含任何数据类型。DataFrame是一个表格型的数据结构，包含有行和列的索引，类似于电子表格或者SQL表。Pandas支持多种数据输入和输出格式，包括CSV、Excel、SQL、JSON等。下面我们…

python-answer 2023年3月27日
000
pandas重复行删除操作df.drop_duplicates和df.duplicated的区别

Pandas 是一种用于数据操作和分析的强大 Python 库。在数据分析的过程中，经常会遇到需要删除重复数据的情况。而 Pandas 提供了两种方法来删除重复行，即 df.drop_duplicates() 和 df.duplicated()。下面分别进行详细讲解： df.drop_duplicates() df.drop_duplicates(subse…

python 2023年6月13日
000
Pandas DataFrame中的tuple元素遍历的实现

Pandas是Python语言中常用的数据科学库之一，提供了用于处理结构化数据的高级数据结构和函数。其中，Pandas DataFrame是最常用的数据结构之一。本攻略将详细讲解如何对Pandas DataFrame中的tuple元素进行遍历。 1. 引言在进行数据分析时，常常需要遍历Pandas DataFrame中的数据。当某些列的数据类型为tuple…

python 2023年5月14日
000
一文搞懂Pandas数据透视的4个函数的使用

下面就为您详细讲解“一文搞懂Pandas数据透视的4个函数的使用”的完整攻略。 1. 功能介绍 Pandas是一个Python数据分析库，数据透视是其中一个常用的操作。Pandas提供了4个函数来实现数据透视，这4个函数分别是： pivot_table(): 生成透视表 crosstab(): 生成交叉表 melt(): 将宽表转换成长表 stack() &…

python 2023年5月14日
000

合作推广

合作推广

返回顶部