介绍pandas字符串分割str.split()函数之前,先简单介绍一下pandas库。pandas是基于numpy构建的,一种用于数据分析、数据操作和数据可视化的Python库。pandas提供了大量的数据操作函数,这些函数基于numpy的函数进行扩展和优化,利用pandas处理数据可以大大提高效率,方便快捷地进行数据统计建模等工作。
str.split()函数是pandas中用来对字符串进行分割的函数,常用的分隔符有逗号、空格、制表符等,函数的具体用法如下:
Series.str.split(pat=None, n=- 1, expand=False)
DataFrame.str.split(pat=None, n=- 1, expand=False)
其中,Series和DataFrame都是pandas库中的数据结构,Series表示一维数组,DataFrame表示二维表格。
参数说明:
- pat:字符串或正则表达式,用来分割字符串,默认为None,如果不指定分隔符,则以空格为分割符。
- n:分割的次数,默认为-1,表示不限制分割次数。
- expand:是否展开分割后的数据,如果为True,会生成一个DataFrame,每个分割后的元素为一列,如果为False,分割后的元素会存储在列表中。
下面通过2个示例说明str.split()函数的具体用法:
- 对字符串进行逗号分割,展开分割后的数据为DataFrame
import pandas as pd
# 构建一维数组
s = pd.Series(['Jack,23,男', 'Tom,24,女'])
# 对每个字符串进行逗号分割,展开分割后的数据为DataFrame
df = s.str.split(',', expand=True)
print(df)
'''
0 1 2
0 Jack 23 男
1 Tom 24 女
'''
- 对字符串进行空格分割,不展开分割后的数据
import pandas as pd
# 构建一维数组
s = pd.Series(['hello world', 'hi python'])
# 对每个字符串进行空格分割,不展开分割后的数据
result = s.str.split(' ')
print(result)
'''
0 [hello, world]
1 [hi, python]
dtype: object
'''
以上就是str.split()函数的具体用法说明,该函数的灵活性非常高,可以对不同的字符串使用不同的分隔符或正则表达式进行分割。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:python语言中pandas字符串分割str.split()函数 - Python技术站