Python正则表达式急速入门

正则表达式是一种用于描述字符串模式的语言，可以用于配、查找、替换和分割。在Python中，可以使用re模块使用正则表达式。本攻略将详细介绍正则表达式语法、字符集、转义字符以及常用函数，并提供两个示例说明。

正则表达式语法

正则表达式由普通字符和元字符组成，普通字符表示本身，而元字符有特殊的含义。下面是一些常用的元字符：

.：匹配任意字符。
^：匹配字符串的开头。
$：匹配字符串的结尾。
*：匹配前面字符零次或多次。
+：匹配前面的字符一次或多次。
?：匹配前面的字符零次或一次。
{n}：匹配前面字符n次。
{n,}：匹配前面的字符至少n次。
{n,m}：匹配前面的字符至少n次，但不超过m次。

下面是一个示例：

import re

# 定义正则表达式
pattern = r'ab*c'

# 定义字符串
string1 = ''
string2 = 'abc'
string3 = 'bc'
string4 = 'abbbc'

# 使用re.match方法匹配字符串
match1 = re.match(pattern, string1)
match2 = re.match(pattern, string2)
match3 = re.match(pattern, string3)
match4 = re.match(pattern, string4)

# 输出匹配结果
print(match1)  # None
print(match2.group())  # abc
print(match3)  # None
print(match4.group())  # abbbc

在这个示例中，我们使用正则表达式ab*c匹配字符串中的字符。然后我们定义了四个字符串''、'abc'、'bc'和'abbbc'，其中包含不同数量的字符b。最后我们使用re.match()方法匹配，并输出匹配结果。

字符集

字符集用于匹配一组字符中的任意一个字符。下面是一些常用的字符集：

[abc]：匹配字符a、b或c。
[^abc]：匹配除了字符a、b和c之外的任意字符。
[a-z]：匹配任意小写字母。
[A-Z]：匹配任意大写字母。
[0-9]：匹配任意数字。
[a-zA-Z0-9]：匹配任意字母和数字。

下面是一个示例：

import re

# 定义正则表达式
pattern = r'[a-z]+'

# 定义字符串
string = 'Hello World!'

# 使用re.findall()方法查找匹配项
matches = re.findall(pattern, string)

# 输出匹配结果
print(matches)  # ['ello', 'orld']

在这个示例中，我们使用正则表达式[a-z]+匹配字符串中的小写字母。然后定义了一个字符串Hello World!，其中包含大写字母和标点符号。然后，我们使用re.findall()方法查找所有匹配项，并输出匹配结果['ello', 'orld']。

转义字符

转义字符用于匹配一些特殊的字符，例如\、.、*等。下面是一些常用的转义字符：

.：匹配.字符。
\\：匹配\字符。
*：匹配*字符。
+：匹配+字符。
?：匹配?字符。
\{：匹配{字符。
\}：匹配}字符。
\(：匹配(字符。
\)：匹配)字符。
\|：匹配|字符。

下面是一个示例：

import re

# 定义正则表达式
pattern = r'\d.\d+'

# 定义字符串
string = 'The price is $3.99.'

# 使用re.search()方法查找匹配项
match = re.search(pattern, string)

# 输出匹配结果
if match:
    print(match.group())  # 3.99
else:
    print('No match')

在这个示例中，我们使用正则表达式\d.\d+匹配字符串中的价格。然后定义了一个字符串The price is $3.99.，其中包含了价格信息。最后，我们使用re.search()方法查找匹配项，并输出匹配结果3.99。

常用函数

在Python中，re模块提供了多个函数用于正则表达式的配、查找、替换和分割字符串。下面是一些常用的：

re.match(pattern, string, flags=0)：从字符串的开头匹配正则表达式，如果匹配成功返回一个匹配对象，否则返回None。
re.search(pattern, string, flags=0)：在字符串中查找第一个匹配正则表达式的位置，如果匹配成功返回一个匹配对象，否则返回None。
re.findall(pattern, string, flags=0)：查找字符串中所有匹配正则表达式的子串，并返回一个列表。
re.sub(pattern, repl, string, count=0, flags=0)：使用repl替换字符串中所有匹配正则表达式的子串，count表示替换的最大次数。
re.split(pattern, string, maxsplit=0, flags=0)：使用正则表达式分割字符串，maxsplit表示分割的最大次数。

下面是一个示例：

import re

# 定义正则表达式
pattern = r'\d+'

# 定义字符串
string = 'I have 2 cats and 3 dogs.'

# 使用re.findall()方法查找匹配项
matches = re.findall(pattern, string)

# 输出匹配结果
print(matches)  # ['2', '3']

# 使用re.sub()方法替换匹配项
new_string = re.sub(pattern, '0', string)

# 输出替换结果
print(new_string)  # 'I have 0 cats and 0 dogs.'

# 使用re.split()方法分割字符串
split_string = re.split(pattern, string)

# 输出分割结果
print(split_string)  # ['I have ', ' cats and ', ' dogs.']

在这个示例中，我们使用正则表达式\d+匹配字符串中的数字。然后定义了一个字符串I have 2 cats and 3 dogs.，其中包含了数字信息。然后，我们使用re.findall()方法查找所有匹配项，并输出匹配结果['2', '3']。然后使用re.sub()方法将所有数字替换为0，并输出替换结果'I have 0 cats and 0 dogs.'。最后，我们使用re.split()方法将字符串分割为多个子串，并输出分割结果['I have ', ' cats and ', ' dogs.']。

示例说明

示例1

import re

# 定义正则表达式
pattern = r'\d{3}-\d{2}-\d{4}'

# 定义字符串
string = 'My social security number is 123-45-6789.'

# 使用re.search()方法查找匹配项
match = re.search(pattern, string)

# 输出匹配结果
if match:
    print(match.group())
else:
    print('No match')

在这个示例中，我们使用正则表达式\d{3}-\d{2}-\d{4}匹配字符串中的社会安全号码。然后我们定义一个字符串My social security number is 123-45-6789.，其中包含了社会安全号码信息。最后，我们使用re.search()方法查找匹配项，并输出匹配结果123-45-6789。

示例2

import re

# 定义正则表达式
pattern = r'\b[A-Z][a-z]+\b'

# 定义字符串
string = 'I have a cat named Whiskers and a dog named Rover.'

# 使用re.findall()方法查找匹配项
matches = re.findall(pattern, string)

# 输出匹配结果
print(matches)  # ['I', 'Whiskers', 'Rover']

在这个示例中，我们使用正则表达式\b[A-Z][a-z]+\b匹配字符串中的单词。然后我们定义了一个字符串I have a cat named Whiskers and a dog named Rover.，其中包含了多个单词。最后，我们使用re.findall()方法查找所有匹配项，并输出匹配结果['I', 'Whiskers', 'Rover']。

结语

本攻略详细介绍了Python中正则表达式的语法、字符集、转义字符以及常用函数，并提供了两个示例说明。正则表达式是一种强大的字符串处理工具，可以用于各种文本处理场景。掌握正则表达式的语法和函数，可以大大提高文本处理的效率和准确性。如果你处理大量的文本数据，可以使用Python正则表达式来处理。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Python正则表达式急速入门(小结) - Python技术站

Python正则表达式急速入门(小结)

Python正则表达式急速入门

正则表达式语法

字符集

转义字符

常用函数

示例说明

示例1

示例2

结语

相关文章