Python爬虫学习笔记之正则表达式

正则表达式是一种用于匹配字符串的强大工具，可以在Python爬虫中用于解析HTML、XML等文本数据。本攻略将详细讲解Python中正则表达式的基本语法、常用函数和示例应用。

正则表达式基本语法

正则表达式是由普通字符和特殊字符组成的字符串，用于描述一类字符串的模式。下面是一些常用的正则表达式特殊字符：

.：匹配任意字符，除了换行符。
*：匹配前面的字符零次或多次。
+：匹配前面的字符一次或多次。
?：匹配前面的字符零次或一次。
^：匹配字符串的开头。
$：匹配字符串的结尾。
[]：匹配括号中的任意一个字符。
()：将括号中的字符作为一个整体进行匹配。
|：匹配两个或多个正则表达式中的任意一个。

下面是一个例子，演示如何使用正则表达式匹配字符串中的数字：

import re

text = 'The price is $10.99.'
pattern = r'\d+'
result = re.findall(pattern, text)
if result:
    print('Matches found:', result)
else:
    print('Matches not found')

在上面的代码中，我们使用正则表达式\d+匹配字符串中的数字。\d表示匹配一个数字字符，+表示匹配一个或多个数字字符。findall()函数可以返回所有匹配的结果。运行代码后，输出结果为Matches found: ['10', '99']。

常用正则表达式函数

Python中常用的正则表达式函数包括：

re.search(pattern, string, flags=0)：在字符串中搜索正则表达式的第一个匹配项。
re.match(pattern, string, flags=0)：在字符串的开头匹配正则表达式。
re.findall(pattern, string, flags=0)：在字符串中搜索正则表达式的所有匹配项。
re.sub(pattern, repl, string, count=0, flags=0)：在字符串中搜索正则表达式的所有匹配项，并将其替换为指定的字符串。

下面是一个例子，演示如何使用正则表达式替换字符串中的空格：

import re

text = 'The quick brown fox jumps over the lazy dog.'
pattern = r'\s+'
result = re.sub(pattern, '-', text)
print(result)

在上面的代码中，我们使用正则表达式\s+匹配字符串中的空格。\s表示匹配一个空白字符，+表示匹配一个或多个空白字符。sub()函数用于在字符串中搜索正则表达式的所有匹配项，并将其替换为指定的字符串。运行代码后，输出结果为The-quick-brown-fox-jumps-over-the-lazy-dog.。

示例说明

示例1：提取HTML标签中的文本内容

下面是一个例子，演示如何使用正则表达式提取HTML标签中的文本内容：

import re

text = '<h1>Welcome to my website</h1>'
pattern = r'<.*?>(.*?)</.*?>'
result = re.search(pattern, text)
if result:
    print('Match found:', result.group(1))
else:
    print('Match not found')

在上面的代码中，我们使用正则表达式<.*?>(.*?)提取HTML标签中的文本内容。<.*?>表示匹配一个或多个任意字符，.*?表示非贪婪匹配，()表示将.*?匹配到的字符串作为捕获组。search()函数用于在字符串中搜索正则表达式的第一个匹配项。运行代码后，输出结果为Match found: Welcome to my website。

示例2：提取网页中的图片链接

下面是另一个例子，演示如何使用正则表达式提取网页中的图片链接：

import re
import requests

url = 'https://www.example.com'
response = requests.get(url)
text = response.text
pattern = r'<img.*?src="(.*?)".*?>'
result = re.findall(pattern, text)
if result:
    print('Matches found:', result)
else:
    print('Matches not found')

在上面的代码中，我们使用正则表达式<img.*?src="(.*?)".*?>提取网页中的图片链接。<img.*?>表示匹配一个或多个任意字符，src="(.*?)"表示匹配src属性值，()表示将.*?匹配到的字符串作为捕获组。findall()函数可以返回所有匹配的结果。运行代码后，输出结果为所有图片链接的具体内容。

总结

本攻略详细讲解了Python中正则表达式的基本语法、常用函数和示例应用。正则表达式是一种用于匹配字符串的强大工具，可以在Python爬虫中用于解析HTML、XML等文本数据。演示了如何使用正则表达式匹配字符串中的数字、替换字符串中的空格、提取HTML标签中的文本内容、提取网页中的图片链接。希望读者可以通过这些示例更好地理解正则表达式的应用。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Python 爬虫学习笔记之正则表达式 - Python技术站

Python 爬虫学习笔记之正则表达式