零基础写python爬虫之神器正则表达式

yizhihongxing

零基础写Python爬虫之神器正则表达式

正则表达式是一种强大的工具,可以用于匹配、查找和替换文本中的模式。在Python爬虫中,正则表达式常用于解析HTML页面,提取所需的数据。本攻略将详细讲解正则表达式的基本用法、常用符号和示例应用。

基本用法

Python中使用re模块提供的函数来操作正则表达式。常用函数:

  • re.search(pattern, string, flags=0):在字符串中搜索正则表达式的第一个匹配项。
  • re.match(pattern, string, flags=0):在字符串的开头匹配正则表达式。
  • re.findall(pattern, string, flags=0):在字符串中查找正则表达式的所有匹配项。
  • re.sub(pattern, repl, string, count=0, flags=0):在字符串中搜索正则表达式的所有匹配项,并将其替换为指定的字符串。

其中,pattern表示正则表达式,string表示匹配字符串,flags表示正则表达式的匹配模式。

下面是一个例子,示范如何使用re模块的search()函数:

import re

text = 'The quick brown fox jumps over the lazy dog.'
pattern = r'fox'
result = re.search(pattern, text)
if result:
    print('Match found:', result.group())
else:
    print('Match not found')

在上面的代码中,我们使用正则表达式fox匹配字符串中的foxsearch()用于在字符串中搜索正则表达式的第一个匹配项。运行代码后,输出结果为Match found: fox

常用符号

下面是一些常用的正则表达式符号:

  • .:匹配任意字符,除换行符。
  • *:匹配前面的字符零次或多次。
  • +:匹配前面的字符一次或多次。
  • ?:匹配前面的字符零次或一次。
  • ^:匹配字符串的开头。
  • $:匹配字符串的结尾。
  • []:匹配括号中的任意一个字符。
  • ():将括号中的字符作为一个整体进行匹配。
  • |:匹配两个或多个正则表达式中的任一个。

下面是一个例子,演示如何使用正则表达式符号匹配字符串中的数字:

import re

text = 'The price is $1099.'
pattern = r'\d+'
result = re.findall(pattern, text)
if result:
    print('Matches found:', result)
else:
    print('Matches not found')

在上面的代码中,我们使用正则表达式\d+匹配字符串中的数字。\d表示匹配一个数字字符,+表示匹配一个或多个。findall()函数返回匹配的结果。运行后,输出结果为Matches found: ['1099']

示例1:匹配HTML标签中的文本内容

下面是一个例子,演示如何使用正则表达式匹配HTML标签中的文本内容:

import re

text = '<h1>Welcome to website</h>'
pattern = r'<.*?>(.*?)</.*?>'
result = re.search(pattern, text)
if result:
    print('Match found:', result.group(1))
else:
    print('Match not found')

在上面的代码中,我们使用正则表达式<.*?>(.*?)<!--.*?-->匹配HTML标签中的文本内容。<.*?>表示匹配一个或多个任意字符,.*?表示非贪婪匹配,()中的.*?匹配到的字符串作为捕获组。search()用于在字符串中搜索正则表达式的第一个匹配项。运行代码,输出结果为Match found: Welcome to my website

示例2:提取网页中的图片链接

下面是另一个例子,演示如何使用正则表达式提取网页中的图片链接:

import re
import requests

url = 'https://www.example.com'
response = requests.get(url)
html = response.text
pattern = r'<img.*?src="(.*?)".*?>'
result = re.findall(pattern, html)
if result:
    print('Matches found:', result)
else:
    print('Matches not found')

在上面的代码中,我们使用正则表达式<img.*?src="(.*?)".*?>匹配网页中的图片链接。<img.*?>表示匹配img标签,src="(.*?表示匹配src属性中的链接,()表示匹配到的链接作为捕获组。findall()函数返回所有匹配的结果。运行代码后,输出结果为匹配到的图片链接列表。

以上是两个示例,演示了如何使用正则表达式匹配HTML标签的文本内容和提取网页中的图片链接。正则表达式是Python爬虫中常用的工具,读者可以通过这些示例更好地理解正则表达式的应用。

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:零基础写python爬虫之神器正则表达式 - Python技术站

(0)
上一篇 2023年5月14日
下一篇 2023年5月14日

相关文章

  • Python中itertools模块用法详解

    Python中itertools模块用法详解 1. itertools简介 itertools 模块是 Python 标准库中一个非常有用的模块,它提供了非常多高效的生成器用于实现迭代操作。itertools 模块可以帮助我们节省时间和空间,因为它们提供了一些默认的生成器,请注意,这些生成器通常比手动写的更出色。 itertools 扩展了基本迭代器模块,增…

    python 2023年6月3日
    00
  • 详解Python PIL Image.resize()方法

    Python PIL库是Python的一种图像处理库,它提供的Image类中resize()方法用于调整图像大小,可以通过指定目标大小或者缩放比例来实现。 一、resize()方法基本使用 函数原型:Image.resize(size, resample=None, box=None, reducing_gap=None) 参数解释: size:目标大小,接…

    python-answer 2023年3月25日
    00
  • Django的HttpRequest和HttpResponse对象详解

    本攻略将提供一个Django的HttpRequest和HttpResponse对象详解,包括HttpRequest对象和HttpResponse对象的属性和方法。攻略将包含两个示例,分别演示如何使用HttpRequest对象和HttpResponse对象。 HttpRequest对象 HttpRequest对象是Django中的一个类,用于表示HTTP请求。…

    python 2023年5月15日
    00
  • Python全栈之字符串和列表相关操作

    以下是“Python全栈之字符串和列表相关操作”的完整攻略。 1. 字符串相关操作 1.1 字符串的切片操作 在Python中,可以使用切片操作(slice)来获取字符串中的子串。具体来,我们可以使用[start:end:step]的形式来指定切片的范和步长。例如: my_str = ‘hello world’ sub = my_str[0:5] print…

    python 2023年5月13日
    00
  • python中的反斜杠问题深入讲解

    下面就给出一份 Python 中的反斜杠问题深入讲解攻略。 什么是反斜杠? 在计算机编程中,反斜杠(\)是一个特殊字符,通常用于转义(escape)被视为普通字符的字符。我们可以在字符串(string)中使用反斜杠来表示非打印字符、一些保留字符或其他特殊意义字符,这就是转义(escape)序列。 例如,我们可以使用反斜杠字符来在字符串中插入单引号或双引号,或…

    python 2023年6月3日
    00
  • Python内置模块logging用法实例分析

    下面我就来详细讲解“Python内置模块logging用法实例分析”的完整攻略。 Python内置模块logging用法实例分析 1. logging模块介绍 logging是Python标准库中专门处理日志信息的模块,提供了各种日志级别,便于开发人员划分不同的日志级别并输出到不同的位置,方便程序调试。 2. logging模块基本使用 logging模块的…

    python 2023年6月3日
    00
  • python下10个简单实例代码

    以下是关于“Python下10个简单实例代码”的完整攻略: 简介 Python是一种易于学习和使用的编程语言,它具有广泛的应用领域。在本教程中,我们将介绍10个简单的Python实例代码,这些代码涵盖了Python的基础知识和常见的编程问题。 Python实例代码 以下是10个简单的Python实例代码: 1. 计算两个数的和 a = 5 b = 3 sum…

    python 2023年5月14日
    00
  • python实现自动售货机

    Python实现自动售货机攻略 自动售货机是一种现代化的售卖商品的方式,利用这种方式可以大大提高售货的效率和方便性。本文将介绍一种基于Python的自动售货机实现方法。 实现过程 确定商品种类和售价。在程序中设定商品名称和对应售价,可以通过字典的方式来实现。例如: pythonproducts = {‘可乐’: 3, ‘雪碧’: 3, ‘矿泉水’: 2, ‘…

    python 2023年5月19日
    00
合作推广
合作推广
分享本页
返回顶部