Python爬虫-换行的匹配

2023年4月11日上午3:36 • 爬虫

之前在学习爬虫的时候遇到了匹配内容时发现存在换行，这时没法匹配了，后来在网上找到了一种方法，当时懒得记录，今天突然有遇到了这种情况，想想还是在这里记录一下吧。

当时爬取的时csdn首页博客，如下图

Python爬虫-换行的匹配

看了源代码，发现如果使用<a href="....来爬取的话，这样得到的会有许多其他的网址，并不全是我需要得博文，但是用<div class="title">去匹配后面的又出现了换行，但是换行匹配我又不会。。。。

re.compile()函数的一个标志参数叫re.DOTALL，它可以让正则表达式中的点（.）匹配包括换行符在内的任意字符。

pat = ' <div class="title">.*?<h2>.*?<a href="(.*?)" target="_blank"'   # 此时的.就可以匹配包括换行在内的任意字符
rst1 = re.compile(pat, re.DOTALL).findall(data)

Python爬虫-换行的匹配

import urllib.request
import re

url = "http://www.csdn.net/"
data = urllib.request.urlopen(url).read().decode("utf-8")
print(len(data))
pat = ' <div class="title">.*?<h2>.*?<a href="(.*?)" target="_blank"'
rst1 = re.compile(pat, re.DOTALL).findall(data)
print(len(rst1))
for i in range(0, len(rst1)):
    print(rst1[i])
    data = urllib.request.urlopen(rst1[i]).read().decode("utf-8", "ignore")
    urllib.request.urlretrieve(rst1[i], "D:\\python\\studyPython\\爬虫学习\\学习urllib\\blog\\"+str(i+1)+".html")
    print("爬取第：", i+1, "篇博客成功")
print("首页所有博客爬取结束")

Python爬虫-换行的匹配

此时则爬取成功

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Python爬虫-换行的匹配 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

pytho爬虫经常报错错误 Traceback (most recent call last) 错误信息

上一篇 2023年4月11日

Python爬虫准备——requests和bs4安装

下一篇 2023年4月11日

爬虫

python爬虫爬取赶集网数据

前期的配置工作在之前的一篇博文中有提到过，现在直接进行爬取一.创建项目 scrapy startproject putu 二.创建spider文件 1 scrapy genspider patubole patubole.com 三.利用chrome浏览器分析出房价和标题的两个字段的xpath表达式，开始编写patubole.py文件。网络的爬取是通过…

2023年4月8日
000
Python scrapy爬取起点中文网小说榜单

Python Scrapy 爬取起点中文网小说榜单完整攻略 1. 爬取起点中文网小说榜单的网址首先，我们需要知道起点中文网小说榜单的网址。通过分析起点中文网小说榜单页面，我们可以得知榜单的网址为：https://www.qidian.com/rank/yuepiao。 2. 安装Scrapy Scrapy是一个Python的爬虫框架，我们需要先安装它。 p…

python 2023年5月14日
000
【Python爬虫错误】’scrapyd-deploy’ 不是内部或外部命令，也不是可运行的程序或批处理文件

【问题描述】在编写好 python 爬虫程序，准备部署到云服务器上时，遇到一个问题。scrapyd-deploy 1.0 -p caigou 执行上述部署的命令时，提示：’scrapyd-deploy’ 不是内部或外部命令，也不是可运行的程序或批处理文件。【解决办法】找到 Python 的安装路径，进入 Scripts 文件夹。创建两个文件，scrap…

爬虫 2023年4月13日
000
python爬虫 – js逆向之取巧秒解webpack打包的加密参数

前言今天的分析对象是这个：aHR0cHM6Ly9tLmN{防查找，去掉我，包括大括号}0eXVuLmNuL3dhc{防查找，去掉我，包括大括号}C9tYWluL2F1dGgv{防查找，去掉我，包括大括号}bG9naW4= 就是去搞这个登录接口的加密参数就这三个参数第一个不用说，就是个时间戳第二个comParam…

爬虫 2023年4月13日
000
python网络爬虫与信息提取——1.requests库入门

1.更多信息http://www.python-requests.org 2.安装：Win平台: “以管理员身份运行”cmd，执行 pip install requests 3.requests库的七个主要方法： requests.request() 构造一个请求，支撑以下各方法的基础方法requests.get() 获取HTML网页的主要方法，对应于HTT…

爬虫 2023年4月10日
000
分布式爬虫 redis + mongodb +scrapy

zhihuspider.py # -*- coding: utf-8 -*- import json import scrapy from scrapy import Request from zhihuuser.items import ZhihuuserItem class ZhihuspiderSpider(scrapy.Spider): name =…

爬虫 2023年4月11日
000
python爬虫爬取腾讯招聘信息（静态爬虫）

环境： windows7，python3.4 代码：（亲测可正常执行） 1 import requests 2 from bs4 import BeautifulSoup 3 from math import ceil 4 5 header = { 6 ‘User-Agent’: ‘Mozilla/5.0 (Windows NT 6.1; WOW64) …

爬虫 2023年4月11日
000
ruby之selenium自动化 or ruby爬虫利器-selenium

selenium是什么？自动化测试工具，他支持各种浏览器，chrome，firefox等，我们可以在这些浏览器里面安装插件，可以方便的进行web测试，也可以通过代码操作，直接对web界面进行测试。 selenium支持多种语言开发java、python、ruby、c#、js、php等。这边，我用的是ruby+selenium，通过简单的描述，对selen…

爬虫 2023年4月11日
000

合作推广

合作推广

返回顶部