python 黑板课爬虫闯关-第三关

2023年4月8日下午5:52 • 爬虫

import re
import requests
import time


def main():
    # 访问第三关，需要登录，登录的url
    url_login = 'http://www.heibanke.com/accounts/login/?next=/lesson/crawler_ex02/'
    # 登录成功后，访问第三关url
    url = 'http://www.heibanke.com/lesson/crawler_ex02/'
    session = requests.Session()
    # 获取cookie
    session.get(url_login)
    # 获取csrftoken
    token = session.cookies['csrftoken']

    # 将用户名密码和csrftoken一起提交给登录页面
    session.post(url_login, data={'csrfmiddlewaretoken': token, 'username': 'tianlegg', 'password': '123456'})
    # 登录成功后，携带了token再来访问页面会看到第三关内容，和第二关一样，只不过每次提交时同样需要带着csrftoken，否则还是会报错
    for psd in range(30):
        print(f'test password {psd}')
        session.get(url)
        token = session.cookies['csrftoken']
        r = session.post(url, data={'csrfmiddlewaretoken': token, 'username': 'aa', 'password': psd})
        html = r.text
        if '密码错误' not in html:
            m = re.search('(?<=\<h3\>).*?(?=\</h3\>)', html)
            print(m.group())
            m = re.search('(\<).*?href="([^"]*?)".*?(\>下一关\</a\>)', html)
            print(f'下一关 http://www.heibanke.com{m.group(2)}')
            return
        else:
            time.sleep(1)


if __name__ == '__main__':
    main()

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：python 黑板课爬虫闯关-第三关 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

增量式爬虫

上一篇 2023年4月8日

python 黑板课爬虫闯关-第一关

下一篇 2023年4月8日

Python网络爬虫与信息提取 – requests库入门

requests：HTTP for Humans http://www.python-requests.org 1. requests 库的安装　　Run => cmd => pip install requests 2. requests 的安装小测试：抓取百度主页内容(IDLE) >>> import request…

爬虫 2023年4月11日
000
Python爬虫之selenium库使用详解

Python爬虫之selenium库使用详解本章内容如下：　　　　什么是Selenium　　　　selenium基本使用　　　　声明浏览器对象　　　　访问页面　　　　查找元素　　　　多个元素查找　　　　元素交互操作　　　　交互动作　　　　执行JavaScript　　　　获取元素属性　　　　获取文本值　　　　Frame　　　　等待　　　　浏览器的前进和后退…

爬虫 2023年4月12日
000
Python爬虫之Lxml库与Xpath语法

Lxml库是基于lbxml2的XML解析库的Python封装。作用：使用Xpath语法解析定位网页数据。 Lxml库的安装 windows系统下的安装： #pip安装 pip3 install lxml #wheel安装 #下载对应系统版本的wheel文件:http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml pi…

爬虫 2023年4月11日
000
Python爬虫之Selenium实现窗口截图

下面是“Python爬虫之Selenium实现窗口截图”的攻略： 1. 安装Selenium 首先需要安装Selenium，可使用pip包管理器，输入以下命令： pip install selenium 2. 下载Chromedriver 使用Selenium需要下载浏览器驱动，这里以Chrome浏览器为例，下载对应版本的Chromedriver，在http…

python 2023年5月14日
000
PHP简单爬虫基于QueryList采集库和 ezsql数据库操作类

QueryList是一个基于phpQuery的PHP通用列表采集类,得益于phpQuery，让使用QueryList几乎没有任何学习成本，只要会CSS3选择器就可以轻松使用QueryList了，它让PHP做采集像jQuery选择元素一样简单。官方地址：https://querylist.cc/ ezSQL PHP 是用php开发的一套轻量级的数据库类，这个…

爬虫 2023年4月13日
000
python爬虫—requests库的用法详解

Python爬虫——requests库的用法详解什么是requests库？ requests是Python编程语言的第三方库，开发者可以使用该库对URL发起各种请求，如GET、POST、PUT、DELETE等请求。它支持HTTP/1.1和HTTP/2，同时支持异步协程操作。requests库还对HTTP请求和响应进行了封装，并提供了很多简单易用的方法，让开…

python 2023年5月14日
000
爬虫系列(五) re的基本使用

1、简介究竟什么是正则表达式 (Regular Expression) 呢？可以用下面的一句话简单概括：正则表达式是一组特殊的字符序列，由一些事先定义好的字符以及这些字符的组合形成，常常用于匹配字符串在 Python 中，re 模块就是一个用于处理正则表达式的模块，详细信息可以参考官方文档另外，这里再给大家推荐一个博主常用的测试正则表达式的网…

爬虫 2023年4月11日
000
scrapy爬虫实例分享

下面是关于“scrapy爬虫实例分享”的完整攻略及两个示例说明： Scrapy爬虫实例分享介绍 Scrapy是一个用于爬取网站数据并提取结构化数据的应用程序框架。它可以用于数据挖掘、信息处理或存储历史数据的快速原型开发。安装Scrapy 首先需要安装Python和pip，然后可以使用pip安装Scrapy。在命令行中输入以下命令： pip install…

python 2023年5月14日
000

合作推广

合作推广

返回顶部