爬虫day 04(通过登录去爬虫解决django的csrf_token)

2023年4月11日下午9:32 • 爬虫

#通过登录去爬虫
#首先要有用户名和密码
import urllib.request
import http.cookiejar
from lxml import etree
head = {
    'Connection': 'Keep-Alive',
    'Accept': 'text/html, application/xhtml+xml, */*',
    'Accept-Language': 'en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3',
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko'
}
# 给opener加上cookie
def makeMyOpener(head):
    cj = http.cookiejar.CookieJar()
    opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))
    header = []
    for key, value in head.items():
        elem = (key, value)
        header.append(elem)
    opener.addheaders = header
    return opener
# 爬自己的页面 
oper = makeMyOpener(head)
uop = oper.open('http://127.0.0.1:8000/index/loginHtml/', timeout = 1000)
data = uop.read()
html = data.decode()
# lxml提取 csrfmiddlewaretoken

 selector = etree.HTML(html) links = selector.xpath('//form/input[@name="csrfmiddlewaretoken"]/@value') for link in links: csrfmiddlewaretoken = link print(link) url = 'http://127.0.0.1:8000/index/login/' datas = {'csrfmiddlewaretoken':csrfmiddlewaretoken,'email':'aa','pwd':'aa'}
# 必须要把字符串改为二进制流
data_encoded = urllib.parse.urlencode(datas).encode(encoding='utf-8')
response = oper.open(url,data_encoded)
content = response.read()
html = content.decode()
print(html)

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：爬虫day 04(通过登录去爬虫解决django的csrf_token) - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

跟潭州学院的强子老师学习网络爬虫—爬取全书网

上一篇 2023年4月11日

python的基础爬虫（利用requests和bs4）

下一篇 2023年4月11日

Python爬虫：通过关键字爬取百度图片

下面我将详细讲解“Python爬虫：通过关键字爬取百度图片”这篇文章的完整攻略。 1. 确定需求在进行网站爬虫时，首先需要明确自己的需求。在这篇文章中，我们的需求是通过输入关键字，从百度图片中获取相关的图片。 2. 分析网站在确定了需求之后，我们需要对目标网站进行分析。在这篇文章中，我们需要分析百度图片网站。具体分析方法如下：打开百度图片网站；在搜索…

python 2023年5月14日
000
Python爬虫程序架构和运行流程原理解析

Python爬虫程序架构和运行流程原理解析概述 Python爬虫程序的架构和运行流程大致可以分为以下几个步骤：确定爬取目标：首先我们需要确定需要爬取的目标，例如一个网站，或者一个特定的页面。编写爬虫程序：接下来我们需要编写爬虫程序，通过代码实现模拟浏览器访问页面，提取页面中我们想要的数据。数据处理和存储：从页面中提取到的数据需要进行处理和存储，以方便…

python 2023年5月14日
000
爬虫

python爬虫 – js逆向之猿人学第一题源码加密

前言由于最近一直没有一个练手的平台，苦苦寻找好久，找到了猿人学平台，其实我很早就知道这个平台，他们2020年刚还是搞爬虫大赛的时候我就看到了，只是没有仔细去研究，都只是大概的看了下，最近有空就特意的分析了下，还真的有点东西，至少我觉得比较有意思分析先看题：然后查看翻页，这个接口不难找：但是看提交的参数： …

2023年4月13日
000
Python探索之爬取电商售卖信息代码示例

我会为你详细讲解“Python探索之爬取电商售卖信息代码示例”的完整攻略。一、前置知识在开始学习“Python探索之爬取电商售卖信息代码示例”之前，我们需要掌握以下知识： Python基础语法，包括数据类型、控制语句、函数、模块、异常处理等。 HTTP协议基础知识，了解HTTP请求响应的基本流程，掌握常见的HTTP请求方法和状态码。网页结构基础知识，包…

python 2023年5月14日
000
完整爬虫步骤（进阶）

import randomimport requestsfrom fake_useragent import UserAgentfrom retrying import retryimport hashlib #信息摘要 md5import queue #队列import re #正则表达式from urllib import robotparser #解析…

爬虫 2023年4月8日
000
Python爬虫利器三之Xpath语法与lxml库的用法

前面我们介绍了 BeautifulSoup 的用法，这个已经是非常强大的库了，不过还有一些比较流行的解析库，例如 lxml，使用的是 Xpath 语法，同样是效率比较高的解析方法。如果大家对 BeautifulSoup 使用不太习惯的话，可以尝试下 Xpath。参考来源 lxml用法源自 lxml python 官方文档，更多内容请直接参阅官方文档，本文对…

爬虫 2023年4月11日
000
网络爬虫+SQL注入检测二

4.2 爬虫的编写爬虫的思路我们上面已经讲过了，先完成url的管理，我们单独将他作为一个类文件保存在lib/core/UrlManager.py。 #!/usr/bin/env python #-*- coding:utf-8 -*- class UrlManager(object): def __init__(self): se…

爬虫 2023年4月11日
000
python爬虫数据采集ip被封一篇解决

代理服务的介绍：我们在做爬虫的过程中经常最初爬虫都正常运行，正常爬取数据，一切看起来都是美好，然而一杯茶的功夫就出现了错误。如：403 Forbidden错误，“您的IP访问频率太高”错误，或者跳出一个验证码让我们输入，之后解封，但过一会又出现类似情况。出现这个现象的原因是因为网站采取了一些反爬中措施，如：服务器检测IP在单位时间内请求次数超过某个阀值…

爬虫 2023年4月11日
000

合作推广

合作推广

返回顶部