爬虫实现免登入

近来身边很多人问，爬虫怎么实现免登入，这边介绍几种方法。

1、scrapy的FormRequest模块

2、requests的post实现免登入

3、selenium实现自动化登入过程

接下来，我们来实现http://oursteps.com.au/的免登入

我们先说前两种的情况，使用scrapy和requests的模拟登入

打开浏览器，输入http://www.oursteps.com.au/bbs/portal.php回车

定义好请求的地址，使用fiddler抓包抓取到网页登入输入的信息

爬虫实现免登入

然后我们就知道他们的用户名和密码的键对应的是username、password

其实很简单就是我们需要请求这个接口地址http://www.oursteps.com.au，加上用户名和密码参数，并设置对应的头部配置好ua信息，然后进行请求

scrapy的FormRequest，跳过新建scrapy工程以及新建爬虫的步骤了，直接干代码，上面的注释非常详细了

# -*- coding: utf-8 -*-
import scrapy
from scrapy.http import Request,FormRequest

class LoginSpider(scrapy.Spider):
    name = 'login'
    allowed_domains = ['oursteps.com.au']
        #这个默认的起点网址可以不用，因为我们下面配置了start-requests的方法，他们的功能类似，都是去爬第一个起始的网址
    #start_urls = ['http://oursteps.com.au/']
        #这个header可以是任何浏览器的头文件，用于伪装
    header = {
        "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 Safari/537.36 SE 2.X MetaSr 1.0"
    }

    #里面的查询地址最好是使用在fidder里面看见的地址，cookiejar设为真，parse是用一个回调函数，执行爬取信息之后对应的操作
    def start_requests(self):
        return [Request("http://www.oursteps.com.au/", meta={"cookiejar": 1}, callback=self.parse)]

    #发送一个post请求，数据是字典格式的，发送完了之后执行另外一个回调函数
    def parse(self, response):
        data = {
            "username": "your username",
            "password": "your password",
        }

        print("ready to login")
        # 通过FormRequest.from_response()进行登陆
        return [FormRequest.from_response(response,
                                          # 设置cookie信息
                                          meta={"cookiejar": response.meta["cookiejar"]},
                                          # 设置headers信息模拟成浏览器
                                          headers=self.header,
                                          # 设置post表单中的数据
                                          formdata=data,
                                          # 设置回调函数，此时回调函数为next()
                                          callback=self.next,
                                          )]

#回调函数，直接把返回的页面保存下来
    def next(self,response):
        data=response.body
        #注意是二进制格式
        f=open("E:/temp/ourstep/a.html","wb")
        f.write(data)
        f.close()
#登录成功了之后，再跳转到另外一个页面去，记住带着cookie的状态
        yield Request("http://www.oursteps.com.au/bbs/portal.php?mod=article&aid=82186",callback=self.next2,meta={"cookiejar": True})

#保存新页面的内容
    def next2(self,response):
        data=response.body
        f = open("E:/temp/ourstep/b.html", "wb")
        f.write(data)
        f.close()

View Code

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：爬虫实现免登入 - Python技术站

相关文章