详解python 爬取12306验证码

接下来我将为你详细讲解“详解Python爬取12306验证码”的完整攻略。

1. 前言

在进行python爬虫时,验证码的破解常常是很重要的一步。而12306验证码的破解则是很多人首次接触验证码破解时的练手项目。本文将详细介绍如何使用Python来爬取12306的验证码。

2. 前置要求

在开始之前,需要满足以下前置要求:

  • 安装Python 2.X或3.X版本
  • 安装requests库
  • 安装Pillow库
  • 确定12306的验证码接口路径

3. 步骤

3.1 获取验证码图片

我们可以使用如下代码:

import requests
from PIL import Image

def get_captcha():
    url = 'https://kyfw.12306.cn/passport/captcha/captcha-image64'
    response = requests.get(url)
    img_base64 = response.json()['image']
    with open('captcha.png', 'wb') as f:
        f.write(img_base64.decode('base64'))
    img = Image.open('captcha.png')
    img.show()

if __name__ == '__main__':
    get_captcha()

在该代码中,我们首先使用requests库向12306的验证码接口请求验证码图片数据,并将返回的数据中‘image’字段保存为本地的验证码图片文件。接下来,我们使用Pillow库中的Image.open()方法打开该图片,并使用show()方法将其展示出来。

这里我使用的是requests库以及Pillow库,你也可以根据自己的需求来选择使用其他库实现同样的功能。

3.2 自动识别验证码

如果你并不想手动输入验证码,那么可以使用tesseract-OCR。tesseract-OCR作为一款OCR引擎,不仅支持识别验证码图形,还支持多种语言的识别。

安装tesseract-OCR后,我们可以在原有的代码中添加自动识别验证码的功能:

import requests
import pytesseract
from PIL import Image

def get_captcha_text():
    url = 'https://kyfw.12306.cn/passport/captcha/captcha-image64'
    response = requests.get(url)
    img_base64 = response.json()['image']
    with open('captcha.png', 'wb') as f:
        f.write(img_base64.decode('base64'))
    img = Image.open('captcha.png')
    text = pytesseract.image_to_string(img)
    return text

if __name__ == '__main__':
    captcha_text = get_captcha_text()
    print(captcha_text)

在该代码中,我们首先使用requests库向12306的验证码接口请求验证码图片数据,并将返回的数据中‘image’字段保存为本地的验证码图片文件。接下来,我们使用Pillow库中的Image.open()方法打开该图片,并使用pytesseract库中的image_to_string()方法自动识别验证码。

3.3 将识别结果提交到服务器

最后,我们可以将识别结果提交到服务器,以此完成登录过程。在该过程中,可能需要使用session等机制维持登录状态,具体操作可以参考Python的requests和cookies相关API。

示例一:

import requests
import pytesseract
from PIL import Image

def login(username, password):
    login_url = 'https://kyfw.12306.cn/otn/login/init'
    captcha_url = 'https://kyfw.12306.cn/passport/captcha/captcha-image64'
    captcha_check_url = 'https://kyfw.12306.cn/passport/captcha/captcha-check'
    headers = {
        'Host': 'kyfw.12306.cn',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
        'Referer': 'https://kyfw.12306.cn/otn/login/init'
    }
    session = requests.session()
    session.get(login_url, headers=headers)
    captcha_text = get_captcha_text()
    data = {
        'answer': captcha_text,
        'login_site': 'E',
        'rand': 'sjrand'
    }
    response = session.post(captcha_check_url, data=data, headers=headers)
    if response.json()['result_code'] == '4':
        print('验证码校验通过!')
    else:
        print('验证码校验失败!')
        return False
    data = {
        'username': username,
        'password': password,
        'appid': 'otn'
    }
    response = session.post(login_url, data=data, headers=headers)
    if response.json()['result_code'] == 0:
        print('登录成功!')
        return True
    else:
        print('登录失败!')
        return False

def get_captcha_text():
    url = 'https://kyfw.12306.cn/passport/captcha/captcha-image64'
    response = requests.get(url)
    img_base64 = response.json()['image']
    with open('captcha.png', 'wb') as f:
        f.write(img_base64.decode('base64'))
    img = Image.open('captcha.png')
    text = pytesseract.image_to_string(img)
    return text

if __name__ == '__main__':
    login('your_username', 'your_password')

在该代码中,我们使用requests库创建了一个session对象,并分别请求了登录页面、验证码图片以及验证码校验接口。在验证码校验中,我们传递了自动识别出的结果,并通过检查返回的json数据中‘result_code’字段判断验证码是否识别正确。在成功校验验证码后,我们以同样的方式提交了用户名和密码,并最终判断了登录结果(通过判断返回的json数据中‘result_code’字段)。

示例二:

import requests
import pytesseract
from PIL import Image

session = requests.session()

def get_captcha_text():
    url = 'https://kyfw.12306.cn/passport/captcha/captcha-image64'
    response = session.get(url)
    img_base64 = response.json()['image']
    with open('captcha.png', 'wb') as f:
        f.write(img_base64.decode('base64'))
    img = Image.open('captcha.png')
    text = pytesseract.image_to_string(img)
    return text

def get_cookie():
    url = 'https://kyfw.12306.cn/passport/captcha/captcha-image64'
    response = session.get(url)
    cookie = response.cookies['RAIL_EXPIRATION']
    cookie = str(int(cookie) + 60 * 60 * 24 * 30)
    return cookie

def login(username, password):
    login_url = 'https://kyfw.12306.cn/otn/login/init'
    captcha_check_url = 'https://kyfw.12306.cn/passport/captcha/captcha-check'
    headers = {
        'Host': 'kyfw.12306.cn',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
        'Referer': 'https://kyfw.12306.cn/otn/login/init'
    }

    captcha_text = get_captcha_text()
    data = {
        'answer': captcha_text,
        'login_site': 'E',
        'rand': 'sjrand'
    }
    response = session.post(captcha_check_url, data=data, headers=headers, cookies=session.cookies.get_dict())
    if response.json()['result_code'] == '4':
        print('验证码校验通过!')
    else:
        print('验证码校验失败!')
        return False

    cookie = get_cookie()
    headers.update({
        'Cookie': 'RAIL_EXPIRATION={};RAIL_DEVICEID=your_device_id'.format(cookie)
    })

    data = {
        'username': username,
        'password': password,
        'appid': 'otn'
    }
    response = session.post(login_url, data=data, headers=headers, cookies=session.cookies.get_dict())
    if response.json()['result_code'] == 0:
        print('登录成功!')
        return True
    else:
        print('登录失败!')
        return False

if __name__ == '__main__':
    login('your_username', 'your_password')

在该代码中,我们依然是先获取并识别验证码,但是在验证码校验与登录过程中增加了许多细节操作。为了避免被封IP,我们获取了cookie中的RAIL_EXPIRATION,将其增加了30天的有效期后放回cookie中。在请求登录接口时,我们还需要将获取到的cookie作为请求头的一部分传递。

4. 总结

以上便是详解Python爬取12306验证码的攻略完整过程和示例。在实际应用中,要注意识别精度、请求频率等问题,避免被封IP。

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:详解python 爬取12306验证码 - Python技术站

(0)
上一篇 2023年6月3日
下一篇 2023年6月3日

相关文章

  • python实现SMTP邮件发送功能

    下面是一份简单的“Python实现SMTP邮件发送功能”的攻略。 SMTP是什么? SMTP(Simple Mail Transfer Protocol)是一种用于发送电子邮件的协议。该协议定义了某些规则,以确保邮件的可靠传递。Python的smtplib库提供了SMTP客户端实现。 邮件发送环境配置 在进行SMTP邮件发送之前,需要确保已配置SMTP服务器…

    python 2023年6月3日
    00
  • 一文详解Python中的super 函数

    一文详解Python中的super函数 在Python中,super()函数是一个非常有用的函数,它可以帮助我们调用父类的方法。本文将详细讲解super()函数的用法和注意事项,并提供两个示例来说明super()函数的使用。 super()函数的用法 super()函数用于调用父类的方法。在Python中,如果一个类继承自另一个类,那么它可以使用super(…

    python 2023年5月14日
    00
  • python自动12306抢票软件实现代码

    下面是详细讲解python自动12306抢票软件实现代码的攻略。 1. 网络爬虫 首先,我们需要用网络爬虫获取12306网站的车次余票信息。这里我们推荐使用Python的requests库和BeautifulSoup库获取网页内容和解析HTML。代码示例如下: import requests from bs4 import BeautifulSoup # 获…

    python 2023年5月18日
    00
  • 对Python random模块打乱数组顺序的实例讲解

    下面是对Python random模块打乱数组顺序的实例讲解的完整攻略。 概述 在Python中,我们可以通过random模块的shuffle()函数来打乱一个数组的顺序。该函数可以将一个序列(比如一个列表)中的元素随机排列。 函数语法 shuffle() 函数语法如下: import random # 导入 random 模块 random.shuffle…

    python 2023年6月3日
    00
  • 基于Python爬取京东双十一商品价格曲线

    基于Python爬取京东双十一商品价格曲线是一个非常有用的应用场景,可以帮助我们在Python中快速获取京东双十一商品的价格曲线。本攻略将介绍Python爬取京东双十一商品价格曲线的完整攻略,包括数据获取、数据处理、数据存储和示例。 步骤1:获取数据 在Python中,我们可以使用requests库获取网页数据。以下是获取京东商品页面数据的示例: impor…

    python 2023年5月15日
    00
  • Python实现简单登录验证

    Python可以使用多种方法来实现简单的登录验证,本文将详细讲解Python实现简单登录验证的几种方法,包括使用Flask框架和Django框架两个示例。 使用Flask框架实现简单登录验证的示例 以下是一个示例,演示如何使用Flask框架实现简单登录验证: from flask import Flask, request, redirect, url_fo…

    python 2023年5月15日
    00
  • Python3中zip()函数知识点小结

    当然,这是我的荣幸。下面是关于Python3中zip()函数的知识点小结: 简介 zip()函数是Python的内置函数之一,用于将多个可迭代对象打包成一个元素对,然后返回一个可迭代的zip对象。 注意:Python2中也有zip()函数,但在Python3中,zip()函数的返回类型改变为zip对象,即不再返回列表,与map()函数一样。 语法 zip()…

    python 2023年5月14日
    00
  • 无法使用 Matplotlib – Ubuntu 10.10 和 Python 3.2

    【问题标题】:Unable to use Matplotlib – Ubuntu 10.10 and Python 3.2无法使用 Matplotlib – Ubuntu 10.10 和 Python 3.2 【发布时间】:2023-04-07 21:29:01 【问题描述】: 我在 Ubuntu 10.10 i386(32 位)上运行 python3.2。…

    Python开发 2023年4月8日
    00
合作推广
合作推广
分享本页
返回顶部