02 爬虫请求库之requests库

一. 介绍

# 介绍：使用requests可以模拟浏览器的请求，比起之前用到的urllib，requests模块的api更加便捷（本质就是封装了urllib3）

# 注意：requests库发送请求将网页内容下载下来以后，并不会执行js代码，这需要我们自己分析目标站点然后发起新的request请求

# 安装：pip3 install requests

# 各种请求方式：常用的就是requests.get()和requests.post()
    >>> import requests
    >>> r = requests.get('https://api.github.com/events')
    >>> r = requests.post('http://httpbin.org/post', data = {'key':'value'})
    >>> r = requests.put('http://httpbin.org/put', data = {'key':'value'})
    >>> r = requests.delete('http://httpbin.org/delete')
    >>> r = requests.head('http://httpbin.org/get')
    >>> r = requests.options('http://httpbin.org/get')

# 建议在正式学习requests前，先熟悉下HTTP协议
    http://www.cnblogs.com/linhaifeng/p/6266327.html

二. 基于GET请求

1. 发送get请求

知识储备: 什么是referer?

import requests

headers = {
    # 模拟浏览器
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36',
    # 解决妹子图防盗链问题: referer
    'referer': 'https://www.mzitu.com/taiwan/'
}

# response = requests.get('https://mzitu.com', headers=headers)
# print(response.text)      # 文本内容

response1 = requests.get("https://i.mmzztt.com/thumb/2020/07/221376_236.jpg", headers=headers)
# print(response1.content)  # 二进制内容

# 将爬取的图片写入本地
with open('221376_236.jpg', 'wb') as f:
    for line in response1.iter_content():
        f.write(line)

2. 请求地址中携带数据

1) 请求地址中携带数据方式一: 直接携带 (中文一般不会进行url编码, 会出现编码问题)

import requests

headers = {
    # 模拟浏览器
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36',
}
response = requests.get('https://www.baidu.com/s?wd=wozhengshuai', headers=headers)
print(response.text)

2) 请求地址中携带数据方式二: 使用params (中文会自动进行url编码)

import requests

headers = {
    # 模拟浏览器
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36',
}
response = requests.get('https://www.baidu.com/s', params={'wd': '我真帅'}, headers=headers)
print(response.text)

3) 使用urllib解决方式一编码问题

from urllib.parse import urlencode, unquote


# 编码
res = urlencode({'wd': '我真帅'}, encoding='utf-8')
print(res)  # wd=%E6%88%91%E7%9C%9F%E5%B8%85

# 解码
res = unquote('%E6%88%91%E7%9C%9F%E5%B8%85', encoding='utf-8')
print(res)  # 我真帅

3. 请求带cookie

1) 方式一: 存放在header

import requests

headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36',
    'cookie': 'Hm_lvt_b72418f3b1d81bbcf8f99e6eb5d4e0c3=1596202661; UM_distinctid=173a517b3192a1-07d51af695c35e-3a65420e-1fa400-173a517b31a70b;'
}

# 注意: url不要写错成了 'http://127.0.0.1:8050/index'
response = requests.get('http://127.0.0.1:8050/index/', headers=headers)
print(response.text)
# 服务端获取: 
# 注意: 放在headers中, cookie对应的value如果有等于号, 那么等于号左边作为cookie的key, 右边作为cookie的value. 如果没有那么, key为空字符串. value为值.
"""
{
    'Hm_lvt_b72418f3b1d81bbcf8f99e6eb5d4e0c3': '1596202661', 
    'UM_distinctid': '173a517b3192a1-07d51af695c35e-3a65420e-1fa400-173a517b31a70b'
} 
"""

2) 方式二: 存放在指定的cookies参数中

import requests

headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36',
}
cookies = {
    'cookie': 'Hm_lvt_b72418f3b1d81bbcf8f99e6eb5d4e0c3=1596202661; UM_distinctid=173a517b3192a1-07d51af695c35e-3a65420e-1fa400-173a517b31a70b;'
}

# 注意: url不要写错成了 'http://127.0.0.1:8050/index'
response = requests.get('http://127.0.0.1:8050/index/', headers=headers, cookies=cookies)
print(response.text)

# 服务端获取: 
# 注意: cookies直接指定. 字典中的key对应的服务端cookie获取的key. 字典中value冒号分隔的等于号左边作为cookie的key, 右边作为value
'''
{
    'cookie': 'Hm_lvt_b72418f3b1d81bbcf8f99e6eb5d4e0c3=1596202661', 
    'UM_distinctid': '173a517b3192a1-07d51af695c35e-3a65420e-1fa400-173a517b31a70b'
}

4. 总结

# headers参数: 
    1. 模拟浏览器: user-agent
    2. 解决防盗链: referer

# 解决url编码问题
    1. params参数默认解决url编码问题 
    2. urllib模块
    
# 携带cookie
    第一种方式: 存放在headers中
    客户端发送: {'cookie': 'key=value;key1=value1'}
    服务端获取: {key: value, key1: value1} 

    第二种方式: 指定cookie参数 (提示: 可以存放dict 和 CookieJar对象)
        客户端发送: {key: value, key1: value1}
        服务端获取: {key: value, key1: value1}   
    
response.text  文本
response.content  二进制
response.iter_content()  迭代器

三. 基于POST请求

1. 携带数据发送post请求

1) 携带数据: urlencoded

import requests

response = requests.post('http://127.0.0.1:8050/index/', data={'name': 'yang'})
print(response.text)

# 服务端获取
'''
request.body: b'name=yang'
request.POST: <QueryDict: {'name': ['yang']}>
'''

2) 携带数据: json

import requests

response = requests.post('http://127.0.0.1:8050/index/', json={'name': 'yang'})
print(response.text)

# 服务端获取
'''
request.body: b'{"name": "yang"}'
request.POST: <QueryDict: {}>
'''

2. 自动携带cookie

import requests

session = requests.session()      # 注意: 是session()方法, 不是sessions()
session.post('http://127.0.0.1:8050/login/', json={'username': 'yang', 'password': '123'})          # 假设这个请求登录了
response = session.get('http://127.0.0.1:8050/index/')  # 现在不需要手动带cookie, session会自动处理
print(response)

3. 自定义请求头

requests.post(url='xxxxxxxx',
              data={'xxx': 'yyy'})  # 没有指定请求头,# 默认的请求头:application/x-www-form-urlencoed

# 如果我们自定义请求头是application/json,并且用data传值, 则服务端取不到值
requests.post(url='',
              data={'': 1, },
              headers={
                  'content-type': 'application/json'
              })

requests.post(url='',
              json={'': 1, },
              )  # 默认的请求头:application/json

4. 总结

# 携带数据:
    携带json数据: json={}
    携带urlencoded数据: data={}
    
# 自动携带cookie:     
    session = requests.session()
    res = session.post(认证url)
    res1 = session.get(访问url)
    
# 自定义请求头:
    默认: application/x-www-form-urlencoed
    headers={'content-type': 'application/json'}

四. 响应Response

1. response对象方法

import requests

response = requests.post('http://127.0.0.1:8050/index/?username=yang', data={'name': 'yang'})

# 响应的文本
res = response.text
print(res)  # ok

# 响应体的二进制
res = response.content
print(res)  # b'ok'

# 获取响应状态码
res = response.status_code
print(res)  # 200

# 获取响应头
res = response.headers
print(res)
'''
{
    'Date': 'Fri, 31 Jul 2020 14:32:06 GMT', 'Server': 'WSGIServer/0.2 CPython/3.6.3', 
    'Content-Type': 'application/json', 
    'X-Frame-Options': 'SAMEORIGIN', 
    'Content-Length': '16', 
    'Set-Cookie': 'cookie_key=cookie_value; Path=/'
}
'''

# 注意: 它是CookieJar对象, 获取后端设置的cookie
res = response.cookies
print(res)   # <RequestsCookieJar[<Cookie cookie_key=cookie_value for 127.0.0.1/>]>

# 把cookie转成字典
res = response.cookies.get_dict()
print(res)  # {'cookie_key': 'cookie_value'}

# 把cookie转成列表套元组
res = response.cookies.items()
print(res)  # [('cookie_key', 'cookie_value')]

# 获取请求的url地址
res = response.url
print(res)  # http://127.0.0.1:8050/index/?username=yang 如果重定向了那么就是重定向的地址 http://127.0.0.1:8050/home/


# 将重定向之前的地址存放到列表当中. 注意: 是response对象
res = response.history
print(res)             # [<Response [302]>, <Response [302]>]
print(type(res[0]))    # <class 'requests.models.Response'>
print(res[0].content)  # b''

# 响应的编码方式
res = response.encoding
print(res)  # ISO-8859-1

# iter_content主要是针对图片，视频，大文件. 可以迭代取值
res = response.iter_content()
print(res)   # <generator object iter_slices at 0x0000021A72B5F360>

2. 编码问题

import requests

response = requests.get('http://www.autohome.com/news')
# 方式一: 手动指定编码 (前提: 知道它的编码方式)
# response.encoding = 'gb2312'

# 方式二: 自动指定编码, 由方法内部获取.
response.encoding = response.apparent_encoding
print(response.text)

3. 解析json

import requests

response = requests.post('http://127.0.0.1:8050/index/', data={'name': 'yang'})
response_text = response.text
print(type(response_text), response_text)  # <class 'str'> {"name": "yang"}

# 解析方式一: 使用json模块解析 (繁琐)
import json
res = json.loads(response_text)
print(type(res), res)  # <class 'dict'> {'name': 'yang'}

# 解析方式二: 使用requests提供的方法解析(提示: 内部本质还是调用了json)
res = response.json()
print(type(res), res)  # <class 'dict'> {'name': 'yang'}

# 注意: 方式一是通过获取到文本内容再进行的json序列化, 而方式二是直接透过response对象调用json()方法.

4. 总结

# response对象方法: 
    响应文本                      response.text      
    响应二进制数据                 response.content
    响应状态码                    response.status_code
    响应头                        response.headers
    响应CookieJar对象             response.cookies
    响应cookie字典                response.cookies.get_dict()
    响应cookie列表套元组           response.cookies.items()
    响应重定向之前的response对象    response.history
    响应url地址                   response.url
    响应编码                      response.encoding
    响应数据的迭代器               response.iter_content()
    
# 解决响应内容编码: 
    手动: response.encoding = '你知道你获取url资源的编码'
    自动: response.encoding = response.apparent_encoding
    
# 解析json:
    1. json模块解析
        json.loads(response.text)
    2. requests提供的json()方法解析
        response.json()

五. 高级用法

1. SSL Cerf Verification

import requests

response = requests.get('https://www.12306.cn', verify=False)
print(response.status_code)  # 不验证证书,报警告,返回200


# 使用证书，需要手动携带
import requests

response = requests.get('https://www.12306.cn',
                        cert=('/path/server.crt',
                              '/path/key'))
print(response.status_code)

2. 使用代理

知识储备: 什么是http代理，什么是socks5代理?两者有什么不同？

1) HTTP代理

import requests
response = requests.get('https://www.baidu.com/', proxies={'http': '165.225.8.94:10605', })
print(response.status_code)

2) socks代理

# 安装: pip install requests[socks]
import requests

proxies = {
    # 'https': 'socks5://47.244.192.12:17518',
    'http': 'socks5://47.244.192.12:17518',
}

response = requests.get('https://www.baidu.com',
                        proxies=proxies)

print(response.status_code)

3. 超时设置

import requests

# 两种超时:float or tuple
# timeout = 0.001  # 代表接收数据的超时时间
timeout = (0.0001, 0.002)  # 0.1代表链接超时  0.2代表接收数据的超时时间
response = requests.get('https://www.baidu.com',
                        timeout=timeout)
print(response.text)
print(response.status_code)
# 注意: 超时以后抛出异常. 
'''
# 0.0001表示链接超时
requests.exceptions.ReadTimeout: HTTPSConnectionPool(host='www.baidu.com', port=443): Read timed out. (read timeout=0.0001)
'''

4. 认证设置

官网链接：http://docs.python-requests.org/en/master/user/authentication/

'''
认证设置:登陆网站是,弹出一个框,要求你输入用户名密码（与alter很类似），此时是无法获取html的
但本质原理是拼接成请求头发送
        r.headers['Authorization'] = _basic_auth_str(self.username, self.password)
一般的网站都不用默认的加密方式，都是自己写
那么我们就需要按照网站的加密方式，自己写一个类似于_basic_auth_str的方法
得到加密字符串后添加到请求头
        r.headers['Authorization'] =func('.....')
'''

# 看一看默认的加密方式吧，通常网站都不会用默认的加密设置
import requests
from requests.auth import HTTPBasicAuth

r = requests.get('xxx', auth=HTTPBasicAuth('user', 'password'))
print(r.status_code)

# HTTPBasicAuth可以简写为如下格式
import requests

r = requests.get('xxx', auth=('user', 'password'))
print(r.status_code)

5. 异常处理

import requests
from requests.exceptions import *

try:
    response = requests.get('https://www.baidu.com', timeout=(0.001, 0.002))
    print(response.status_code)
except ReadTimeout:
    print('读取超时!')
except ConnectionError:
    print('连接失败!')
except Timeout:
    print('超时')
except RequestException:
    print("请求异常")
except Exception as e:
    print(e)

6. 上传文件

import requests
import  os

dir_path = os.path.join(os.path.dirname(__file__), '2')
dir_list = os.listdir(dir_path)
file1, file2 = dir_list[0], dir_list[1]
# print(file1, file2)  # 220089_236.jpg 220304_236.jpg
file1_path = os.path.join(dir_path, file1)
file2_path = os.path.join(dir_path, file2)

files = {
    'file1': open(file1_path, 'rb'),
    'file2': open(file2_path, 'rb'),
}
response = requests.post('http://127.0.0.1:8050/index/', files=files)
print(response.status_code)  # 200
  
# 后端数据获取: 
'''
<MultiValueDict: 
    {
    'file1': [<InMemoryUploadedFile: 220089_236.jpg ()>], 
    'file2': [<InMemoryUploadedFile: 220304_236.jpg ()>]
    }
>
'''

7. 总结

# SSL认证
    verify=False不校验
    verify=True校验.  cert=(证书格式)
    
# 代理
    # HTTP代理
    proxies={'http': 'IP:PORT'}
    
    # socks代理: 安装requests[socks]
    proxies={'http': 'socks://IP:PORT'}
    
# 超时设置
    timeout=(连接超时时间, 接受数据超时时间)
    抛出异常: ReadTimeOut

# 认证设置
    from requests.auth import HTTPBasicAuth
    auth=HTTPBasicAuth('user', 'password')
    
# 异常处理
    from requests.exceptions import *
    ReadTimeOut       连接 或者 获取数据超时
    TimeOut           超时
    ConnectionError   连接错误
    RequestException  请求异常 
    
# 上传文件
    files={key: file, key1: file1}

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：02 爬虫请求库之requests库 - Python技术站

02 爬虫请求库之requests库

一. 介绍

二. 基于GET请求

1. 发送get请求

2. 请求地址中携带数据

1) 请求地址中携带数据方式一: 直接携带 (中文一般不会进行url编码, 会出现编码问题)

2) 请求地址中携带数据方式二: 使用params (中文会自动进行url编码)

3) 使用urllib解决方式一编码问题

3. 请求带cookie

1) 方式一: 存放在header

2) 方式二: 存放在指定的cookies参数中

4. 总结

三. 基于POST请求

1. 携带数据发送post请求

1) 携带数据: urlencoded

2) 携带数据: json

2. 自动携带cookie

3. 自定义请求头

4. 总结

四. 响应Response

1. response对象方法

2. 编码问题

3. 解析json

4. 总结

五. 高级用法

1. SSL Cerf Verification

2. 使用代理

1) HTTP代理

2) socks代理

3. 超时设置

4. 认证设置

5. 异常处理

6. 上传文件

7. 总结

相关文章