爬虫基础知识及requests常用方法总结

2023年4月10日下午10:55 • 爬虫

一、浏览器Disable cache 和 Preserve log的作用

. 爬虫基础知识及requests常用方法总结

. 爬虫基础知识及requests常用方法总结

二、复制url乱码情况

from urllib.parse import urlencode

. 爬虫基础知识及requests常用方法总结

三、requests请求

res=resquests.get(url)
print(res)  #得到的是对象
print(res.text) #文本
print(res.content) #得到的是二进制文件

res.cookies  ===>返回一个cookies对象
res.cookies.get_dict()===>获得cookie字典

四、浏览器报错

400 中不到资源
500 服务器错误
200 成功

五、requests.get/requests.post请求参数

requests.get(url(url请求地址),headers=""(请求头),params,json ，data(不是json类型就需要dumps,form表单数据),cookies(cookies数据),allow_redirects=True(指定是否让请求重定向),cert(存放安全认证的信息)=("/path/server(文件名，可以自己命名).crt","/path/key"))

六、视频通过流的方式一行一行写入

. 爬虫基础知识及requests常用方法总结

七、requests发送请求出现htpps SSL改进方法

方法一、

import requests
response=requests.get("https://www.xiaohuar.com",verify=False)
print(response.text)

缺点：还会出现警告

. 爬虫基础知识及requests常用方法总结

改进方法二、

import urllib3
import requsets
urllib3.disable_warnings()
response=requests.get("https://www.xiaohuar.com",verify=False)
print(response.text)

八、requests使用代理ip

1、requests发送http|https协议(使用代理ip)

. 爬虫基础知识及requests常用方法总结

import requests
res=requests.get(url,proxies={"http":"http://ip:port",
"https":"https://ip:port"})

2、reqursts发送其他的sock的协议

import requests
res=requests.get(url,proxies={
  "sock":"sock://ip:port"  
})

九、requests.auth用法

import reqeusts
import requests.auth import HTTPBaiscAuth
res=resquests.get(url,HTTPBasicAuth("username","password"))

十、requests file功能

import requests
files={"file":open(path,"rb")}
response=requests.post(url,files=files)
print(response.status_code)

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：爬虫基础知识及requests常用方法总结 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

1，Python爬虫环境的安装

上一篇 2023年4月10日

scrapy框架下爬虫实现详情页抓取

下一篇 2023年4月10日

python爬虫中遇到的问题以及解决方法

（1）运行后报错：“TypeError: cannot use a string pattern on a bytes-like” 原因：content用decode(‘utf-8’)进行解码，由bytes变成string。py3的urlopen返回的不是string是bytes。解决方案：把’content’类型调整一下：content.decode(‘…

爬虫 2023年4月11日
000
Python爬虫实践 —— urllib.request和requests

之前的两个demo使用的是urllib内的request模块，其中我们不免发现，返回体要获取有效信息，请求体拼接都需要decode或encode后再装载，http请求的话需要先构造get或post请求再调用，proxy和header等请求头需要先构造。而requests库帮我们进一步封装了request模块，我们只需要直接调用对应的request metho…

爬虫 2023年4月10日
000
python3爬虫初探（一）之urllib.request

—恢复内容开始— #小白一个，在此写下自己的python爬虫初步的知识.如有错误，希望谅解并指出。 #欢迎和大家交流python爬虫相关的问题 #2016/6/18 #—-第一把武器—–urllib.request——— 　　urllib.request是python3自带的库（python3.x版本特有），我们用它来请求网页，…

爬虫 2023年4月10日
000
利用selenium爬虫抓取数据的基础教程

利用Selenium爬虫抓取数据的基础教程简介 Selenium是一款自动化测试工具，可用于web应用程序的测试，包括功能测试和回归测试。此外，Selenium还可以用于数据抓取，特别是那些需要JavaScript渲染或动态内容的网站。本文将介绍Selenium爬虫的基础使用方法，以及两个示例说明。安装Selenium Selenium通过web驱动程序…

python 2023年5月14日
000
爬虫

看我如何用定值 Cookie 实现反爬

摘要：本次案例，用定值Cookie实现反爬。本文分享自华为云社区《我是怎么用一个特殊Cookie，限制住别人的爬虫的》，作者：梦想橡皮擦。 Cookie 生成由于本案例需要用到一个特定的 Cookie ，所以我们需要提前将其生成，你可以直接设置一个固定的字符串，也可以使用 Python 加密模块来加密一段文本，例如本案例加密梦想橡皮擦。下面是一个…

2023年4月8日
000
python爬虫的一些小小问题、python动态正则表达式

1.首先urllib不能用了，需要引入的是urllib2，正则re。 #coding=utf-8 # import urllib import urllib2 import re def getHtml(url): page = urllib2.urlopen(url) html = page.read() return html def getCountr…

爬虫 2023年4月13日
000
如何用六步教会你使用python爬虫爬取数据

我来详细讲解如何用六步教会你使用Python爬虫爬取数据。 1. 学习Python基础知识首先，在使用Python爬虫之前，你需要对Python有一定的了解。比如，掌握Python语言基础、了解常用的第三方库等等。建议先学习Python基础知识，这样会对后面的爬虫开发非常有帮助。 2. 确定爬取的目标网站接下来，你需要确定你要爬取的目标网站。这可能是一个…

python 2023年5月14日
000
python爬虫爬取淘宝商品比价(附淘宝反爬虫机制解决小办法)

下面是详细讲解“python爬虫爬取淘宝商品比价(附淘宝反爬虫机制解决小办法)”的攻略。 1. 准备工作在开始之前，我们需要先准备好以下工具和库： Python3.x环境 Chrome浏览器 Chrome浏览器驱动：根据自己使用的Chrome版本下载对应的驱动 requests、selenium、pyquery等Python库 2. 分析网页结构在使用P…

python 2023年5月14日
000

合作推广

合作推广

返回顶部