python3爬虫初探（二）之requests

2023年4月10日下午11:13 • 爬虫

　　关于请求网页，不得不提requests这个库，这是爬虫经常用到的一个第三方库，用pip安装即可。

requests用法很多，这里只写一些基础的，其他高级功能可参考官方文档。

import requests

url = 'http://www.baidu.com'
#这里用get方法用来请求网页，其他还有post等方法来请求网页
data = requests.get(url)

print(data)
#<Response [200]>

print(data.text)#这里的 .text 就等同于上一篇中的 read()
#此时同样打印出网页源码
#<!DOCTYPE html><!--STATUS OK--><html><head><meta http-equiv="content-type" content="text/html;charset=utf-8"><meta http-equiv="

　　关于requests还有一些其他用法对我们已有的爬虫程序也很有用。

code = data.encoding#获取页面的编码方式
print(code)
#utf-8

page_status = data.status_code#获取状态码，检查是否请求成功
print(page_status)
#200

　　这些是requests的基础用法,爬虫开始掌握这些简单的用法就可以啦。后面还会继续对requests进行总结。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：python3爬虫初探（二）之requests - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

爬虫再探之mysql简单使用

上一篇 2023年4月10日

python3爬虫初探（五）之从爬取到保存

下一篇 2023年4月10日

关于使用python向qq好友发送消息(对爬虫的作用—-当程序执行完毕或者报错无限给自己qq发送消息，直到关闭)

以前看到网上一些小程序，在处理完事物后会自动发送qq消息，但是一直搞不懂是说明原理。也在网上找过一些python登陆qq发送消息的文字，但是都太复杂了。今天偶然看到一篇文章，是用python调用win32的接口发送qq消息的，觉得不错，就先记录下来，日后肯定会用得上这些小工具。发送qq消息要求已经登陆qq，而且qq的窗口是独立的，现在新版的qq一般都是将所…

爬虫 2023年4月11日
000
requests和lxml实现爬虫

# requests模块来请求页面# lxml模块的html构建selector选择器(格式化响应response)# from lxml import html# import requests # response = requests.get(url).content # selector = html.formatstring(response) #…

爬虫 2023年4月11日
000
爬虫之路: 字体文件反爬二(动态字体文件)

上一篇解决了但页面的字体反爬, 这篇记录下如何解决动态字体文件, 编码不同, 文字顺序不同的情况源码在最后打开一个页面, 发现字体文件地址是动态的, 这个倒是好说, 写个正则, 就可以动态匹配出来先下载下来一个新页面的字体文件, 做一下对比, 如图 mmp, 发现编码, 字体顺序那那都不一样, 这可就过分了, 心里一万个xxx在奔腾头脑风暴ing…

爬虫 2023年4月13日
000
Python使用Chrome插件实现爬虫过程图解

Python使用Chrome插件实现爬虫过程图解在使用Python进行网络爬虫时，经常需要模拟用户访问，如使用浏览器访问目标网站，获取动态页面的html文本。而Chrome插件可以模拟浏览器的功能，因此可以通过Chrome插件来实现爬虫的目的。以下是使用Python和Chrome插件实现爬虫的具体步骤： 1. 安装Chrome浏览器和扩展程序首先需要安装…

python 2023年5月14日
000
总结python爬虫抓站的实用技巧

总结python爬虫抓站的实用技巧 1. 落实反爬虫手段在爬虫抓站过程中，常常遭遇各种反爬虫手段。为了避免被封禁或限制访问，我们需要针对性地落实反爬虫手段。一些最常见和有效的方式包括：添加User-Agent信息使用代理IP 增加访问时间间隔模拟浏览器请求示例1： import requests headers = { ‘User-Agent’: …

python 2023年5月14日
000
爬虫遇到HTTP Error 403的问题

# coding=gbk from bs4 import BeautifulSoup import requests import urllib x = 1 y = 1 def crawl(url): res = requests.get(url) soup = BeautifulSoup(res.text, ‘html.parser’) global y …

爬虫 2023年4月10日
000
python3使用urllib模块制作网络爬虫

Python3使用 urllib 模块制作网络爬虫的完整攻略如下： 1. 导入 urllib 库在 Python 中，必须要先导入 urllib 库，才能使用其中的模块和函数。 import urllib.request 2. 打开网页使用 urllib.request 模块中的 urlopen() 函数可以打开一个网页，返回的是一个类文件对象，可以通过…

python 2023年5月14日
000
爬虫的cookie

cookie 作用:保存客户端的相关状态在请求中携带cookie,在爬虫中如果遇到了cookie的反爬如何处理? 手动处理在抓包工具中捕获cookie,将其封装在headers中应用场景:cookie没有有效时长且不是动态变化自动处理使用session机制使用场景:动态变化的cookie session对象:该对象和requests模块用法几乎一…

爬虫 2023年4月8日
000

合作推广

合作推广

返回顶部