- 网络爬虫的概念:模拟客户端(主要指浏览器),发送网络请求,获取网络响应数据的自动化程序。
- 爬虫的应用场景:
- 数据采集 通过python爬虫爬取微博事件评论,进行舆情分析;通过爬取互联网岗位信息,进行行业分析;天气预报等数据采集
- 软件测试 使用selenium进行软件测试
- 短信轰炸、12306买票等
- http协议与https协议
-
- http协议,超文本传输协议,默认端口号80
- 超文本传,超越文本,不限于文本,包含视频、图片等
- 传输协议,共同约定一种格式,进行数据传输
- https,即http+ssl(安全套接字),默认端口443
- ssl针对传输内容进行加密操作
- http协议,超文本传输协议,默认端口号80
4.http的响应格式:
-
- get请求
- 请求行 请求方式+路径+协议版本
- 请求头 请求地址、cookies等信息(各种信息较多,不详细描述)
- 空行
- post请求
- 请求行 (同get请求)
- 请求头 (同get请求)
- 请求体 (账号、表单等信息,同时会包含一些反爬字段注意识别)
- 空行
- get请求
5.请求头字段介绍
-
- host(域名):www.baidu.com
- connection(链接方式):keep-alive
- User-Agent(用户代理):浏览器的基本信息
- referer(页面跳转处):防止盗链及增加反爬手段
- cookies(用户标识): 用户的唯一标识,用来识别唯一用户
6.常见状态码
-
- 200:成功
- 302:跳转
- 303:对post请求的响应进行重定向新的url
- 307:对get请求的响应进行重定向
- 403:服务端理解客户的请求,但拒绝他。没有权限
- 404:找不到该页面
- 500:服务器内部错误
- 503:服务器由于维护或负载过重未能应答,有可能是因为爬虫的频繁响应,使服务器忽视爬虫的请求
对于服务器返回的状态码,仅供爬虫时参考,不能完全相信。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:python爬虫概述 - Python技术站