1. 网络爬虫的概念:模拟客户端(主要指浏览器),发送网络请求,获取网络响应数据的自动化程序。  
  2. 爬虫的应用场景:
    • 数据采集   通过python爬虫爬取微博事件评论,进行舆情分析;通过爬取互联网岗位信息,进行行业分析;天气预报等数据采集
    • 软件测试   使用selenium进行软件测试
    • 短信轰炸、12306买票等
  3. http协议与https协议
    • http协议,超文本传输协议,默认端口号80
      • 超文本传,超越文本,不限于文本,包含视频、图片等
      • 传输协议,共同约定一种格式,进行数据传输
    • https,即http+ssl(安全套接字),默认端口443
      • ssl针对传输内容进行加密操作

  4.http的响应格式:

    • get请求
      • 请求行    请求方式+路径+协议版本
      • 请求头    请求地址、cookies等信息(各种信息较多,不详细描述)
      • 空行
    • post请求
      • 请求行   (同get请求)
      • 请求头   (同get请求)
      • 请求体   (账号、表单等信息,同时会包含一些反爬字段注意识别)
      • 空行

5.请求头字段介绍

    • host(域名):www.baidu.com
    • connection(链接方式):keep-alive
    • User-Agent(用户代理):浏览器的基本信息
    • referer(页面跳转处):防止盗链及增加反爬手段
    • cookies(用户标识): 用户的唯一标识,用来识别唯一用户

6.常见状态码

    • 200:成功
    • 302:跳转
    • 303:对post请求的响应进行重定向新的url
    • 307:对get请求的响应进行重定向
    • 403:服务端理解客户的请求,但拒绝他。没有权限
    • 404:找不到该页面
    • 500:服务器内部错误
    • 503:服务器由于维护或负载过重未能应答,有可能是因为爬虫的频繁响应,使服务器忽视爬虫的请求

           对于服务器返回的状态码,仅供爬虫时参考,不能完全相信。