Anacanda开发环境

Anacanda开发环境及爬虫概述

  • Anaconda是基于数据分析和机器学习的集成环境给我们集成好了数据分析和机器学习对应的各种环境和模块)。
  • jupyter:是Anaconda集成环境提供的基于浏览器可视化的编码工具
  • 注意事项
    • 在环境搭建的时候只需要安装Anaconda即可,安装路径必须是纯英文的,且不可以出现特殊符号
  • 测试安装是否成功:
    • 打开终端:jupyter notebook按下回车即可,说明安装成功且环境变量也配置成功
    • 在你的所有程序中(点击windows键),找寻有没有一个叫做anaconda的文件夹,点击该文件件如果文件夹下方出现了叫做navigator一个程序也表示安装成功。只不过环境变量没有配置好。

如何启动jupyter

  • 方式1:配置好了环境变量,直接在终端中录入jupyter notebook按下回车即可
  • 方式2:没有配置环境变量,打开navigator,点击左上角的home选项,点击jupyter notebook图标下的lauch启动
    • 推荐:点击左上角的environments

Anacanda开发环境及爬虫概述

通过点击open terminal打开终端,cd到你想使用的文件夹内(盘符中的)。在该终端中录入jupyter notebook按下回车即可

jupyter的基本使用

  • 在终端中录入jupyter notebook指令后,表示我们在本机中启动了一个服务。然后会自动打开你的默认浏览器。
    • 注意:你执行jupyter notebook指令的终端,可以进入到指定的目录中执行jupyter notebook指令后,则代开的浏览器显示的页面就是你当前终端对应目录的目录结构。
      • 你终端对应的目录结构就是你浏览器打开jupyter页面中的根目录。

new新建:

  • python3:新建一个jupyter的源文件(重点)

    • 有cell组成:cell就是一行可编辑框
    • cell的作用:
      • 用来根据不同的模式进行代码和笔记的编写。编写好的代码和笔记可以直接在当前文件中运行,查看到运行结果!
    • cell模式:
      • code:可以编写python代码
        • code模式的cell可以写一行代码或者多行代码都行。
        • 特性:编写代码的顺序是无所谓的,但是执行代码顺序一定是自上而下的。
          • 只要在一个cell中定义好了相关的变量或者函数或者类(相关的定义),当该cell执行后,则定义的内容就会被加载到当前源文件的缓存中,那么表示在其他任意的cell中都以直接使用之前定义好的加载到缓存中的定义。
      • markdown:编写笔记。可以使用markdown集成好的指令指定文字的样式,也可以使用html标签指定文字的样式。
  • folder:新建一个文件夹

  • text file:新建一个任意后缀的文本文件

    • 可以写程序,但是不能直接在该文件中运行。
  • terminal:新建一个基于浏览器的终端 (下载包时使用,pip install xxxx)

    快捷键的使用

    • 插入cell:上边新建插入 a, 下边新建插入b

    • 删除cell:x

    • 执行cell:shift+enter

    • 切换cell的模式:m,y

    • cell执行后,在cell的左侧双击就可以回到cell的可编辑模式

    • 执行结果的收回:在执行结果左侧双击即可

    • 打开帮助文档:shift+tab

    • tab:自动补全

    • 撤销:z

      jupyter的源文件写完后可以导出:

    • File-》Download as-》HTML

爬虫概述

  • 什么是爬虫?
    • 就是通过编写程序,让其模拟浏览器上网,然后在互联网中抓取数据的过程。
      • 关键词抽取:
        • 模拟:浏览器就是一个纯天然最原始的一个爬虫工具。
        • 抓取:
          • 抓取一整张的页面源码数据
          • 抓取一整张页面中的局部数据
  • 爬虫的分类:
    • 通用爬虫:
      • 要求我们爬取一整张页面源码数据
    • 聚焦爬虫
      • 要求爬取一张页面中的局部的数据
        • 聚焦爬虫一定是建立在通用爬虫基础之上。
    • 增量式爬虫:
      • 用来监测网站数据更新的情况,以便爬取到网站最新更新出来的数据。
    • 分布式爬虫:
      • 提高爬取效率的终极武器。
  • 反爬机制
    • 是作用到门户网站中。如果网站不想让爬虫轻易爬取到数据,它可以制定相关的机制或者措施阻止爬虫程序爬取其数据。
  • 反反爬策略
    • 是作用在爬虫程序中。我们爬虫可以制定相关的策略破击反爬机制从而爬取到相关的数据。
  • 第一个反爬机制:
    • robots协议:防君子不防小人
      • 是一个纯文本的协议,协议中规定了该网站中哪些数据可以被哪些爬虫爬取,哪些不可以被爬取。
    • 破解:(不遵从即可)
      • 你自己主观性的不遵从该协议即可。