01 爬虫基本原理.md

2023年4月16日下午9:17 • 爬虫

一. 爬虫是什么

![](01 爬虫基本原理.assets/1036857-20171102182154154-1486674926.jpg)

# 1、什么是互联网？
    互联网是由网络设备（网线，路由器，交换机，防火墙等等）和一台台计算机连接而成，像一张网一样。

# 2、互联网建立的目的？
    互联网的核心价值在于数据的共享/传递：数据是存放于一台台计算机上的，
    而将计算机互联到一起的目的就是为了能够方便彼此之间的数据共享/传递，否则你只能拿U盘去别人的计算机上拷贝数据了。

# 3、什么是上网？爬虫要做的是什么？
    我们所谓的上网便是由用户端计算机发送请求给目标计算机，将目标计算机的数据下载到本地的过程。
    # 3.1 只不过，用户获取网络数据的方式是：
      浏览器提交请求->下载网页代码->解析/渲染成页面。
    # 3.2 而爬虫程序要做的就是：
      模拟浏览器发送请求->下载网页代码->只提取有用的数据->存放于数据库或文件中
    # 3.1与3.2的区别在于:
      我们的爬虫程序只提取网页代码中对我们有用的数据

# 4、总结爬虫
    # 4.1 爬虫的比喻：
      如果我们把互联网比作一张大的蜘蛛网，那一台计算机上的数据便是蜘蛛网上的一个猎物，而爬虫程序就是一只小蜘蛛，
      沿着蜘蛛网抓取自己想要的猎物/数据
    # 4.2 爬虫的定义：
        向网站发起请求，获取资源后分析并提取有用数据的程序
    # 4.3 爬虫的价值：
      互联网中最有价值的便是数据，比如天猫商城的商品信息，链家网的租房信息，雪球网的证券投资信息等等，这些数据都代表了各个行业的真金白银，
      可以说，谁掌握了行业内的第一手数据，谁就成了整个行业的主宰，如果把整个互联网的数据比喻为一座宝藏，那我们的爬虫课程就是来教大家如何来高效地挖掘这些宝藏，
      掌握了爬虫技能，你就成了所有互联网信息公司幕后的老板，换言之，它们都在免费为你提供有价值的数据。

二. 爬虫的基本流程

![](01 爬虫基本原理.assets/1036857-20171102174025326-341248106.png)

# 1、发起请求
    使用http库向目标站点发起请求，即发送一个Request
    Request包含：请求头、请求体等

# 2、获取响应内容
    如果服务器能正常响应，则会得到一个Response
    Response包含：html，json，图片，视频等

# 3、解析内容
    解析html数据：正则表达式，第三方解析库如Beautifulsoup，pyquery等
    解析json数据：json模块
    解析二进制数据:以b的方式写入文件

# 4、保存数据
    数据库
    文件
    
# 5. 爬虫本质
   模拟浏览器发送请求（requests，selenium）-> 下载网页代码->只提取有用的数据（bs4，xpath，re）-> 存放于数据库或文件中（文件，excel，mysql，redis，mongodb）

三. 请求与响应

![](01 爬虫基本原理.assets/1036857-20171102180223529-1349691987.png)

# http协议：http://www.cnblogs.com/linhaifeng/articles/8243379.html

# Request：用户将自己的信息通过浏览器（socket client）发送给服务器（socket server）

# Response：服务器接收请求，分析用户发来的请求信息，然后返回数据（返回的数据中可能包含其他链接，如：图片，js，css等）

# 例如：浏览器在接收Response后，会解析其内容来显示给用户，
    而爬虫程序在模拟浏览器发送请求然后接收Response后，是要提取其中的有用数据。

四. Request

# 1、请求方式：
    常用的请求方式：GET，POST
    其他请求方式：HEAD，PUT，DELETE，OPTHONS

举例：用浏览器演示get与post的区别，（用登录演示post）
    # post
    post与get请求最终都会拼接成这种形式：k1=xxx&k2=yyy&k3=zzz
    post请求的参数放在请求体内, 可用浏览器查看，存放于form data内.
    # get
    get请求的参数直接放在url后

# 2、请求url
    url全称统一资源定位符，如一个网页文档，一张图片
    一个视频等都可以用url唯一来确定

    # url编码
        https://www.baidu.com/s?wd=图片
        图片会被编码（看示例代码）
    
    # 网页的加载过程是：
        加载一个网页，通常都是先加载document文档，
        在解析document文档的时候，遇到链接，则针对超链接发起下载图片的请求

# 3、请求头: 一般做爬虫都会加上请求头
    User-agent：请求头中如果没有user-agent客户端配置，
    服务端可能将你当做一个非法用户
    host
    cookies：cookie用来保存登录信息

# 4、请求体
    如果是get方式，请求体没有内容
    如果是post方式，请求体是format data

举例：
    1、登录窗口，文件上传等，信息都会被附加到请求体内
    2、登录，输入错误的用户名密码，然后提交，就可以看到post，正确登录后页面通常会跳转，无法捕捉到post

五. Response

# 1、响应状态
    200：代表成功
    301：代表跳转
    404：文件不存在
    403：权限
    502：服务器错误

# 2、Respone header
    set-cookie：可能有多个，是来告诉浏览器，把cookie保存下来
    
# 3、preview就是网页源代码
    最主要的部分，包含了请求资源的内容
    如网页html，图片
    二进制数据等

六. 总结

# 1、总结爬虫流程：
    爬取--->解析--->存储

# 2、爬虫所需工具：
    请求库：requests,selenium
    解析库：正则，beautifulsoup，pyquery
    存储库：文件，MySQL，Mongodb，Redis

# 3、爬虫常用框架：
    scrapy

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：01 爬虫基本原理.md - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

网络爬虫技术Jsoup

上一篇 2023年4月16日

项目: python爬虫福利煎蛋网妹子图

下一篇 2023年4月16日

Python 博客园快速备份脚本

鉴于有些小伙伴在寻找博客园迁移到个人博客的方案，本人针对博客园实现了一个自动备份脚本，可以快速将博客园中自己的文章备份成Markdown格式的独立文件，备份后的md文件可以直接放入到hexo博客中，快速生成自己的站点，而不需要自己逐篇文章迁移，提高了备份文章的效率。鉴于有些小伙伴在寻找博客园迁移到个人博客的方案，本人针对博客园实现了一个自动备份脚本，可以快…

爬虫 2023年4月12日
001
ruby之selenium自动化 or ruby爬虫利器-selenium

selenium是什么？自动化测试工具，他支持各种浏览器，chrome，firefox等，我们可以在这些浏览器里面安装插件，可以方便的进行web测试，也可以通过代码操作，直接对web界面进行测试。 selenium支持多种语言开发java、python、ruby、c#、js、php等。这边，我用的是ruby+selenium，通过简单的描述，对selen…

爬虫 2023年4月11日
000
[Python爬虫]cnblogs博客备份工具

并发爬虫小练习。直接粘贴到本地，命名为.py文件即可运行，运行时的参数为你想要爬取的用户。默认是本博客。输出是以用户名命名的目录，目录内便是博客内容。仅供学习python的多线程编程方法，后续会重写成并行爬虫。爬虫代码如下： 1 # -*- coding:utf-8 -*- 2 from multiprocessing.managers import…

爬虫 2023年4月11日
000
【Python爬虫】HTTP基础和urllib库、requests库的使用

一个网络爬虫的编写主要可以分为三个部分： 1.获取网页 2.提取信息 3.分析信息本文主要介绍第一部分，如何用Python内置的库urllib和第三方库requests库来完成网页的获取。阅读完本文后，读者将能利用这2个库获取一个网页的HTML代码。但是首先，我们需要一点网络方面的基本知识，才能更好的理解爬虫。为此，读者应该理解以下知识： 1.什么是H…

爬虫 2023年4月10日
000
Python爬虫入门有哪些基础知识点

Python爬虫入门有哪些基础知识点背景介绍爬虫是一种按照一定规则自动抓取网页信息的程序，近年来日益风行，因其便于获取大量网络数据而受到广泛关注。Python语言作为一种简单易用、生态丰富的编程语言，自然成为了开发爬虫的首选工具。本文将详细介绍Python爬虫入门所需的基础知识点，旨在帮助初学者快速入门，开启自己的爬虫之路。知识点一：HTML与CSS…

python 2023年5月14日
000
爬虫前提——正则表达式语法以及在Python中的使用

正则表达式是用来处理字符串的强大工具，他并不是某种编程云。正则表达式拥有独立的承受力引擎，不管什么编程语言，正则表达式的语法都是一样的。正则表达式的匹配过程 1.一次拿出表达式和文本中的字符比较。 2.如果每一个字符都能匹配，则匹配成功；一旦有匹配不成功的字符则匹配失败。 3.如果表达式中有两次或便捷，这个过程会稍微有一些不同。下面举例一些符号…

爬虫 2023年4月12日
000
Python爬虫基础之lxml

一、Python lxml的基本应用 1 <html> 2 <head> 3 <title> 4 The Dormouse’s story 5 </title> 6 </head> 7 <body> 8 <p class=”title”> 9 <b> 10 The…

爬虫 2023年4月11日
000
python爬虫-‘gbk’ codec can’t encode character ‘\xa0’ in position 134: illegal multibyte sequence

UnicodeEncodeError Traceback (most recent call last) <ipython-input-95-45a7accf2da0> in <module> 1 fout = open(‘job_desc.txt’, ‘wt’) 2 for info in job_desc: —-> 3 …

爬虫 2023年4月11日
000

合作推广

合作推广

返回顶部