小白必看的Python爬虫流程

2023年4月11日上午9:51 • 爬虫

定义：

网络爬虫（Web Spider），又被称为网页蜘蛛，是一种按照一定的规则，自动地抓取网站信息的程序或者脚本。

简介：

网络蜘蛛是一个很形象的名字。如果把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页，从网站某一个页面开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。

爬虫整体流程：

①先由urllib的request打开Url得到网页html文档

②浏览器打开网页源代码分析元素节点

③通过Beautiful Soup或则正则表达式提取想要的数据

④存储数据到本地磁盘或数据库（抓取，分析，存储）

详细步骤

第一步：抓取网页

搜索引擎网络爬虫的基本工作流程如下：

首先选取一部分的种子URL，将这些URL放入待抓取URL队列；

取出待抓取URL，解析DNS得到主机的IP，并将URL对应的网页下载下来，存储进已下载网页库中，并且将这些URL放进已抓取URL队列。

分析已抓取URL队列中的URL，分析其中的其他URL，并且将URL放入待抓取URL队列，从而进入下一个循环

第二步：数据存储

搜索引擎通过爬虫爬取到的网页，将数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。

搜索引擎蜘蛛在抓取页面时，也做一定的重复内容检测，一旦遇到访问权重很低的网站上有大量抄袭、采集或者复制的内容，很可能就不再爬行。

第三步：预处理

搜索引擎将爬虫抓取回来的页面，进行各种步骤的预处理。

提取文字

中文分词

消除噪音（比如版权声明文字、导航条、广告等……）

索引处理

链接关系计算

特殊文件处理

最后将数据存储起来以备使用。

本文转载于https://www.py.cn/jishu/spider/10790.html

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：小白必看的Python爬虫流程 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

scrapy 解决爬虫IP代理池，数据轻松爬。

上一篇 2023年4月11日

Python爬虫学习笔记（二）

下一篇 2023年4月11日

爬虫

Python爬虫学习==>第五章：爬虫常用库的安装

爬虫有请求库（request、selenium）、解析库、存储库（MongoDB、Redis）、工具库，此节学习安装常用库的安装正式步骤 Step1：urllib和re库这两个库在安装Python中，会默认安装，下面代码示例调用： >>> import urllib >>> import urll…

2023年4月8日
000
爬虫

python爬虫同时输出两个列表（zip函数）

简介：在做爬虫时，xpath返回的是列表格式，我们又需要将列表中的元素一一对应并存放至字典中，这是就可以用zip函数。　　zip() 函数用于将可迭代的对象作为参数，将对象中对应的元素打包成一个个元组，然后返回由这些元组组成的列表。如果各个迭代器的元素个数不一致，则返回列表长度与最短的对象相同，利用 * 号操作符，可以将元组解压为列表。 eg：从电影…

2023年4月8日
000
Java的HTTP协议库 HttpComponents（爬虫）

HttpComponents也就是以前的httpclient项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端/服务器编程工具包，并且它支持 HTTP 协议最新的版本和建议。以下列出的是 HttpClient 提供的主要的功能，要知道更多详细的功能可以参见 HttpClient 的主页。实现了所有 HTTP 的方法（GET,POST…

爬虫 2023年4月12日
000
Python爬虫之Lxml库与Xpath语法

Lxml库是基于lbxml2的XML解析库的Python封装。作用：使用Xpath语法解析定位网页数据。 Lxml库的安装 windows系统下的安装： #pip安装 pip3 install lxml #wheel安装 #下载对应系统版本的wheel文件:http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml pi…

爬虫 2023年4月11日
000
Python爬虫实战（二）

本来晚上是准备写贴吧爬虫的，但是在分析页面时就遇到了大麻烦！选取了某个帖子，在爬取的时候，发现正则匹配不全..很尴尬！！先来看看吧， 1 #!/usr/bin/env python 2 # -*- coding:utf-8 -*- 3 __author__ = ‘ziv·chan’ 4 5 6 import requests 7 import re 8 9 …

爬虫 2023年4月13日
000
强大的aiohttp异步爬虫的使用

aiohttp是一个为Python提供异步HTTP 客户端/服务端编程，基于asyncio(Python用于支持异步编程的标准库)的异步库。爬虫方面我们用的主要是客户端来发起请求，一般我们使用aiohttp和asyncio联合这两个异步库来写异步爬虫，其实可以把aiohttp 看作是异步版的requests库。这是aiohttp使用的最简单的例子 imp…

爬虫 2023年4月11日
000
python3定时爬虫

（1）使用制作python爬虫这篇文章足够带你学会如何制作爬虫：https://www.jianshu.com/p/486869f23959 （2）在linux搭建python环境，可以查看我搭建环境的随笔 http://www.cnblogs.com/mituxiaogaoyang/p/8656414.html （3）在独立的虚拟环境中使用pip安装对应…

爬虫 2023年4月10日
000
Python爬虫之用Xpath获取关键标签实现自动评论盖楼抽奖(二)

下面我详细讲解一下“Python爬虫之用Xpath获取关键标签实现自动评论盖楼抽奖(二)”这篇文章的攻略。阅读文章并理解首先，我们需要仔细阅读文章，并对其中提到的技术点和方法有一个初步理解。此篇文章主要讲解了如何使用Python爬虫结合Xpath对网页进行解析，获取关键标签，实现自动评论盖楼抽奖的效果。具体实现过程中，需要掌握的技术点有：requests库…

python 2023年5月14日
000

合作推广

合作推广

返回顶部