Abot 爬虫分析-整体结构

2023年4月12日下午8:17 • 爬虫

1. 引言

在Github 上搜索下Web Crawler 有上千个开源的项目，但是C#的仅仅只有168 个，相比于Java 或者Python 确实少的可怜。如果按照Stars 排名。可以看到

排在第一位的是一个叫Abot的爬虫。通过这两天的测试，发现Abot是一个非常轻巧的爬虫。非常适合.Net程序员入门爬虫技术。

在上一篇博文中，已经简单的介绍了如何使用Abot爬取博客园的新闻数据。今天给大家介绍下Abot的整体结构。

2. 整体结构

Abot的项目非常简单，核心的只有一个Project，但是里面已经包含了线程调度、Html 解析等核心模块。Abot的入口是PoliteWebCrawler，只需要它的一个Instance就可以启动爬虫。

整体的爬取流程大概是这样子的，以爬取博客园新闻数据为例：

上图中绿色的箭头表示线程从Url Repository获取需要爬取的Url，黑色的箭头表示线程将未爬取Url放入Url Repository。

主要的模块有：

1) Url Repository 存储所有需要爬取的Url，底层的实现采用了ConcurrentQueue，因此是线程安全的，也满足了先进先出的规则。

2) Thread Manager 管理所有的爬取线程，线程个数默认是当前处理器的个数，也可以通过Config 指定。

3) Robots 处理robots.txt 的模块，Abot 直接封装了NRobotsPatched 来解析robots.txt

4) LinkParser解析当前爬取到的page 中的链接，Abot 很大程度上利用了HtmlAgilityPack

5) Crawled Url Repository 存储已经爬取的Url，Abot 内部有多个实现

6) Http download 采用了HttpWebRequest 和 HttpWebResponse

7) Memory Monitor 主要是监控内存使用等等，可以通过Config设置爬虫的内存使用上限等

8) Event 相关，主要是在适当的时候触发像Start Crawl 等事件

这是Abot的代码目录

3. 总结

本文主要介绍下Abot 的整体结构，从代码量来看还是非常的轻巧，但是里面具体的实现还是有不少细节性的东西。

对于.Net 程序员是个非常好的学习项目。以后再给大家分析下具体模块的实现。

欢迎访问我的个人网站 51zhang.net 网站还在不断开发中…

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Abot 爬虫分析-整体结构 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

爬虫登录，立FLAG

上一篇 2023年4月12日

利用Abot爬虫和visjs 呈现漫威宇宙

下一篇 2023年4月12日

Python爬虫中的并发编程详解

Python爬虫中的并发编程详解在Python爬虫中，为了提高爬虫效率，通常需要使用并发编程。本文将介绍Python爬虫中的并发编程，包括多线程、协程和异步IO等技术。同时，还会提供两个示例讲解。多线程多线程是指在一个进程中存在多个线程，每个线程都可以独立执行不同的任务。在Python中，可以使用threading模块实现多线程编程。下面是一个简单的…

python 2023年5月14日
001
爬虫高性能相关

阅读目录一背景知识二同步、异步、回调机制三高性能一背景知识爬虫的本质就是一个socket客户端与服务端的通信过程，如果我们有多个url待爬取，只用一个线程且采用串行的方式执行，那只能等待爬取一个结束后才能继续下一个，效率会非常低。需要强调的是：对于单线程下串行N个任务，并不完全等同于低效，如果这N个任务都是纯计算的任务，那么该线程…

爬虫 2023年4月13日
000
Python3爬虫：利用Fidder抓取手机APP的数据

1、什么是Fiddler?　　　　Fiddler是一个http协议调试代理工具，它能够记录并检查所有你的电脑和互联网之间的http通讯，设置断点，查看所有的“进出”Fiddler的数据（指cookie,html,js,css等文件）。　　 Fiddler 要比其他的网络调试器要更加简单，因为它不仅仅暴露http通讯还提供了一个用户友好的格式。同类的工具有:…

爬虫 2023年4月11日
000
一篇文章带你了解Python之Selenium自动化爬虫

让我为您详细讲解一下“一篇文章带你了解Python之Selenium自动化爬虫”的攻略。什么是Selenium自动化爬虫 Selenium自动化爬虫是一种基于Selenium Web Driver框架实现对网站信息的爬取和收集的方法。它通过模拟用户的操作行为，来访问网站并获取网页内容，可以轻松实现动态网站的爬取。前期准备安装Python 在开始使用Se…

python 2023年5月14日
000
爬虫

Python爬虫：为什么你爬取不到网页数据

前言：之前小编写了一篇关于爬虫为什么爬取不到数据文章（文章链接为：Python爬虫经常爬不到数据，或许你可以看一下小编的这篇文章），但是当时小编也是胡乱编写的，其实里面有很多问题的，现在小编重新发布一篇关于爬虫爬取不到数据文章，希望各位读者更加了解爬虫。 1. 最基础的爬虫通常编写爬虫代码，使用如下三行代码就可以实现一个网页的基本访问了。 from u…

2023年4月17日
000
爬虫

Python爬虫——request实例：爬取网易云音乐华语男歌手top10歌曲

requests是python的一个HTTP客户端库，跟urllib，urllib2类似，但比那两个要简洁的多，至于request库的用法，推荐一篇不错的博文：https://cuiqingcai.com/2556.html 话不多说，先说准备工作： 1，下载需要的库：request，BeautifulSoup( 解析html和xml字符串),xlwt(将…

2023年4月8日
000
Python网络爬虫之cookie处理、验证码识别、代理ip、基于线程池的数据爬去

本文概要 session处理cookie proxies参数设置请求代理ip 基于线程池的数据爬取引入有些时候，我们在使用爬虫程序去爬取一些用户相关信息的数据（爬取张三“人人网”个人主页数据）时，如果使用之前requests模块常规操作时，往往达不到我们想要的目的，例如： #!/usr/bin/env python # -*- coding:utf-8 …

爬虫 2023年4月16日
000
Python爬虫程序架构和运行流程原理解析

Python爬虫程序架构和运行流程原理解析概述 Python爬虫程序的架构和运行流程大致可以分为以下几个步骤：确定爬取目标：首先我们需要确定需要爬取的目标，例如一个网站，或者一个特定的页面。编写爬虫程序：接下来我们需要编写爬虫程序，通过代码实现模拟浏览器访问页面，提取页面中我们想要的数据。数据处理和存储：从页面中提取到的数据需要进行处理和存储，以方便…

python 2023年5月14日
000

合作推广

合作推广

返回顶部