[爬虫学习笔记]C# 使用 ScrapySharp 并行下载天涯图片

2023年4月10日下午11:11 • 爬虫

最近因为一个作业需要完成CNKI爬虫，研究爬虫架构的时候发现了这个疑似移植于Python的著名开源爬虫框架Scrapy的ScrapySharp，然而在网上寻找之后只发现了这个F#的Demo，就使用原文中示例的网站写了这个C#版本的代码。

PS:研究之后发现，ScrapySharp和Scrapy差距还是挺大的，没有Scrapy那样完善的八大组件，只含有获取网页内容和基于HtmlAgilityPack扩展的网页解析功能，莫名有些小失望。

using System;
using System.IO;
using System.Linq;
using System.Threading.Tasks;
using HtmlAgilityPack;
using ScrapySharp.Extensions;
using ScrapySharp.Network;

namespace ScrapySharpDemo
{
    class Program
    {
        static void Main(string[] args)
        {
            //示例网站地址
            var url = "http://bbs.tianya.cn/post-12-563201-1.shtml";
            var web = new ScrapingBrowser();
            var html = web.DownloadString(new Uri(url));
            var doc = new HtmlDocument();
            doc.LoadHtml(html);
            //获取网站中的图片地址
            var urls= doc.DocumentNode.CssSelect("div.bbs-content > img").Select(node => node.GetAttributeValue("original")).ToList();
            //并行下载图片
            Parallel.ForEach(urls, SavePic);
        }

        public static void SavePic(string url)
        {
            var web = new ScrapingBrowser();
            //因天涯网站限制,所有站外来源都无法访问图片,故先设置请求头Refer属性为当前页地址
            web.Headers.Add("Referer", "http://bbs.tianya.cn/post-12-563201-1.shtml");
            var pic = web.NavigateToPage(new Uri(url)).RawResponse.Body;
            var file = url.Substring(url.LastIndexOf("/", StringComparison.Ordinal));
            if (!Directory.Exists("imgs"))
                Directory.CreateDirectory("imgs");
            File.WriteAllBytes("imgs" + file, pic);
        }
    }
}

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：[爬虫学习笔记]C# 使用 ScrapySharp 并行下载天涯图片 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

Python3编写网络爬虫02-基本请求库requests的使用

上一篇 2023年4月10日

python网络爬虫与信息提取——1.requests库入门

下一篇 2023年4月10日

Requests什么的通通爬不了的Python超强反爬虫方案！

Requests什么的通通爬不了的Python超强反爬虫方案！在网络爬虫中，反爬虫技术是非常常见的，其目的是为了防止过多的数据抓取和恶意软件对网站造成的影响。对于网站作者来讲，为了保护自己的数据，也需要具备反爬虫的能力。本文将介绍一种Python超强反爬虫方案，使用Pyppeteer与Selenium技术，以及动态User-Agent与代理IP等技术来防护…

python 2023年5月14日
000
【scrapy网络爬虫】之四日志等级和请求传参【python网络爬虫】之requests相关模块

一.Scrapy的日志等级　　- 在使用scrapy crawl spiderFileName运行程序时，在终端里打印输出的就是scrapy的日志信息。　　- 日志信息的种类：　　　　　　　　ERROR ：一般错误　　　　　　　　WARNING : 警告　　　　　　　　INFO : 一般的信息　　　　　　　　DEBUG ：调试信息　　　　　…

爬虫 2023年4月12日
000
Python的Scrapy爬虫框架简单学习笔记

Python的Scrapy爬虫框架简单学习笔记 Scrapy是一个用于数据爬取的Python框架，它提供了丰富的功能和工具，可以用来爬取各种类型的数据，包括但不限于网页，API，甚至是JSON文件等。以下是一个简单的学习笔记，帮助您了解Scrapy的基本功能和使用方法。安装Scrapy 首先，您需要安装Scrapy。在您的命令行界面输入以下命令即可： pi…

python 2023年5月14日
000
python爬虫值requests模块

– 基于如下5点展开requests模块的学习什么是requests模块 requests模块是python中原生的基于网络请求的模块，其主要作用是用来模拟浏览器发起请求。功能强大，用法简洁高效。在爬虫领域中占据着半壁江山的地位。为什么要使用requests模块因为在使用urllib模块的时候，会有诸多不便之处，总结如下：手动处理url编码手动处理…

爬虫 2023年4月13日
000
Python爬虫之urllib-登录博客园

拟使用cookie登录网站（以博客园为例）：首先使用自己的账号和密码在浏览器登录，然后通过抓包拿到cookie，再将cookie放到请求之中发送请求即可 import urllib.request headers = { “authority”: “passport.cnblogs.com”, “method”: “GET”, “path”: “/user…

爬虫 2023年4月10日
000
python爬虫之BeautifulSoup4使用

钢铁知识库，一个学习python爬虫、数据分析的知识库。人生苦短，快用python。上一章我们讲解针对结构化的html、xml数据，使用Xpath实现网页内容爬取。本章我们再来聊另一个高效的神器：Beautiful Soup4。相比于传统正则表达方式去解析网页源代码，这个就简单得多，实践是检验真理的唯一标准，话不多说直接上号开搞验证。 Beautiful …

爬虫 2023年4月12日
000
《Python爬虫学习系列教程》学习笔记

转自http://www.cnblogs.com/xin-xin/p/4297852.html http://cuiqingcai.com/1052.html 大家好哈，我呢最近在学习Python爬虫，感觉非常有意思，真的让生活可以方便很多。学习过程中我把一些学习的笔记总结下来，还记录了一些自己实际写的一些小爬虫，在这里跟大家一同分享，希望对Python爬虫…

爬虫 2023年4月11日
000
Python爬虫入门

一. from urllib import requestres=request.urlopen(‘https://www.douban.com’)data = res.read()print(data.decode(‘utf-8’))通过以上代码可以获取到豆瓣网页源码。1.urllib提供的功能就是利用程序去执行各种HTTP请求。如果要模拟浏览器完成特定功…

爬虫 2023年4月13日
000

合作推广

合作推广

返回顶部