C# 学习之路–百度网盘爬虫设计与实现（一）

2023年4月13日上午12:46 • 爬虫

百度网盘爬虫

现在市面上出现了很多网盘搜索引擎，写这系列博文及爬虫程序的初衷：

更方面的查找资源
学习C#
学习爬虫的设计与实现
记录学习历程
自我监督

能力有限，如有不妥之处，还请各位看官点评。同在学习的网友~与君共勉。

工具/库选择

mysql5.6 (习惯使然，sqlserver比较庞大，个人使用起来不是很习惯，后期可能改为sqlserver)
HttpWebRequest、HttpWebResponse、JSON.NET库
vs2015, .NET4.5

PS：介绍以上是权当做个备忘录/提示。

百度网盘搜索流程

此爬虫原理是通过爬取用户的分享/专辑保存链接来达到资源搜索的目的，而用户与用户之间通过订阅/关注来联系，慢慢形成一个庞大的爬虫网络。

首先设定爬取用户(初始化爬虫队列)。
遍历用户分享/专辑，更改队列状态。
将用户订阅/关注用户加入队列。
重复以上步骤。

PS：看似简单的流程，想要精工还需细磨。

获取百度网盘推荐用户

当没有订阅任何用户时，网盘的分享动态界面会出现一些用户噢。这是系统推荐的用户，虽然改动不一定会很大，但是可以作为爬虫的初始用户来处理(这种推荐用户听说关注的人都不少噢)

接口返回信息：

errorno: 状态码
request_id：请求ID
hotuser_list：用户列表

用户列表结构：

type：类型(通常返回-1，不明用途)
hot_uname：用户昵称
avatar_url：头像缩略图地址
intro：描述
follow_count：订阅人数
fans_count：粉丝人数
user_type：用户类型？（不明意义）
is_vip：是否为VIP
pubshare_count：分享数
hot_uk：不知道啥玩意
album_count：分享专辑数

END

暂时就写到这儿了，要去写代码了~ 写完再会

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：C# 学习之路–百度网盘爬虫设计与实现（一） - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

下载python爬虫需要的库文件bs4

上一篇 2023年4月13日

C#正则表达式入门及在爬虫中的应用一

下一篇 2023年4月13日

Python爬虫入门教程：爬取boss直聘招聘数据并做可视化展示

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。基本开发环境 Python 3.8 Pycharm 相关模块的使用 from selenium import webdriver import csv 安装Python并添加到环境变量，pip安装需要的相关模块即可。如图所示，通过 Py…

爬虫 2023年4月11日
000
Python爬虫爬取一个网页上的图片地址实例代码

当我们使用Python进行爬取网页数据时，将其中的图片下载到本地或者进行进一步的图片处理也很有必要。因此，本文将通过一个实例代码来讲解在Python中如何爬取一个网页上的所有图片地址。实现步骤分析目标网页，确定需要的信息以及相关信息的所在位置。使用requests库获取目标网页的HTML源代码。使用BeautifulSoup库对HTML源代码进行解析…

python 2023年5月14日
000
python 爬虫基本库使用urllib之urlopen(一)

urllib是python内置的请求库。它主要包含四个模块： request :是最基本的HTTP请求模块，可以用来模拟发送请求。 error:异常处理模块，如果请求出现错误，可以捕获异常，然后进行其他操作，保证程序不会意外终止。 parse:工具模块，提供了很多URL处理方法，比如拆分、解析、合并等。 robotparser:主要用来识别网站的robots…

爬虫 2023年4月11日
000
requests（爬虫常用）库的使用

Requests库的使用基于urllib改写的库示例： import requests response=requests.get(‘http://www.baidu.com’)#get请求 print(response.status_code,response.url,response.cookies,response.text,sep=’\n’) i…

爬虫 2023年4月13日
000
Scrapy项目 – 数据简析 – 实现豆瓣 Top250 电影信息爬取的爬虫设计

一、数据分析截图(weka数据分析截图 ) 本例实验，使用Weka 3.7对豆瓣电影网页上所罗列的上映电影信息，如：标题、主要信息（年份、国家、类型）和评分等的信息进行数据分析，Weka 3.7数据分析如下所示：图1-1 数据分析主界面图1-2 OneR数据分析界面图1-3 ZeroR数据分析界面图1-4 Visualize数据分析…

爬虫 2023年4月10日
000
爬虫

python爬虫学习(5) —— 扒一下codeforces题面

上一次我们拿学校的URP做了个小小的demo。。。。其实我们还可以把每个学生的证件照爬下来做成一个证件照校花校草评比另外也可以写一个物理实验自动选课。。。但是出于多种原因，，还是绕开这些敏感话题。。今天，我们来扒一下cf的题面！ PS:本代码不是我原创 1. 必要的分析 1.1 页面的获取一般情况CF的每一个 contest 是这样的：对应的URL是：h…

2023年4月8日
000
爬虫

python爬虫 – js逆向之猿人学第十二题base64加密

前言继续分析，为什么一下从第二题跳到了十二题，我也不知道为啥他这个平台的难度不循序渐进，把这么一个非常简答的题放在了后面，既然简单，那就快速解决了分析打开界面：翻页，找接口：看参数：也是m，不多说，看到最后有【=】，先猜一波是不是base64，拿着去解码：发现就是yuanrenxue+页…

2023年4月13日
000
百度爬虫为什么这样没有轻重的爬呢？

网站昨天持续打开很慢，经过分析发现是百度爬虫频繁抓取导致，改了rorots.txt还是不起作用，后来业务同事催得急，急中生智在阿里云后台设置了安全组规则，用cidr一下解决问题。网段如下 123.125.71.74/24 220.181.108.139/24 111.206.198.46/16 可能会误伤一些用户的IP。虽然这样做，百度可能会将网…

爬虫 2023年4月11日
000

合作推广

合作推广

返回顶部