[爬虫]通过url获取连接地址中的数据

2023年4月10日下午10:16 • 爬虫

1. 要想获取指定连接的数据，那么就得使用HtmlDocument对象，要想使用HtmlDocument对象就必需引用using
HtmlAgilityPack;

2. 详细步骤如下：

步骤一：

获取链接地址内容：

var html =HttpDownLoadHelper.GetUtf8Html("链接地址");

HttpDownLoadHelper类中的内容如下：

public
class
HttpDownLoadHelper

{

///
<summary>

///
根据URL获取一个页面的Html内容

///
</summary>

///
<param name="url"></param>

///
<returns></returns>

public
static
string
GetUtf8Html(string
url)

{

WebClient
wc
=
new
WebClient();

wc.Encoding
=
Encoding.UTF8;

var
html
=
wc.DownloadString(url);

return
html;

}

}

步骤二：

判断获取到的内容是否为空？

步骤三：

获取数据：

·实例化"HtmlDocument
【HTML文档】"对象

HtmlDocument
doc
=
new
HtmlDocument();

·载入获取到的内容

doc.LoadHtml(html);

·获取文档中的根节点

HtmlNode
rootNode
=
doc.DocumentNode;

·从根节点中通过标签获取指定的内容。

HtmlNodeCollection
titleNodes
=
rootNode.SelectNodes("对应的标签");

存储数据：

·创建一个存放数据的List集合

List<NewsList>
newsList=new
List<NewsList>();

NewsList对象的代码如下：

public
class
NewsList

{

public
string
Title { get; set; }

public
string
Url { get; set; }

}

·将数据添加到集合中：

foreach (var
title
in
titleNodes)

{

NewsList
news=new
NewsList();

news.Title
=
title.GetAttributeValue("title", "");

// title是标签的属性

news.Url="http://www.yulinu.edu.cn"+title.GetAttributeValue("href", "");

//href是标签的属性。

newsList.Add(news);

}

具体事例：【获取榆林学院首页中的新闻列表】

·引用using
HtmlAgilityPack;

HtmlAgilityPack.dll的下载地址：http://htmlagilitypack.codeplex.com/【里面有支持各种.NET Framework的版本的dll。】

·主方法：

public
static
void
Main(string[] args)

//创建一个存放新闻的List集合

List<NewsList>
newsList=new
List<NewsList>();

//根据url获取一个页面的Html内容。

var
html
=
HttpDownLoadHelper.GetUtf8Html("http://www.yulinu.edu.cn/news.jsp?urltype=tree.TreeTempUrl&wbtreeid=1036");

//判断是否为空

if (!string.IsNullOrEmpty(html))

HtmlDocument
doc
=
new
HtmlDocument(); //实例化html实例对象

doc.LoadHtml(html);//载入html文档

HtmlNode
rootNode
=
doc.DocumentNode; //获取文档中的根节点

//从根节点中通过标签获取指定的内容。

HtmlNodeCollection
titleNodes
=
rootNode.SelectNodes("//div[@class='Classbox List']/ul/li/a");

foreach (var
title
in
titleNodes)

NewsList
news=new
NewsList();

news.Title
=
title.GetAttributeValue("title", "");

news.Url
=
"http://www.yulinu.edu.cn"
+
title.GetAttributeValue("href", "");

newsList.Add(news);

//输出标题和地址

foreach (var
list
in
newsList)

Console.WriteLine("新闻标题为：{0}，新闻链接地址为：{1}",list.Title,list.Url);

Console.WriteLine("总共有{0}条新闻",newsList.Count);

Console.ReadKey();

·HttpDownLoadHelper代码如下：

public
class
HttpDownLoadHelper

///
根据URL获取一个页面的Html内容

///
<param name="url"></param>

///
<returns></returns>

public
static
string
GetUtf8Html(string
url)

WebClient
wc
=
new
WebClient();

wc.Encoding
=
Encoding.UTF8;

var
html
=
wc.DownloadString(url);

·NewsList代码如下：

public
class
NewsList

public
string
Title { get; set; }

public
string
Url { get; set; }

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：[爬虫]通过url获取连接地址中的数据 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

Python网络爬虫与信息提取[request库的应用](单元一)

上一篇 2023年4月10日

python 自建爬虫复用简单框架(gevent异步)

下一篇 2023年4月10日

如何避免反爬机制？

为了避免反爬机制，我们需要采取一些措施来模拟真实用户访问行为，尽可能地减少爬虫被识别的概率。以下是一些具体的措施：修改User-Agent 大部分网站都会通过检查User-Agent来判断请求是否来自爬虫，因此我们需要将爬虫的User-Agent修改为浏览器的User-Agent，使得服务器难以判断该请求是否来自爬虫。可以从多个网站上获得一些常见的User…

爬虫 2023年4月20日
000
爬虫之Requests&beautifulsoup

　　网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。目录一、Requests 二、BeautifulSoup 三、自动登陆抽屉并点赞四、“破解”微信公众号五、自动登陆示例一、Requests P…

爬虫 2023年4月12日
000
爬虫基础知识

目录一、requests模块二、requests携带参数的方式三、get请求URL解码编码四、post请求携带数据编码格式四、get请求携带请求头五、post请求携带参数六、requests.session的使用(可以不用带cookie) 七、response对象八、爬取图片和视频(前提是没有做防盗链) 爬虫是什么？；爬虫就是程序—&gt…

爬虫 2023年4月8日
000
python3下scrapy爬虫(第八卷:循环爬取网页多页数据）

之前我们做的数据爬取都是单页的现在我们来讲讲多页的一般方式有两种目标URL循环抓取另一种在主页连接上找规律，现在我用的案例网址就是通过点击下一页的方式获取多页资源话不多说全在代码里（因为刚才写这篇文章时电脑出现点问题所以没存下来，所以这一版本不会那么详细）来看下结果522*35条连接页面的数据爬取：是不是很爽

爬虫 2023年4月11日
000
Python 网络爬虫 010 (高级功能) 解析 robots.txt 文件

使用的系统：Windows 10 64位 Python 语言版本：Python 2.7.10 V 使用的编程 Python 的集成开发环境：PyCharm 2016 04 我使用的 urllib 的版本：urllib2 注意：我没这里使用的是 Python2 ，而不是Python3 一 . 前言之前，我在网络爬虫科普的时候，介绍过robots.txt 文…

爬虫 2023年4月13日
000
Python3多线程处理爬虫的实战

Python3多线程处理爬虫的实战攻略在爬取数据时，使用多线程可以大幅提高数据爬取的效率。Python3多线程处理爬虫的实战攻略如下： 1. 引入线程库在Python中，我们使用threading库来实现多线程。在使用threading库前，需要引入该库，代码如下： import threading 2. 定义线程定义一个线程需要使用Thread()类…

python 2023年5月14日
000
向scrapy爬虫传参,向scrapy部署后的爬虫传参

https://blog.csdn.net/c0411034/article/details/81750028 https://blog.csdn.net/Q_AN1314/article/details/50748700 在爬虫里面接收参数 def __init__(self, pid=None, *args, **kwargs):…

爬虫 2023年4月11日
000
Python爬虫框架Scrapy简介

Python爬虫框架Scrapy简介 Scrapy是一款用Python编写的Python爬虫框架，它可以帮助我们快速、高效地抓取互联网上的数据，特别是那些合法且开放的数据。使用Scrapy不仅仅可以完成简单的数据抓取任务，它还具备自动化爬取、数据存储、数据处理等多个功能，让我们专注于核心业务逻辑开发，提高了开发效率和数据可靠性面。 Scrapy的主要特点 1…

python 2023年5月14日
000

合作推广

合作推广

返回顶部