hta作品笨狼CSDN爬虫

HTA作品笨狼CSDN爬虫

概述

CSDN爬虫是一个基于HTA(HTML应用程序)的简单爬虫工具,使用VBScript语言编写。它可以抓取CSDN上任何用户的博客文章列表,包括文章标题、URL和发布时间等信息。

工具及环境

  • Windows系统
  • IE浏览器
  • 记事本或其他文本编辑器

步骤

步骤一:新建HTA应用程序

使用文本编辑器新建一个.hta文件,在文件头部添加以下代码:

<!DOCTYPE html>
<html>
    <head>
        <title>CSDN博客爬虫</title>
        <hta:application id="CSDNCrawler"
                         applicationname="CSDN博客爬虫"
                         icon="/favicon.ico"
                         border="dialog"
                         innerborder="no"
                         scroll="no"
                         singleinstance="no"
                         maximizebutton="no"
                         minimizebutton="no"
                         sysmenu="no"
                         showintaskbar="yes"
                         caption="yes"
                         contextmenu="no"
                         navigable="yes"
        >
        <script type="text/vbscript">
            Sub window_onload
                '在这里编写代码
            End Sub
        </script>
    </head>
    <body>
    </body>
</html>

步骤二:构建UI界面

在body标签内添加以下代码,构建UI界面:

<div id="form">
    <h1>CSDN博客爬虫</h1>
    <form>
        <input type="text" id="blog_username" placeholder="请输入CSDN用户名">
    </form>
    <button type="button" onclick="crawl()">开始爬虫</button>
    <br><br>
    <div id="result_area"></div>
</div>

步骤三:爬虫实现

在window_onload子过程中添加以下代码,实现爬虫功能:

Sub window_onload
    Set xmlhttp = CreateObject("MSXML2.XMLHTTP")
    xmlhttp.setRequestHeader "User-agent", "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0)"
    xmlhttp.open "GET", "http://blog.csdn.net/" & blog_username.Value, False
    xmlhttp.send

    If xmlhttp.status = "200" Then
        Set doc = CreateObject("HTMLfile")
        doc.write xmlhttp.responseText
        Set blogs = doc.getElementById("article_list")
        Set titles = blogs.getElementsByTagName("h1")
        Set times = blogs.getElementsByTagName("span")
        For i = 0 To titles.length-1
            Set link = titles(i).getElementsByTagName("a")(0)
            result_area.innerHTML = result_area.innerHTML & "<p>" & link.innerHTML & " " & link.href & " " & times(i).innerHTML & "</p>"
        Next
    Else
        MsgBox "获取网页内容失败!"
    End If
End Sub

示例一:成功抓取博客文章列表

例如,输入CSDN用户名“ruida”后,点击“开始爬虫”按钮,可以得到以下结果:

Java 对象  http://blog.csdn.net/ruida/article/details/7043482 2012-01-09 22:25
Android SDK学习资源  http://blog.csdn.net/ruida/article/details/6918265 2012-01-05 10:24
Firefox通道同步代理服务器  http://blog.csdn.net/ruida/article/details/6050176 2011-11-09 13:55
Firefox:记住HTTP身份验证信息  http://blog.csdn.net/ruida/article/details/4041435 2009-12-08 20:54
使用Apache POI创建Excel  http://blog.csdn.net/ruida/article/details/3987063 2009-11-18 11:03
在Ubuntu上安装Ant  http://blog.csdn.net/ruida/article/details/3959381 2009-11-13 17:29
Tomcat virtual host配置  http://blog.csdn.net/ruida/article/details/3869898 2009-11-03 19:37

示例二:提示获取网页内容失败

例如,当输入不存在的CSDN用户名时,点击“开始爬虫”按钮,会出现以下提示:

获取网页内容失败!

总结

HTA作品笨狼CSDN爬虫是一个简单的爬虫工具,可以抓取CSDN上的博客文章列表。步骤包括新建HTA应用程序、构建UI界面和实现爬虫功能等。具体实现细节详见代码示例。

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:hta作品笨狼CSDN爬虫 - Python技术站

(0)
上一篇 2023年6月15日
下一篇 2023年6月15日

相关文章

  • log4j使用教程详解(怎么使用log4j2)

    log4j使用教程详解(怎么使用log4j2) 介绍 log4j是一个Java语言的日志记录工具,可以对程序进行日志记录,允许程序员控制日志记录输出的目的地、日志记录内容等。log4j2是log4j的升级版。本文将详细讲解如何使用log4j2。 步骤 1. 引入log4j2到项目中 在工程目录下找到 pom.xml 或 gradle.build 文件,在文件…

    Java 2023年5月26日
    00
  • Java 实战练手项目之校园超市管理系统的实现流程

    校园超市管理系统是一个相对综合的Java实战练手项目,涉及到多个模块和技术。下面将详细阐述实现该系统的完整攻略。 1. 需求分析 在实现任何一个应用程序之前,我们需要首先进行需求分析,确定该系统需要满足哪些需求。在校园超市管理系统中,常见的需求包括: 商品管理:实现商品的添加、编辑、删除、查询等功能; 库存管理:对库存进行统计、报表展示等操作; 订单管理:实…

    Java 2023年5月31日
    00
  • java jackson 将对象转json时,忽略子对象的某个属性操作

    要忽略 Jackson 序列化对象中子对象的某个属性,可以使用 Jackson 的注解 @JsonIgnore 或 @JsonIgnoreProperties。下面是详细攻略: 1. @JsonIgnoreProperties @JsonIgnoreProperties 注解可以添加到需要进行序列化和反序列化的类上,以忽略某些属性。比如说有一个 User 类…

    Java 2023年5月20日
    00
  • Spring Boot学习入门之统一异常处理详解

    Spring Boot学习入门之统一异常处理详解 一、简介 在开发Web应用程序时,不可避免地会遇到各种异常情况。如果没有良好的异常处理机制,系统就很难保证稳定性和安全性。Spring Boot提供了很好的异常处理能力,通过统一异常处理机制可以对出现的异常进行捕获,避免异常导致程序崩溃。 二、异常处理流程 Spring Boot中的异常处理流程如下所示: 当…

    Java 2023年5月27日
    00
  • jQuery通过控制节点实现仅在前台通过get方法完成参数传递

    下面就是jQuery通过控制节点实现仅在前台通过get方法完成参数传递的攻略。 什么是jQuery通过控制节点实现仅在前台通过get方法完成参数传递 在前端页面中,我们有时需要把数据传递到后端处理,而jQuery通过控制节点实现仅在前台通过get方法完成参数传递就是一种实现这一需求的方法。 简单来说,就是通过控制页面上的节点元素来获取数据,并将数据通过get…

    Java 2023年6月15日
    00
  • 全面详解Maven打包及其相关插件和高级特性

    全面详解Maven打包及其相关插件和高级特性 Maven打包概述 Maven 是一个基于项目对象模型(POM)的构建工具,能有效地管理项目的构建和依赖。Maven 提供了相应的插件,它们可以帮助我们更方便地进行项目的打包(package)。而打包也是 Maven 项目的必要过程之一,我们能够通过打包将项目打包成可执行的 jar 包、war 包、zip 包等等…

    Java 2023年5月20日
    00
  • JSP页面无法识别EL表达式问题解决方案

    当JSP页面无法识别EL表达式时,需要考虑两个方面。第一个方面是确认所使用的web容器是否支持EL表达式,第二个方面是确认JSP页面中是否存在错误,导致EL表达式无法正确识别。下面是详细的攻略: 确认web容器是否支持EL表达式 首先,需要确定web.xml文件中是否已经配置了正确的web应用的版本,一般建议选择3.0及以上的版本。具体可配置如下: <…

    Java 2023年6月15日
    00
  • Springboot – Fat Jar示例详解

    下面我来详细讲解“Springboot – Fat Jar示例详解”的完整攻略。 简介 首先介绍一下什么是Fat Jar。简单来说,它是一个可以包含应用程序所有依赖库的大型JAR文件,因此它也被称为可执行JAR文件。SpringBoot可以使用Maven或Gradle生成Fat Jar,其他构建工具也支持类似的功能。 在使用Fat Jar时,需要做的就是提供…

    Java 2023年5月19日
    00
合作推广
合作推广
分享本页
返回顶部