Java 使用maven实现Jsoup简单爬虫案例详解

下面我将详细讲解“Java使用maven实现Jsoup简单爬虫案例详解”的完整攻略。

什么是Maven

Maven 是一种用于 Java 项目管理和构建的工具。Maven 使用一个基于项目对象模型（POM），来管理项目的构建、文档和报告的开源项目管理工具。

什么是Jsoup

Jsoup 是一款 Java 的 HTML 解析器，可直接解析某个 URL 地址、HTML 文本内容。它提供了一套简单易用的 API，可用于提取和操作 HTML 数据。Jsoup 适用于简单的 HTML 页面解析，也可以用于 Web 应用程序开发中的 HTML 清理。

配置 Maven

首先，我们需要在 Maven 中添加 Jsoup 依赖。

打开pom.xml文件，添加以下代码：

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.13.1</version>
</dependency>

实现简单爬虫

接下来，我们将通过示例代码实现简单的爬虫。

示例一：获取百度首页的标题

在本示例中，我们将使用 Jsoup 来获取百度首页的标题。

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;

import java.io.IOException;

public class Main {
    public static void main(String[] args) {
        try {
            Document doc = Jsoup.connect("https://www.baidu.com").get();
            Elements title = doc.select("title");
            System.out.println(title.text());
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

执行该程序，输出结果为：

百度一下，你就知道

示例二：解析HTML文本内容

在本示例中，我们将使用 Jsoup 来解析一个 HTML 文档的内容。

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class Main {
    public static void main(String[] args) {
        String html = "<html><head><title>Jsoup Example</title></head>"
                + "<body><p>Example Text</p></body></html>";
        Document doc = Jsoup.parse(html);
        Elements pElements = doc.select("p");
        for (Element p : pElements) {
            System.out.println("p text: " + p.text());
        }
    }
}