java获取文件编码,jsoup获取html纯文本操作

2023年5月19日上午10:55 • Java

获取文件编码：

在使用Java查看文件的编码时，可以通过两种方式来获取文件的编码：使用Java内部库获取、使用第三方工具库获取。

使用Java内部库获取文件编码

Java内部库中，提供了获取文件编码的方式：使用InputStreamReader类的getEncoding()方法获取文件编码。以下是示例代码：

public static String getFileCharset(InputStream inputStream) throws IOException {
    BufferedInputStream bis = new BufferedInputStream(inputStream);
    bis.mark(3);
    byte[] firstBytes = new byte[3]; // 用于保存前三个字节，用于判断编码格式
    bis.read(firstBytes);

    // 以下是根据前三个字节进行编码判断
    if (firstBytes[0] == (byte)0xFF && firstBytes[1] == (byte)0xFE) {
        return "Unicode";
    } else if (firstBytes[0] == (byte)0xFE && firstBytes[1] == (byte)0xFF) {
        return "UTF-16BE";
    } else if (firstBytes[0] == (byte)0xEF && firstBytes[1] == (byte)0xBB && firstBytes[2] == (byte)0xBF) {
        return "UTF-8";
    } else {
        return "default";
    }
}

使用第三方工具库获取文件编码

在Java开发中，还有一些第三方工具库可以获取文件的编码，如：juniversalchardet、iconv。缺点是需要引入第三方库依赖，增加了较多的代码量和复杂度。

获取Html纯文本：

jsoup是一款专门用于操作HTML文档的Java工具库，除了可以从html文档中选取和修改内容之外，还可以获取HTML纯文本。

以下是示例代码：

Document doc = Jsoup.connect("https://www.example.com/").get();
String content = doc.text();
System.out.println(content);

另外，如果想要获取特定标签内的文本内容，也可以使用以下代码：

Document doc = Jsoup.connect("https://www.example.com/").get();
Element element = doc.select("h1").first(); // 获取第一个h1标签
String content = element.text(); // 获取h1标签内的文本内容
System.out.println(content);

以上是获取HTML纯文本的两种方法，可以根据实际需求选择适合自己的方式。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：java获取文件编码,jsoup获取html纯文本操作 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

2021最新Java JDK1.8的安装超详细教程

上一篇 2023年5月19日

java根据扩展名获取系统图标和文件图标示例

下一篇 2023年5月19日

Java编程探索之泛型擦除实例解析

Java编程探索之泛型擦除实例解析介绍 Java中的泛型在编译时期是可见的，但在运行时期并不存在，这被称为泛型擦除。本文将深入讲解Java中泛型擦除的实例，并且提供两个示例来解释泛型擦除的概念和实现原理。泛型实现原理 Java中的泛型是通过编译时期的类型擦除实现的。编译器会将泛型类型的代码转换为普通的Java类并进行类型检查。在此过程中，泛型的具体类型被…

Java 2023年5月26日
000
详解使用Spring Security OAuth 实现OAuth 2.0 授权

详解使用Spring Security OAuth 实现OAuth 2.0 授权什么是OAuth 2.0? OAuth 2.0是用于授权的标准协议，允许用户授权第三方应用访问他们存储在另外的服务提供者上的信息，而不需要将用户名和密码提供给第三方应用或者将所有的数据转移到第三方应用。 Spring Security OAuth2 Spring Securit…

Java 2023年5月20日
000
Java实现的时间戳与date对象相互转换功能示例

以下是“Java实现的时间戳与date对象相互转换功能示例”的攻略： 1. 使用Date对象实现时间戳与日期字符串的相互转换 1.1 时间戳转日期字符串 import java.text.SimpleDateFormat; import java.util.Date; public class TimestampToDateStr { public stat…

Java 2023年5月20日
000
Java生成MD5加密字符串代码实例

下面是针对Java生成MD5加密字符串的攻略过程：步骤一：导入MD5加密所需要的依赖包 MD5加密算法在Java中是通过使用MessageDigest类的实例来实现的。在开始生成MD5加密字符串之前，需要在Java项目中导入MessageDigest类所需要的依赖包。可以使用Maven来为Java项目添加依赖。只需要在pom.xml文件中添加如下代码即可…

Java 2023年5月27日
000
java实现微信公众号扫一扫

Java实现微信公众号扫一扫攻略微信公众平台提供了扫一扫功能，可以实现用户扫描二维码并获取相关信息。本文将讲解如何使用Java实现微信公众号扫一扫功能，步骤如下：步骤1：注册微信公众平台账号如果还没有微信公众平台的账号，请前往微信公众平台官网进行注册。注册完毕后，会得到一个AppID和AppSecret，这二者是使用微信API的重要凭证。步骤2：生成…

Java 2023年6月15日
000
对Java中传值调用的理解分析

下面我会详细讲解“对Java中传值调用的理解分析”的完整攻略。什么是传值调用 Java中，方法调用时参数的传递都是按值传递的，也就是说在调用方法时，实参把它的值传递给对应的形参，此时形参接收到的是实参值的一个拷贝，也就是说，无论实参是基本数据类型还是引用类型，形参变量都是对其值拷贝的一份副本进行操作，而无法修改实参变量的值。因此，Java中的传值调用又叫做…

Java 2023年6月15日
000
jQuery ajax请求返回list数据动态生成input标签,并把list数据赋值到input标签

这里是详细的攻略： 1. 发送Ajax请求获取list数据在jQuery中，要使用$.ajax()函数发送请求从服务器获取list数据，将其赋值给input标签前，需要先确保你能够得到list数据。在$.ajax()函数的success回调函数中处理从服务器返回的数据，如下所示： $.ajax({ url: "your/url/here&quot…

Java 2023年6月15日
000
Java实现用户不可重复登录功能

下面就是Java实现用户不可重复登录功能的完整攻略。思路概述为实现用户不可重复登录功能，我们可以用一个集合来保存已经登录的用户的信息，当一个用户登录成功后，将他的身份信息存入集合。之后的登录请求中，若用户已经登录，则直接拒绝登录；否则，将他的身份信息存入集合。实现过程 1. 定义一个静态集合用于保存已经登录的用户信息为了方便操作，这里我们使用Hash…

Java 2023年6月15日
000

合作推广

合作推广

返回顶部