java 判断字符串内容是utf-8还是utf8mb4

时间：2023-07-14 13:32:53浏览次数：36

标签：编码 UTF 字节 java UTF8MB4 utf8mb4 length 字符串 utf

判断字符串内容是UTF-8还是UTF8MB4的方法

概述

在Java中，判断字符串内容是UTF-8还是UTF8MB4可以通过检查字符编码范围来实现。UTF-8使用1到4个字节表示一个字符，而UTF8MB4使用1到4个字节表示一个字符。下面将介绍整个流程和每一步需要做的事情。

流程

步骤	描述
1.	将字符串转换为字节数组
2.	根据字节数组的长度判断编码类型
3.	判断每个字节的编码范围
4.	根据编码范围确定编码类型

代码实现

步骤1：将字符串转换为字节数组

String str = "要判断的字符串";
byte[] bytes = str.getBytes();

上述代码使用getBytes()方法将字符串转换为字节数组。这里不需要指定字符编码，因为getBytes()方法将使用默认的字符编码。

步骤2：根据字节数组的长度判断编码类型

int length = bytes.length;
String encoding;
if (length == str.length()) {
    encoding = "UTF-8";
} else {
    encoding = "UTF8MB4";
}

通过比较字节数组的长度和原字符串的长度，可以判断编码类型。如果相等，则为UTF-8编码；否则为UTF8MB4编码。

步骤3：判断每个字节的编码范围

boolean isUTF8 = true;
for (int i = 0; i < length; i++) {
    byte b = bytes[i];
    if (isUTF8) {
        if ((b & 0b10000000) == 0b00000000) {
            // 1字节编码范围：0xxxxxxx
            continue;
        } else if ((b & 0b11100000) == 0b11000000) {
            // 2字节编码范围：110xxxxx 10xxxxxx
            i++;
            if (i >= length || (bytes[i] & 0b11000000) != 0b10000000) {
                isUTF8 = false;
                break;
            }
        } else if ((b & 0b11110000) == 0b11100000) {
            // 3字节编码范围：1110xxxx 10xxxxxx 10xxxxxx
            for (int j = 0; j < 2; j++) {
                i++;
                if (i >= length || (bytes[i] & 0b11000000) != 0b10000000) {
                    isUTF8 = false;
                    break;
                }
            }
        } else if ((b & 0b11111000) == 0b11110000) {
            // 4字节编码范围：11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
            for (int j = 0; j < 3; j++) {
                i++;
                if (i >= length || (bytes[i] & 0b11000000) != 0b10000000) {
                    isUTF8 = false;
                    break;
                }
            }
        } else {
            isUTF8 = false;
            break;
        }
    } else {
        break;
    }
}

上述代码使用位运算判断每个字节的编码范围是否符合UTF-8的规则。根据UTF-8编码的规范，不同字节的开头会有不同的标志位。根据标志位的值，可以确定每个字节的编码范围。

步骤4：根据编码范围确定编码类型

if (isUTF8) {
    encoding = "UTF-8";
} else {
    encoding = "UTF8MB4";
}
System.out.println("字符串编码类型：" + encoding);

根据判断结果，将编码类型赋值给encoding变量。最后输出字符串的编码类型。

总结

通过上述步骤，我们可以判断字符串内容是UTF-8还是UTF8MB4编码类型。首先将字符串转换为字节数组，然后根据字节数组的长度判断编码类型。接着，我们逐个字节判断编码

标签：编码,UTF,字节,java,UTF8MB4,utf8mb4,length,字符串,utf
From： https://blog.51cto.com/u_16175463/6720734

java 判断以逗号分割的字符串
Java判断以逗号分割的字符串简介在Java中，判断以逗号分割的字符串可以使用split方法将字符串分割成多个子字符串，然后逐个判断每个子字符串是否满足特定条件。本文将介绍如何使用Java实现这一功能。流程图步骤描述步骤1通过split方法将字符串分割成多个子字符串步......
java 判断一个对象中是否存在重复的字段
Java判断一个对象中是否存在重复的字段1.流程以下是判断一个对象中是否存在重复字段的流程：步骤描述1获取对象的所有字段2遍历字段，将字段名存入一个集合3判断集合的大小与字段数是否相等，若不相等则存在重复字段2.代码实现下面是每个步骤所需要完成的代......
java 判断形状区域重叠
Java判断形状区域重叠在计算机图形学和计算机视觉领域，判断两个形状区域是否重叠是一个常见的问题。在本文中，我们将介绍如何使用Java编程语言来判断两个形状区域是否发生重叠，以及如何实现这个功能的代码示例。什么是形状区域重叠？形状区域重叠是指两个形状区域在二维平面上发生......
java 判断手机号
Java判断手机号的实现方法作为一名经验丰富的开发者，我将教会你如何使用Java来判断手机号。下面是整个实现的步骤和所需代码的详细说明。实现步骤步骤操作1获取用户输入的手机号2使用正则表达式验证手机号格式3判断手机号的长度4判断手机号的前缀是否正确......
java 判断时分
Java判断时分Java是一种广泛使用的编程语言，它提供了丰富的API和工具，可以用于开发各种类型的应用程序。在Java中，我们可以使用日期和时间类来处理日期和时间的相关操作。本文将介绍如何使用Java来判断给定时间的小时和分钟。获取当前时间在Java中，我们可以使用java.util.Date类来获......
java8xiazai
Java8下载文件在Java8中，文件下载是一个常见的任务。无论是从互联网下载文件还是从本地服务器下载文件，Java8都提供了一些强大的功能来处理这些任务。本文将介绍如何使用Java8来下载文件，并提供一些示例代码来帮助您更好地理解。使用URLConnection下载文件URLConnection是Java......
java8 自定义函数编程
Java8自定义函数编程在传统的Java编程中，我们通常使用面向对象的方式来组织代码。然而，在某些场景下，面向对象的方式并不是最合适的选择。Java8引入了函数式编程的概念，提供了一些新的特性，例如Lambda表达式和函数接口，使得我们可以更方便地进行函数式编程。Lambda表达式Lambda表达......
java8 根据字段去重
Java8根据字段去重实现方法概述在开发过程中，经常遇到需要根据某个字段对集合进行去重操作的需求。在Java8中，可以利用StreamAPI和Lambda表达式来实现这一功能。实现步骤下面是实现"Java8根据字段去重"的步骤：步骤描述1创建一个实体类（对象）2创建一个集合，并添加多......
java8 根据一个集合里的某字段抽取另一个集合的数据
Java8根据一个集合里的某字段抽取另一个集合的数据1.简介在开发过程中，我们经常会遇到从一个集合中抽取特定字段的需求。Java8提供了一种简洁而高效的方式来实现这个目标。本文章将详细介绍如何使用Java8来根据一个集合里的某个字段抽取另一个集合的数据。2.流程下面是整个过......
java：不再支持源选项 5。请使用 6 或更高版本。
<properties><project.build.sourceEncoding>UTF-8</project.build.sourceEncoding><maven.compiler.encoding>UTF-8</maven.compiler.encoding><java.version>10</java.version><maven.co......