java 中的char , utf16 utf8

时间：2022-12-30 17:35:59浏览次数：60

标签：code java 16 utf8 代码 char Unicode 32 UTF

在设计Java时决定采用16位的Unicode字符集....（中间省略）... 现在16位的Char类型已经不能满足描述所有Unicode字符的需要了。
Java为了解决这个问题的方法是使用码点和代码单元
代码点（Code Point）：在 Unicode 代码空间中的一个值，取值 0x0 至 0x10FFFF，代表一个字符。
代码单元（Code Unit）：在具体编码形式中的最小单位。比如 UTF-16 中一个 code unit 为 16 bits，UTF-8 中一个 code unit 为 8 bits。一个 code point 可能由一个或多个 code unit(s) 表示。在 U+10000 之前的 code point 可以由一个 UTF-16 code unit 表示，U+10000 及之后的 code point 要由两个 UTF-16 code units 表示

在Java中，char类型描述了UTF-16编码中的一个代码单元

码点：就是某个任意字符在Unicode编码表中对应的代码值
代码单元：是在计算机中用来表示码点的，大部分码点只需要一个代码单元表示，但是有一些是需要两个代码单元表示的。

我们来思考UTF-16的设计思路：
我们知道Unicode的范围为0x0~0x10FFFF
首先是0x0~0xFFFF这段区间，正好16位就可以表示，也兼容，两全其美
那么超过这个区间的怎么办呢？
也就是0xFFFF~0x10FFFF这段，我们先看这段区间有多少个码位，

0x10FFFF-0xFFFF=0x100000,那么这个十六进制表示的十进制也就是：1048576个码位
我们既然16位存不下，那肯定就是32位存咯，这个32能理解为什么不？不理解？是因为计算机只能以2的倍数拓展，如果不这么设计，就没办法解析。长短不一，不符合设计思路
32位来存这些数字，那么我们需要怎么存下呢，简单的思考过后，大家认为应该分开存储，也就是将32位分开前16位和后16位，每个16位各存一半
那么每一半存的就是1024（由来：1024*1024=1048576）,1024代表的是2的10次幂，也就是10位二进制数
这样就知道了，32位二进制数字中，前后16位中各存10位就够用了，但是剩余的6位用来干什么呢？
和UTF-8的设计一样，为了让识别字符串变得容易（从文本的任意位置开始，均能区分一个字符的起始）

根据上方信息，要求我们通过前6位来区分数据，那么前6位就是2^6=64，也就是开头数字的区间
我们设定如下：
54开头的为32位的前16位
55开头的为32位的后16位
其他开头的为单16位
这样我们就能区分开这三个16位了，在读取文档中的任意位置，都能随意区分出间隔咯
那么54开头的数据区间是多少呢，就是1101 10xx xxxx xxxx，区间就是D800~DBFF
那么55开头的数据区间是多少呢，就是1101 11xx xxxx xxxx，区间就是DC00~DFFF

为了配合UTF-16，Unicode中也将这两个区间屏蔽掉，不允许分配任何字符
下方为比较官方的关于UTF-16的编码详解

参考文献：
https://zhuanlan.zhihu.com/p/106379925

https://en.wikibooks.org/wiki/Unicode/Character_reference/D000-DFFF#endnote_SURROGATE

标签：code,java,16,utf8,代码,char,Unicode,32,UTF
From： https://www.cnblogs.com/ttaolu/p/17015420.html

java vop 打印controller的入参和出参
packagecom.sleep.demo.intercepter;importcom.alibaba.fastjson.JSONObject;importlombok.extern.slf4j.Slf4j;importorg.apache.commons.lang3.ArrayUtils;imp......
java自定义注解
自定义注解importjava.lang.annotation.ElementType;importjava.lang.annotation.Retention;importjava.lang.annotation.RetentionPolicy;importjava.lang.annot......
pycharm 远程连接Linux，进行python开发
目前，pycharm是非常受欢迎的编写、调试python的IDE，那么为了方便我们在本地调试远程服务器中的代码，我们可以在pycharm中进行SSH与SFTP的连接，来进行远程服务器的文件添加、修......
vue中echarts图表自适应
<template><divid="app"></div></template><script>exportdefault{data(){return{myCharts:null}},......
【校招VIP】“推推”Java项目课程：接口设计——详情数据和快速验证
今天继续看一下商业实战项目【推推】小说详情模块的第三期。上节课做了文档设计，这节课做一下接口设计。在前后端分离的项目里，接口设计非常重要。在正常的实习或者开发工作......
Python2 Python3 编码问题操作系统编码文本编码格式 ansi编码 utf8编码 gb2312
编码问题：操作系统编码文本编码编程脚本中字节数组转字符串默认使用的编码格式操作系统默认的编码：Windows系统GBK，Linux系统是utf-8。Windows系统也支持utf-8，......
Java集合快速失败和安全失败机制
快速失败机制是Java集合的一种错误检测机制，当遍历集合时，集合的结构进行了修改，可能会触发"fail-fast"机制Java.util包中所有集合都被设计为快速失败机制示例代码public......
全文检索工具elasticsearch：第三章： Java程序中的应用
搭建模块创建二个项目gmall-list-service的appliction.properties:server.port=8073spring.datasource.url=jdbc:mysql://localhost:3306/gmall?characterEncoding=......
使用Java NIO提高服务端程序的性能
JavaNIO增加了新的SocketChannel、ServerSocketChannel等类来提供对构建高性能的服务端程序的支持。SocketChannel、ServerSocketChannel能够在非阻塞的模式下工作，它......
JavaScript 批量大文件上传下载
4GB以上超大文件上传和断点续传服务器的实现随着视频网站和大数据应用的普及，特别是高清视频和4K视频应用的到来，超大文件上传已经成为了日常的基础应用需求。但是在......

java 中的char , utf16 utf8

相关文章

赞助商

阅读排行