unicode编码转换压缩为utf-8编码

时间：2023-08-07 22:59:29浏览次数：33

Unicode编码也可称为万能码，它将世界上所有的符号都使用2或4个字节（即2的16/32次方）来表示，每个字符的二进制表示长度固定为16/32位，如此确实可以兼容所有的字符编码，但是4个字节的长度造成了存储容量的极大浪费，许多常用的字符往往只需要一个字节（如ASCII美国信息交换标准代码），于是utf-8编码应运而生，**它本质上是对Unicode编码的一个压缩**。
以4个字节的ucs4为例，一个字符无论其十六进制表示的值大小，都需要4个字节来存储。而utf-8则利用这一点，根据码值范围来决定编码占用的字节数，具体对应方式如下所示：

unicode码值范围	utf-8字节数	转化模板
0000--007F	1个字节	0XXXXXXX
0080--07FF	2个字节	110XXXXX 10XXXXXX
0800--FFFF	3个字节	1110XXXX 10XXXXXX 10XXXXXX
10000--10FFFF	4个字节	11110XXX 10XXXXXX 10XXXXXX 10XXXXXX

那么具体的转换过程是什么呢，我们来举一个例子：

B对应的unicode码为0x0042，因此应该按照第一个行的模板来转化，即把B的unicode码的后七位映射到X上，就得到01000010
木对应的unicode码为0x6728，因此应该按照第三个行的模板转化，即把16位的0110011100101000映射到16个X上，得到11100110 10011100 10101000

其余的字符依此类推，如果位数不够就在前面补0.
从这里也可以看到，为什么中文utf-8表示大多是三个字节？因为unicode编码中中文码值范围就是0800--FFFF，转化的时候应用第三个模板，即三个字节。

标签：编码,utf,字节,--,10XXXXXX,unicode
From： https://www.cnblogs.com/android-16/p/17612957.html

FAST协议详解1 不同数据类型的编码与解码
一、概述FAST协议里不同的数据类型在编码时有非常大的区别，比如整数只需要将二进制数据转为十进制即可，而浮点数则需要先传小数点位数，再传一个整数，最后将二者结合起来才是最终结果。本篇使用openfast自设了一些数据并编码成FAST数据，再对这些FAST数据进行人工解码，以图看懂FAST协议是......
PCM编码音频
whatPCM（PulseCodeModulation）是一种用于音频信号编码和解码的数字化方法。how在PCM编码中，音频信号被采样，并将每个采样点的振幅量化为固定精度的数字值。这些数字值被表示为二进制代码，并以连续的方式传输或存储。PCM编码过程包括以下几个步骤：采样（Sampling）将连续的音频信号转换为离......
专业视频和音频编码应用Media Encoder 2023(ME2023)mac中文版
MediaEncoder是一个可定制的专业编辑器。在开发过程中，您可以不断调整和更新工具。它具有独特的动态编辑体验，您可以将其设置为默认值。这是一个完全免费的多语言工具，支持扩展。为您提供一个多平台编辑器平台，可以使用所有现有的，新的和改进的。→→↓↓载MediaEncoder2023Mac......
8-7|TypeError: The fill character must be a unicode character, not bytes
这个错误表示你正在尝试使用一个字节串作为填充字符，但Python的填充函数（如`ljust`,`rjust`,`center`等）需要一个Unicode字符。如果你需要对一个字节串进行填充，你可以先将它解码为字符串，进行填充操作，然后再编码回字节串。以下是一个例子：```python#原始字节串data=b"hello"#......
分享一个在线二进制编码网站，特别方便好用
二进制文件是什么二进制文件是一种计算机文件，其中的数据以二进制形式编码。在计算机系统中，所有的数据和指令都以二进制形式表示。二进制文件通常包含可执行代码、程序数据、图像、音频、视频等多种类型的信息。与文本文件不同，二进制文件中的数据不以可读的字符形式表示，而是以字......
001、认识C语言，第一次编码
001、认识C语言，第一次编码 C语言常用于底层开发（应用层之下【操作系统、驱动】）写C语言代码的步骤：创建一个项目；创建一个源文件（xxx.c）【头文件：xxx.h】；写代码；编译代码（ctrl+F7）；运行代码（ctrl+F5【不调试】、F5【调试】）主函数（一个工程中只能有一个主函数）：/***写C语言的第一步......
龙邱512正交编码器
基本概念龙邱的512线正交编码器，工作电压在3.3v-5v。我们只需要关注该款编码器的LSB及DIR引脚。LSP:该引脚在编码器转动时，会输出步进脉冲，在不同的转速下，步进脉冲的数量是不同的。所以我们可以设置一个定时器，把定时器的时钟输入通道改为外部引脚输入，这样我们就可以把单片机时钟......
C++中BigEden、SmallEden编码
基本概念大端小端表示，一个数字在内存中或硬盘上记录时，是高位在前或在后，高位在前就是大端(BigEden)，在后就是小端(samllEden)。我们日常记录和代码里定义一千二百三四如：inta=1234;就是大端记录。如果是小端的一千二百三十四：就是"4321"了。通常应用一般而言，平台使用的大......
jsp各部分编码的含义
pageEncoding是jsp文件本身的编码，第一阶段是jsp编译成.java，它会根据pageEncoding的设定读取jsp，（jsp文件的编码，pageEncoding是否一致），结果是由指定的编码方案翻译成统一的UTF-8JAVA源码（即.java），如果pageEncoding设定错了，或没有设定（在JSP标准的语法中，如果pageEncoding属......
如何解决pytest参数化时出现的Unicode编码问题？
前言Pytest是一个广泛使用的Python测试框架，通过参数化测试（ParameterizedTesting）功能，可以轻松地为测试用例提供多组输入数据。然而，当我们尝试在参数化测试中使用中文作为测试用例的IDs时，有时会遇到Unicode编码问题，导致测试报告中显示的是乱码。本文将详细解释这个问题的原因，并提供......

unicode编码转换压缩为utf-8编码

相关文章

赞助商

阅读排行