一、Unicode概述
Unicode是一种字符编码标准,旨在解决不同字符集之间的兼容性问题。它为全球所有语言提供了一种统一的编码方式,使得各种字符能够在计算机系统中正确显示和处理。Unicode字符集包含了世界上几乎所有的字符,包括中文字符、英文字符、数字、特殊符号等。
Unicode编码解码 -- 一个覆盖广泛主题工具的高效在线平台(amd794.com)
https://amd794.com/unicodeencordec
二、Unicode编码原理
- 编码方式
Unicode采用UTF-16和UTF-8两种编码方式。UTF-16是一种定长编码,每个字符占用2个或4个字节;UTF-8是一种可变长编码,每个字符占用1个、2个或3个字节。
- 编码范围
Unicode字符分为两个范围:基本平面(BMP,0x0000 - 0xFFFF)和补充平面(SMP,0x10000 - 0x10FFFF)。BMP范围内的字符使用UTF-16编码,占用2个字节;SMP范围内的字符使用UTF-16编码,占用4个字节。
- 编码示例
以中文为例,UTF-8编码为: