先说答案,在UTF-8编码中,常用汉字通常占3个字节。具体情况取决于该汉字的Unicode编码值。
要理清这个概念,需要知道人类所认知的数据(或者说信息)
和计算机所理解的数据
是不同的。
比如一句话(一个数据)汉语表达是“你好,世界
”
英语中,“hello,world
”
法语中,“Bonjour, le monde
”
日语中,“こんにちは、世界
”
但在计算机中,数据都变成了0和1,我们可以类比汉语中的汉字和句子,比如你好
这两个字,由字你
和好
组成,那么转换成计算机能存储和传输的数据,就需要一张表
来映射成数字(毕达哥拉斯:万物皆数),再将数字转换成二进制就变成了
11100100 10111101 10100000
11100101 10100101 10111101
由于计算机是在美国发明的,因此当时只考虑了美国人所常用的字符,那张表被称为ASCII表
,如今这张表被无数人扩充变成了Unicode 符号表
,UTF-8编码就是按照Unicode 符号表
将字符转换为字节序列
。
在线Unicode符号表查询 https://symbl.cc/
标签:编码,符号表,字节,占用,汉字,Unicode,10111101 From: https://www.cnblogs.com/ashet/p/18410330