术语
字符(character)是具有语义值的文本的最小单位。
字符集(character set)是可能由多种语言使用的字符的集合。例:拉丁语字符集由英语和大多数欧洲语言使用,但希腊语字符集仅由希腊语使用。
编码字符集(coded character set)是一个字符集,其中每个字符对应于一个唯一的数字。
一个编码字符集的编码点(code point)是字符集中或编码空间中允许的任何值。
编码空间(code space)是一个整数范围,其值为编码点。
编码单元(code unit)是一个位序列,用于在给定的编码表单中对库的每个字符进行编码。有的文档中称之为编码值(code value)。
编码单元例子:US-ASCII: 7 bits,UTF-8, GB18030: 8 bits,UTF-16: 16 bits,UTF-32: 32 bits
字符串"abc