问题
数据库领域处理的问题,可真是包罗万象!有个 rpad 函数,它用来做 padding,保证结果集不超过规定的“宽度”:
10 表示什么呢?这里 10 表示 10 个屏幕宽度。对于字母和数字,一个字母占1个宽度,对于中文,一个字占2个宽度。
这样一来,这个函数就有很实际的意义了:**为了打印漂亮,可以用 rpad/lpad 函数来统一格式化输出,确保屏幕上的输出整整齐齐。**无论什么字符集都能支持得很好。
标准
那么,世界上那么多文字,每个文字的宽度是多少,有规定吗?有,有标准:
https://www.cl.cam.ac.uk/~mgk25/ucs/wcwidth.chttps://pubs.opengroup.org/onlinepubs/007904975/functions/wcswidth.html
当你在实现 rpad 函数时,就需要考虑到这套国际标准定义,否则实现的效果就和标准不兼容了。
总结一下
对一个字,它有好多重属性:
- 他出现在什么字符集之下(UTF8,GBK,GB2312,etc)
- 它在字符集之下的编码是多少
- 它用了几个字节来存编码 (strlen_char、mb_length)
- 它的屏幕显示宽度是多少(和字符集无关)