声明:本文为原装文章,转载请注明出处。
经常处理文本文件的小伙伴,有个很头疼的事情,就是如何准确识别一个文本文件到底是什么编码方式,ANSI(也就是GBK)还是UTF8。
文本文件,是指以特定的文本编码将每个字符逐个字节存储的一种文件格式,文本文件的常见的扩展名是.txt ,但又不一定是.txt,例如常见的CSV文件,其实就是文本文件。
既然是文本文件,在使用特定的程序去读取时,就需要知道文本文件的编码,解码和编码只有一致,才能完整还原文件中存储的文字信息。
GBK、GB2312、GB18030、Unicode、UTF8、UTF16、UTF32都是些什么意思呢?
相信小伙伴们已经提前对这些有所了解,长话短说,GBK、GB2312、GB18030、Unicode 这个四个是字符的编码集,其中,GB18030兼容GBK、GB2312,GBK兼容GB2323。而Unicode 和GBK、GB2312、GB18030 互不兼容。
而UTF8、UTF16、UTF32并不是字符集,而是三种存储Unicode字符的存储方式。
以下问题小伙伴们可能会很疑惑:
1、GB18030、GBK、GB2312能不能举个例子
比如汉字“