首页 > 其他分享 >字符编码发展史6 — BOM字节序标记

字符编码发展史6 — BOM字节序标记

时间:2024-10-10 15:59:32浏览次数:10  
标签:编码 UTF 字节 字符 BOM 0xFF

上一篇《字符编码发展史5 — UTF-16和UTF-32》我们讲解了UTF-16和UTF-32编码。本篇我们将继续讲解字符编码中的字节序标记(BOM)。

2.3. 第三个阶段 国际化

2.3.2. Unicode的编码方式

2.3.2.5. BOM

1. 什么是BOM?

BOMByte Order Mark的缩写,翻译成中文是:字节序标记,主要用于文本编码中,表示数据存储的字节顺序。

前面我们讲到UTF-16和UTF-32是存在大小端的字节序问题的。以UTF-16为例,要识别一个文件是以大端(Big-endian)字节序还是小端(Little-endian)字节序存储的,就需要有一个标识来进行标记。业界统一的做法是:在文件的开头加入一个特殊的字符来表示,该字符就是U+FEFF,因此BOM也可认为是该字符(U+FEFF)的一个别名。

  • 在UTF-16BE文件中,BOM是0xFE 0xFF
  • 在UTF-16LE文件中,BOM是0xFF 0xFE
  • 在UTF-32BE文件中,BOM是0x00 0x00 0xFE 0xFF
  • 在UTF-32LE文件中,BOM是0xFF 0xFE 0x00 0x00
2. Windows下为什么会有UTF-8和UTF-8BOM?

UTF-8编码本身并不存在字节序的问题,所以UTF-8编码理论上是不需要字节序的。

熟悉Windows的同学应该知道,Windows的“记事本”在保存时可以选择编码方式,编码方式的下拉框里有UTF-8UTF-8 BOM。我们以UTF-8 BOM保存时,文件的开头三个字节是0xEF 0xBB 0xBF,这就是UTF-8 BOM的标识。

file
记事本保存的编码格式

file
在VSCode中以Hex Editor方式打开

为什么Windows下为什么有UTF-8 BOM,这个已经无从查证,很可能是Windows历史发展的遗留产物。猜测可能是为了明确标识某个文件是由UTF-8编码方式存储的。因为字符编码的发展历史来看,UTF-8的出现晚于ANSI系列编码,Windows早期为了适配各个国家的语言,系统默认编码采用了ANSI系列的编码,美国和西欧地区默认编码是ISO-8859-1,中国大陆默认编码编码是GBK。如:在Windows下有一个XXX.txt的纯文本文件,如果不加字节序标记则无法知道这个文件是UTF-8编码的还是GBK编码的。如果UTF-8编码的文件默认加上BOM标识,则可以通过这个标识来区分是UTF-8还是GBK编码。

在Windows11下,我们看到新建的.txt文件,windows的记事本会默认以UTF-8(无BOM)来保存了,说明Windows操作系统新的版本也默认使用UTF-8编码了。

就跨平台的兼容性而言,UTF-8会比UTF-8 BOM更好。

3. 不同编码的字节序总结
编码方式 BOM字节序标识
UTF-8
UTF-8 BOM 0xEF 0xBB 0xBF
UTF-16BE 0xFE 0xFF
UTF-16LE 0xFF 0xFE
UTF-32BE 0x00 0x00 0xFE 0xFF
UTF-32LE 0xFF 0xFE 0x00 0x00

《字符编码发展史》系列已完结

历史文章推荐:

字符编码发展史5 — UTF-16和UTF-32

字符编码发展史4 — Unicode与UTF-8

字符编码发展史3 — GB2312/Big5/GBK/GB18030

字符编码发展史2 — ISO-8859-N

字符编码发展史1 — ASCII和EASCII


大家好,我是陌尘。

IT从业10年+, 北漂过也深漂过,目前暂定居于杭州,未来不知还会飘向何方。

搞了8年C++,也干过2年前端;用Python写过书,也玩过一点PHP,未来还会折腾更多东西,不死不休。

感谢大家的关注,期待与你一起成长。



【SunLogging】 扫码二维码,关注微信公众号,阅读更多精彩内容

标签:编码,UTF,字节,字符,BOM,0xFF
From: https://www.cnblogs.com/luoweifu/p/18456557

相关文章

  • ANSI 与 ASCII 的区别,编码老问题
    ANSI与ASCII的区别ANSI与ASCII在字符编码领域有着显著的区别,以下是对这两者的详细比较:ASCII全称与定义:ASCII全称AmericanStandardCodeforInformationInterchange,即美国信息交换标准代码。它是一种标准的单字节字符编码方案,主要用于显示现代英语和其他西欧语言。编码......
  • 字节跳动推机器人大模型GR-2 展现智能自主操作新高度
    字节跳动研究团队近日推出的第二代机器人大模型GR-2(GenerativeRobot2.0)正在引发业界广泛关注。这款智能机器人不仅标志着机器人大模型技术的重大突破,更预示着智能机器人应用即将迎来一个全新纪元。GR-2的独特之处在于其创新的学习方式。研发团队采用了模仿人类成长过程的......
  • 字节校招一面, 开5系狂飙
    前言9月中小厂面的顺风顺水,但百度、蔚来等大厂都吃了挂面。节前来了个小惊喜,好未来一面就给了offer,舒服7天,踩着家里的5系狂飙,村花该上车了....狂飙的除了宝马,还有A股。各位都是挣着钱了吧,8号,也收到了字节校招的一面。面试官应该股票赚的飞起,晚上哪喝酒按摩都联系好了吧,想必面......
  • 【AI大模型】深入Transformer架构:编码器部分的实现与解析(下)
      目录......
  • 字节预热智能硬件 Ola Friend,预计为智能耳机;鸿蒙 NEXT 公测正式开启,微信邀请内测丨RTE
       开发者朋友们大家好: 这里是「RTE开发者日报」,每天和大家一起看新闻、聊八卦。 我们的社区编辑团队会整理分享RTE(Real-TimeEngagement)领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代......
  • python3常用库之Base64编码
    Base64是一种用64个字符来表示任意二进制数据的方法。importbase64by="abc中文".encode()b=base64.b64encode(by)print(by)#b'abc\xe4\xb8\xad\xe6\x96\x87'print(b)#b'YWJj5Lit5paH'by2=base64.b64decode(b)print(by2)#b'abc\xe......
  • 什么是字节码,JAVASE,Oracle JDK 总结
     JAVASE和JAVAEEJavaSE(JavaPlatform,StandardEdition):Java平台标准版,Java编程语言的基础,它包含了支持Java应用程序开发和运行的核心类库以及虚拟机等核心组件。JavaSE可以用于构建桌面应用程序或简单的服务器应用程序。JavaEE(JavaPlatform,EnterpriseEdition):Ja......
  • 告别音乐小白!字节跳动AI音乐创作工具,让你一键变作曲家!
    还在羡慕别人能创作动听的音乐?五音不全的你,也梦想着谱写属于自己的乐章?现在,机会来了!字节跳动推出了一款AI音乐创作工具——抖音推出的海绵音乐,它能让你轻松一键创作音乐,即使是“音乐小白”也能化身作曲家!告别复杂操作,一键生成你的专属乐曲字节海绵音乐最大的亮点在于其便捷......
  • (22)以RS码为例说明信道编码AWGN信道的Eb/N0设置
    文章目录前言一、编码Eb/N0与未编码Eb/N0及编码码率二、仿真代码三、仿真结果前言本文说明了如何为采用信道编码的通信链路设置Eb/N0(比特能量与噪声功率谱密度比)。一、编码Eb/N0与未编码Eb/N0及编码码率在通信系统仿真中,如果采用了FEC编码,则在设置AWGN信道Eb/N0......
  • Deformable DETR改进|爆改模型|涨点|在骨干网络和可变形编码器间加入YOLOv10的PSA和SC
    一、文本介绍本文修改的模型是Deformable-DETR,在骨干网络和可变形编码器之间加入YOLOv10的PSA和SCDown模块。其中PSA是YOLOv10提出的一种高效的自注意力模块,为了避免注意力带来的巨额开销,本文将PSA应用于可变形编码器输入的最高层级特征图。SCConv是一种空间和通道解耦的卷积......