首页 > 其他分享 >Protobuf编码规则

Protobuf编码规则

时间:2023-05-02 22:00:28浏览次数:49  
标签:编码 字节 int32 int int64 规则 string Protobuf

支持类型

该表显示了在 .proto 文件中指定的类型,以及自动生成的类中的相应类型:

.proto Type Notes C++ Type Java/Kotlin Type[1] Java/Kotlin 类型 [1] Python Type[3] Go Type Ruby Type C# Type PHP Type Dart Type
double double double float float64 Float double float double
float float float float float32 Float float float double
int32 varint编码。对于负数编码效率低下——如果字段可能有负值,建议改用 sint32。 int32 int int int32 Fixnum or Bignum (as required) int integer int
int64 varint编码。对于负数编码效率低下——如果字段可能有负值,建议改用 sint64。 int64 long int/long int64 Bignum long integer/string Int64
uint32 varint编码。 uint32 int int/long uint32 Fixnum or Bignum (as required) uint integer int
uint64 varint编码。 uint64 long int/long uint64 Bignum ulong integer/string Int64
sint32 zigzag和varint编码。有符号的 int 值。比常规的 int32 能更高效地编码负数。 int32 int int int32 Fixnum or Bignum (as required) ) int integer int
sint64 zigzag和varint编码。有符号的 int 值。比常规的 int64 能更高效地编码负数。 int64 long int/long int64 Bignum long integer/string Int64
fixed32 总是四个字节。如果值通常大于 2\(^{28}\) ,则比 uint32 更有效。 uint32 int int/long uint32 Fixnum or Bignum (as required) uint integer int
fixed64 总是八个字节。如果值通常大于 2\({^56}\) ,则比 uint64 更有效。 uint64 long int/long uint64 Bignum ulong integer/string Int64
sfixed32 总是四个字节。 int32 int int int32 Fixnum or Bignum (as required) int integer int
sfixed64 总是八个字节。 int64 long int/long int64 Bignum long integer/string Int64
bool bool boolean bool bool TrueClass/FalseClass bool boolean bool
string 字符串必须始终包含 UTF-8 编码或 7 位 ASCII 文本,并且不能长于 2\(^32\) 。 string String str/unicode string String (UTF-8) string string String
bytes 可以包含任何不超过 2\(^{32}\) 的任意字节序列。 string ByteString str (Python 2) bytes (Python 3) []byte String (ASCII-8BIT) ByteString string List

消息结构

对于传统的 xml 或者 json 等方式的序列化中,编码时直接将 key 本身加进去,例如:

{
    "foo": 1,
    "bar": 2
}

这样最大的好处就是可读性强,但是缺点也很明显,传输效率低,每次都需要传输重复的字段名。Protobuf 使用了另一种方式,将每一个字段进行编号,这个编号被称为 field number 。通过 field_number 的方式解决 json 等方式重复传输字段名导致的效率低下问题,例如:

message {
  int32  foo = 1;
  string bar = 2;
}

field_number 的类型被称为wire types,目前有六种类型:VARINTI64LENSGROUPEGROUP, and I32 (注:类型3和4已废弃),因此需要至少3位来区分:

ID Name Used For
0 VARINT int32, int64, uint32, uint64, sint32, sint64, bool, enum
1 I64 fixed64, sfixed64, double
2 LEN string, bytes, embedded messages, packed repeated fields
3 SGROUP group start (deprecated)
4 EGROUP group end (deprecated)
5 I32 fixed32, sfixed32, float

当 message 被编码时,每一个 key-value 包含 <tag> <type> <paylog>,其结构如下:

+--------------+-----------+---------+
| field_number | wire_type | payload |
+--------------+-----------+---------+
    |               |             |
    |               |             |          +---------------+
    +---------------+             +--------->| (length) data |
    |      tag      |                        +---------------+
    +---------------+

  • field_number 和 wire_type 被称为 tag,使用一个字节来表示(这里指编码前的一个字节,通过Varint编码后可能并非一个字节)。其值为 (field_number << 3) | wire_type ,换句话说低3位解释了wire_type,剩余的位则解释了field_number。
  • payload 则为 value 具体值,根据 wire_type 的类型决定是否是采用 Length-Delimited 记录

额外一提的是由于 tag 结构如上所述,因此对于使用 Varint 编码的 1个字节来说去除最高位标志位和低三位保留给 wire_type使用,剩下四位能够表示[0, 15] 的字段标识,超过则需要使用多于一个字节来存储 tag 信息,因此尽可能将频繁使用的字段的字段标识定义在 [0, 15] 直接。

编码规则

Protobuf 使用一种紧凑的二进制格式来编码消息。编码规则包括以下几个方面:

  • 每个字段都有一个唯一的标识符和一个类型,标识符和类型信息一起构成了字段的 tag。
  • 字段的 tag 采用 Varint 编码方式进行编码,可以节省空间。
  • 字符串类型的字段采用长度前缀方式进行编码,先编码字符串的长度,再编码字符串本身。
  • 重复的字段可以使用 repeated 关键字进行定义,编码时将重复的值按照顺序编码成一个列表。

Varint 编码

Varint 是一种可变长度的编码方式,可以将一个整数编码成一个字节序列。值越小的数字,使用越少的字节数表示。它的原理是通过减少表示数字的字节数从而实现数据体积压缩。
Varint 编码的规则如下:

  • 对于值小于 128 的整数,直接编码为一个字节;
  • 对于值大于等于 128 的整数,将低 7 位编码到第一个字节中,将高位编码到后续的字节中,并在最高位添加一个标志位(1 表示后续还有字节,0 表示当前字节是最后一个字节)。每个字节的最高位也称 MSB(most significant bit)。
    在解码的时候,如果读到的字节的 MSB 是 1 话,则表示还有后序字节,一直读到 MSB 为 0 的字节为止。
    例如,int32类型、field_number为1、值位 300 的 Varint 编码为:
// 300 的二进制
00000001 00101100
// 按7位切割
00 0000010 0101100
// 高位全0省略
0000010 0101100
// 逆序,使用的小端字节序
0101100 0000010
// 每一组加上msb,除了最后一组是msb是0,其他的都为1
10101100 00000010
// 十六进制指
ac 02

// 按照 protobuf 的消息结构,其完整位
08 ac 02
|   |__|__ payload
|   
|----------- tag (field-number << 3 | wire-type) = (1 << 3 | 0) = 0x08

ZigZag编码

对于 int32/int64 的 proto type,值大于 0 时直接使用 Varint 编码,而值为负数时做了符号拓展,转换为 int64 的类型,再做 Varint 编码。负数高位为1,因此对于负数固定需要十个字节( ceil(64 / 7) = 10 )。(这里有个值得思考的问题是对于 int32 类型的负数为什么要转换为 int64 来处理?不转换的话使用5个字节就能够完成编码了。网上的一个说法是为了转换为 int64 类型时没有兼容性问题,此处由于还未阅读过源码,不知道内部是怎么处理的,因此暂时也没想通为什么因为兼容性问题需要做符号拓展。因为按照 Varint 编码规则解码的话,直接读取出来的值赋值给 int64 的类型也没有问题。int32 negative numbers

很明显,这样对于负数的编码是非常低效的。因此 protobuf 引入 sint32sint64,在编码时先将数字使用 ZigZag 编码,然后再使用 Varint 编码。
ZigZag 编码将有符号数映射为无符号数,对应的编解码规则如下:

static uint32_t ZigZagEncode32(int32_t v) {  
	// Note: the right-shift must be arithmetic  
	// Note: left shift must be unsigned because of overflow
    return (static_cast<uint32_t>(v) << 1) ^ static_cast<uint32_t>(v >> 31);  
}

static uint64_t ZigZagEncode64(int64_t v) {  
	// Note: the right-shift must be arithmetic  
	// Note: left shift must be unsigned because of overflow
    return (static_cast<uint64_t>(v) << 1) ^ static_cast<uint64_t>(v >> 63);  
}

int32_t ZigZagDecode32(uint32_t n) {
    // Note: Using unsigned types prevent undefined behavior
    return static_cast<int32_t>((n >> 1) ^ (~(n & 1) + 1));
} 

static int64_t ZigZagDecode64(uint64_t n) {
    // Note: Using unsigned types prevent undefined behavior
    return static_cast<int64_t>((n >> 1) ^ (~(n & 1) + 1));
}

因此如果传输的数据中可能包含有负数,那么应该使用 sint32/sint64 类型。因为 protobuf 中只定义了为这两种数据类型进行 ZigZag 编码再使用 Varint 编码。

Length-delimited 编码

wire_typeLEN,由于其具有动态长度,因此其由一个 Length 值保存长度大小,这个 Length 同样通过 Varint 编码,最后是其内容。
参照以下例子:

message Test2 {
  optional string b = 2;
}

b = "testing"

12 07 [74 65 73 74 69 6e 67]
|  |   t  e  s  t  i  n  g
|  |  |__|__|__|__|__|__ body 的 ASCII 码
|  |
|  |__ length = 6 = 0x06
|      
|__ Tag (field-number << 3 | wire-type) = (2 << 3 | 2) = 18 = 0x12

标签:编码,字节,int32,int,int64,规则,string,Protobuf
From: https://www.cnblogs.com/ZhaoxiCheung/p/17368369.html

相关文章

  • ffmpeg转换视频编码
    下载ffmpeg官网下载压缩包。关键的是三个exe使用ffmpegcmd进入到三个exe的存放路径下,或者把三个exe的存放路径添加到系统路径。输入指令ffmpeg-ioriginal_video.mp4-vfscale=640:360result_video.mp4-hide_banner640*360可以修改成想要的尺寸。python使用ffmpypi......
  • DER编码
    目录一、实验要求二、DER编码0.查看CN、姓名、学号的16进制ASCII码1.AttributeType编码2.AttributeValue编码3.AttributeValueAssertion编码4.RelativeDistinguishedName编码5.RDNSequence编码6.Name编码三、DER编码验证0.验证1.countryName="CN"2.organizationName="20201324"3.......
  • protobuf使用(一)android ndk 编译 protobuf-3.6.x windows
    首先建议大家看好版本,环境,有可能因为小的变化会造成编译有问题: 我的环境是PC OS:windows10(没办法暂时没机器);NDK:android-ndk-r17b-windows-x86_64ProtoBuf:protobuf-3.6.x  下载链接:https://github.com/protocolbuffers/protobuf/tree/3.6.x代码生成工具:protoc-3.6.1-wi......
  • Android 开发 UI 规则
    Android的官方开发者博客发了一份幻灯片,介绍了一些AndroidUI设计的小贴士,在这里以看图说话的形式发出来。Don’t: 1、不要照搬你在其它平台的UI设计,应该让用户感觉是在真正使用一个Android软件,在你的商标显示和平台整体观感之间做好平衡2、不要过度使用模态对话框3、......
  • CTF-MISC-编码(持续更新)
    1.DES编码题目来源:广东省大学生攻防大赛2021闲话:DES看起来跟base64有点相似,不知道是不是我做的题少的原因,解码需要key附件是一张虚假的gif图   修改后缀为zip,打开得到一张图片 检查为exif隐写 密钥藏在文件尾--iamakeys 利用在线网站解密--选择ECB模式,Zero填......
  • 在终端(Terminal)执行 gradle build 命令控制台提示 GBK 字符编码错误
     1、错误提示: 1.1、使用EditPlus和IntellJIDEA都显示文件是UTF-8,明明都是UTF-8,却依然不同。 1.2、通过命令行工具查看活动代码页为936,其对应字符编码GBK,由此可知是字符编码不一致导致的。 1.3、EditPlus和IntellJIDEA和命令行(CMD)工具或终端使用的字符集不同,又由于......
  • VC下Base64编码及解码程序源代码
    //Base64.h:interfacefortheCBase64class.////#if!defined(AFX_BASE64_H__8D85F486_CD10_4A0A_A689_2299C9DE52CB__INCLUDED_)#defineAFX_BASE64_H__8D85F486_CD10_4A0A_A689_2299C9DE52CB__INCLUDED_#if_MSC_VER>1000#pragmaonce#endif//_MSC_V......
  • 【专栏精选】网络封包神器protobuf简介
    本文节选自洪流学堂公众号技术专栏《大话Unity2019》,未经允许不可转载。洪流学堂公众号回复专栏,查看更多专栏文章。洪流学堂,让你快人几步。你好,我是郑洪智。大智:“上次我们在学习如何进行数据包封包的时候说到:在网络传输时数据包需要定义好格式,这个格式就是数据在字节流中是如何排......
  • 数字证书编码ASN.1
    参考附件中图书p223中13.2的实验指导,完成DER编码序列号=1174(0x0496),证书签发者DN="CN=VirtualCA,C=CN",证书持有者DN="CN=你的名字拼音,OU=Person,C=CN",证书有效期=20200222000000-20220222000000。用echo-n-e"编码">你的学号.der中,用OpenSSLasn1parse分析编码的正确性......
  • 数字证书编码ASN.1
    数字证书编码ASN.1任务详情0.参考附件中图书p223中13.2的实验指导,完成DER编码1.序列号=1174(0x0496),证书签发者DN="CN=VirtualCA,C=CN",证书持有者DN="CN=你的名字拼音,OU=Person,C=CN",证书有效期=20200222000000-20220222000000。2.用echo-n-e"编码">你的学号.der中,用O......