首页 > 其他分享 >错误码如何设计才合理?

错误码如何设计才合理?

时间:2023-07-03 16:35:48浏览次数:42  
标签:数字 错误 定义 错误码 设计 日志 合理 李雷

导读:对于错误码的设计,不同的开发团队有不同的风格习惯。本文分享阿里文娱技术专家长统对于错误码的看法,希望从错误码使用的不同场景讨论得到一个合理的错误码规约,得到一个面向日志错误码标准和一个面向外部传递的错误码标准。

错误码如何设计才合理?_错误信息

 

 

导读:对于错误码的设计,不同的开发团队有不同的风格习惯。本文分享阿里文娱技术专家长统对于错误码的看法,希望从错误码使用的不同场景讨论得到一个合理的错误码规约,得到一个面向日志错误码标准和一个面向外部传递的错误码标准。

一  前言
在工作中,接触过不少外部接口,其中包括:支付宝,微信支付,微博开发平台,阿里云等等。每家公司错误码风格都不尽相同,有使用纯数字的,有使用纯英文的,也有使用字母和数字组合的。也接触过很多内部系统,错误码设计也不尽相同。
错误码的输出路径
面向日志输出

  • 服务内传递,最终是输出到日志。

 

  • 域内服务间,比如同时大麦电商之间的系统,最终目的是输出到日志。

面向外部传递

  • 域内向域外
  • 服务端传递到前端
  • OpenAPI 错误码
  • 内部不同域之间

错误码使用场景

  • 通过错误码配置监控大盘。
  • 通过日志进行问题排查,快速定位问题。
  • 后端服务之间错误码传递。
  • 前端展示的错误提示/OpenAPI。

本文希望从错误码使用的不同场景讨论得到一个合理的错误码规约,得到一个面向日志错误码标准和一个面向外部传递的错误码标准。
PS:本文引用全部引自阿里巴巴《Java 开发手册》,下称《手册》。

二  什么是错误码
错误码要回答的最根本的问题是,谁的错?错在哪?
那么一个错误能表示出谁的错和错在哪里就是一个好的错误码吗?答案显然是否定的,这个标准太基础了。

  • 好的错误码必须能够快速知晓错误来源。

 

  • 好的错误码必须易于记忆和对比。

 

  • 好的错误码必须能够脱离文档和系统平台达到线下轻量沟通的目的(这个要求比较高)。

引自《手册》- 异常日志-错误码

错误码的制定原则:快速溯源、简单易记、沟通标准化。
说明:错误码想得过于完美和复杂,就像康熙字典中的生僻字一样,用词似乎精准,但是字典不容易随身携带并且简单易懂。
正例:错误码回答的问题是谁的错?错在哪?
1)错误码必须能够快速知晓错误来源,可快速判断是谁的问题。
2)错误码易于记忆和比对(代码中容易 equals)。
3)错误码能够脱离文档和系统平台达到线下轻量化地自由沟通的目的。 


这个原则写在异常日志-错误码这个章节,我认为同样适用在面向用户的错误码。

错误码如何设计才合理?_错误码_02

 

 

三  错误码规范
错误码定义要有字母也要有数字
纯数字错误码

错误码即人性,感性认知+口口相传,使用纯数字来进行错误码编排不利于感性记忆和分类。
说明:数字是一个整体,每位数字的地位和含义是相同的。
反例:一个五位数字 12345,第1位是错误等级,第 2 位是错误来源,345 是编号,人的大脑不会主动地分辨每位数字的不同含义。

《手册》说明了纯数字错误码存在的问题。
纯字母错误码
那么纯字母错误码不香吗?有两个问题:

  • 对于使用汉语的我们用英语去准确描述一个错误有时是比较困难的。

 

  • 纯英文字母的错误码不利于排序。

 

错误码尽量有利于不同文化背景的开发者进行交流与代码协作。
说明:英文单词形式的错误码不利于非英语母语国家(如阿拉伯语、希伯来语、俄罗斯语等)之间的开发者互相协作。

快速溯源 | 简单易记 | 沟通标准化
什么是快速溯源?就是一眼看上去就知道哪里出了什么问题。
李雷负责 A 服务,韩梅梅负责 B 服务。韩梅梅发现服务 B 出现了一个错误码,韩梅梅能够快速定位这是服务 A 的内部业务异常造成的问题,这个时候韩梅梅就可以拿着错误码找到李雷说,"hi,Li Lei,How old are you。(李雷,怎么老是你)"。李雷拿过来错误码一看,内心万马奔腾,一下就能知道这是上游 Polly 负责的应用阿尔法出了错。
怎么能达到这个效果呢?

  • 首先要有一套标准并且在域内各个业务都在用同样的标准。
  • 其次要求错误码有自我解释的能力是有信息含量的有意义。
  • 最后在域内要传递错误码。

错误码标准的意义
开宗明义借用了《手册》对于错误码定义的原则作为错误码规范能够给我们带来的收益。我想再次强调并且试着从反面阐述没有错误码标准会带来的成本。
错误码是用来做沟通的:系统与系统间的沟通,人与人间的沟通,人与系统间的沟通。
试想下面这个场景:
韩梅梅看到一个异常日志其中一个纯数字的错误码。
韩梅梅需要理解这串数字代表的是什么,它到底是不是一个错误码,经过几秒钟确定下来这是一个错误码,但她不能确定这是不是本系统中错误码,因为在她负责的系统是由韩梅梅、Lucy 和 Lily 三个人共同维护的,每个人都按照自己的理解定义了一套错误码。
韩梅梅去系统源码中查找这个错误码,但是发现这个错误码并不是本系统的错误码。
然后再前翻两页后翻两页从日志上下文中确定这是李雷负责系统的错误码,“Li Lie,how old are you?”。
韩梅梅把错误码甩到李雷脸上,李雷一脸懵逼,这是我的系统的错误码吗?
李雷也不确定,因为李雷负责的系统是由李雷、林涛和 Jim 维护的,也是三人共同维护的。
李雷只好打开源码,还真是!
上边的场景经过了发现-初判断-判断来源-确定来源-沟通-二次判断-二次确认七个步骤。
希望上边的场景描述能够说明没有统一标准的错误所带来的成本。

四  面向日志的错误码
输出到日志的错误码有两个用途:

  • 用来快速溯源找到问题。
  • 用来形成监控大盘。

错误码设计
《手册》对于错误码的建议有非常多的可取参考的地方:

错误码不体现版本号和错误等级信息。
说明:错误码以不断追加的方式进行兼容。错误等级由日志和错误码本身的释义来决定。 

 

错误码为字符串类型,共 5 位,分成两个部分:错误产生来源+四位数字编号。

 

错误码不能直接输出给用户作为提示信息使用。
说明:堆栈(stack_trace)、错误信息(error_message)、错误码(error_code)、提示信息(user_tip)是一个有效关联并互相转义的和谐整体,但是请勿互相越俎代庖。

 

在获取第三方服务错误码时,向上抛出允许本系统转义,由 C 转为 B,并且在错误信息上带上原有的第三方错误码。 
结合错误码设计原则、错误码用途、规约建议,面向服务端日志的错误码应该是如下形式。

 

错误码分为一级宏观错误码、二级宏观错误码、三级宏观错误码。 

 

错误码即人性,感性认知+口口相传,使用纯数字来进行错误码编排不利于感性记忆和分类。
说明:数字是一个整体,每位数字的地位和含义是相同的。
反例:一个五位数字 12345,第 1 位是错误等级,第 2 位是错误来源,345 是编号,人的大脑不会主动地分辨每位数字的不同含义。

按照《手册》的建议设计出的面向日志的错误码定义共十三位(十位有意义,三位连接符),并且应该具有如下分类:

  • 应用标识,表示错误属于哪个应用,三位数字。
  • 功能域标识,表示错误属于应用中的哪个功能模块,三位数字。
  • 错误类型,表示错误属于那种类型,一位字母。
  • 错误编码,错误类型下的具体错误,三位数字。


错误码如何设计才合理?_错误码_03

《手册》还有一条是规定错误码应该如何定义:

错误码为字符串类型,共 5 位,分成两个部分:错误产生来源+四位数字编号。
说明:错误产生来源分为 A/B/C,A 表示错误来源于用户,比如参数错误,用户安装版本过低,用户支付超时等问题;B 表示错误来源于当前系统,往往是业务逻辑出错,或程序健壮性差等问题;C 表示错误来源于第三方服务,比如 CDN 服务出错,消息投递超时等问题;四位数字编号从 0001 到 9999,大类之间的步长间距预留 100。

五位错误码的好处是易记,但是对于面向日志的错误码场景利用错误码制作需要分类的业务监控大盘将变得比较困难,比如统计应用 A 的功能 B 的错误出现次数。
同样在系统间传递这个类型的错误码非常有可能发生错误码冲突。
当然对于分为四段的错误码同样尤其不好的一面,应用标识和功能域标识需要有专人去管理或者开发一个错误码管理工具,否则时间一长很容易产生定义的混乱形成破窗。
《手册》对于错误码定义我认为非常适合面向外部传递的错误码。简单、易记、是大家熟悉的错误码样式,并且透出的错误码数量是非常有限的。
不用枚举定义错误码
国际化支持是一个不使用枚举定义错误码很重要的理由。
我们通过 i18n 的支持可以做到错误码、错误状态、错误描述的管理。

五  面向外部传递的错误码
面向外部传递的错误码是为了把域内的错误信息传递出去。
可以让域外系统通过错误码进行错误码进行后续的动作或是中断操作或是记录日志继续执行。
可以让前端通过错误码给出用户准确的错误提示或者忽略错误进行重试。
错误码设计
根据《手册》给出的错误码定义建议设计出的面向外部传递的错误码共五位,并且有如下分类:

  • 错误类型,表示错误来源,一位字母。
  • 错误编码,表示具体错误,四位数字。


错误码如何设计才合理?_错误信息_04

错误码的后三位编号与 HTTP 状态码没有任何关系。 

 

错误码即人性,感性认知+口口相传,使用纯数字来进行错误码编排不利于感性记忆和分类。
说明:数字是一个整体,每位数字的地位和含义是相同的。
反例:一个五位数字 12345,第1位是错误等级,第 2 位是错误来源,345 是编号,人的大脑不会主动地分辨每位数字的不同含义。 


下图是《手册》给出的错误码示例:

错误码如何设计才合理?_错误码_05

 

 

他山之石

他山之石不一定能攻玉。

谷歌 API 错误码定义

谷歌 API 的错误码定义与 HTTP 状态码有着非常强的联系,并且是一个全数字错误码定义。

没有明显的错误分类,快速识别和自解释能力比较弱。

错误码如何设计才合理?_API_06

 

 

腾讯 OpenAPI(文智)错误码定义

这也是一个全数字的错误码,没有明确的分类字段,纯数字的某一位已看不出明显的分类。

不利于进行感性记忆。

错误码如何设计才合理?_错误码_07

 

 

微博 API 错误码定义

同样是全数字的错误码定义:

错误码如何设计才合理?_API_08

 

 

其他建议
《手册》中有一条建议:

全部正常,但不得不填充错误码时返回五个零:00000。 

这也是在其他家 API 错误码中能够看到的定义。

参考
《阿里巴巴java开发手册》《Google API Design Guide 》(https://www.bookstack.cn/books/API-design-guide)

《阿里云-文件存储-错误码》(https://help.aliyun.com/document_detail/62603.html)

《微博开放平台-API-错误码》(https://open.weibo.com/wiki/Help/error)

《腾讯开放平台-错误码》(https://wiki.open.qq.com/wiki/%E9%94%99%E8%AF%AF%E7%A0%81)

 

作者:古道轻风,

标签:数字,错误,定义,错误码,设计,日志,合理,李雷
From: https://blog.51cto.com/chunyangi/6612707

相关文章

  • 浅谈安科瑞EMS2.0能效管理平台在制药厂洁净室的电气设计与选型
    罗轩志安科瑞电气股份有限公上海嘉定201801摘要:从设计原则、动力配电、照明配电和通信等方面分析了在洁净室电气设计中应遵循的原则和应注意的问题,并通过附图详细表明了医药洁净室管线的密封处理方法。关键词:医药洁净室;药品生产质量管理规范;密封;照度;应急照明;防静电接地0引言随着......
  • SketchUp Pro 2023-草图大师3D设计软件mac/win版
    SketchUpPro2023是一款领先的3D建模和设计软件,广泛应用于建筑、室内设计、景观规划、工业设计等领域。它以其直观易用的特点而受到许多设计师和建筑专业人士的青睐。→→↓↓载SketchUpPro2023mac/win版 SketchUpPro2023拥有用户友好的界面和简单直观的工作流程,使得从......
  • JAVA设计模式之工厂模式
    设计模式设计模式(DesignPattern)是前辈们对代码开发经验的总结,是解决特定问题的一系列套路。它不是语法规定,而是一套用来提高代码可复用性、可维护性、可读性、稳健性以及安全性的解决方案。总体来说设计模式分为三大类:创建型模式,共五种:工厂方法模式、抽象工厂模式、单例模式、......
  • 画出结构型设计模式的类图
    装饰器模式Decorator适配器模式Adapter桥接模式Bridge组合模式Composite代理模式Proxy静态代理JDK动态代理享元模式Flyweight外观模式Facade ......
  • ASL芯片CS5466方案设计|集睿致远CS5466代理商|Type-c转HDMI电路原理
    CS5466作为ASL集睿致远新推出的高性能Type-CtoHDMI2.1协议转换器,可以通过HDMI输出端口作为TMDS或FRL发射机进行操作。CS5466适配于多个配件市场和现实应用主板,例如:主板,显示端口,扩展坞等。CS5266还配备了最高级别的HDCP嵌入式秘钥,能够安全传输受保护的内容,作为集睿致远ASL的一......
  • 问界低代码平台架构设计及业务实践
     1.前言内因:随着之家业务快速发展,公司内部的数字化需求越来越多,信息系统团队每年都面对大量的需求,但研发侧资源是一定的,那么如何更快速的交付需求,越来越成为团队重点思考解决的问题。外因:互联网技术的不断推陈出新,尤其以React,Vue为代表的前端技术框架突飞猛进,大......
  • 问界低代码平台架构设计及业务实践
     1.前言内因:随着之家业务快速发展,公司内部的数字化需求越来越多,信息系统团队每年都面对大量的需求,但研发侧资源是一定的,那么如何更快速的交付需求,越来越成为团队重点思考解决的问题。外因:互联网技术的不断推陈出新,尤其以React,Vue为代表的前端技术框架突飞猛进,大......
  • 领域驱动设计 15-17章(本书完结)
    15.精炼如何才能专注于核心问题而不被大量的次要问题淹没呢?分层架构可以把领域概念从技术逻辑中(技术逻辑确保了计算机系统能够运转)分离出来,但在大型系统中,即使领域被分离出来,它的复杂性也可能仍然难以管理。精炼是把一堆混杂在一起的组件分开的过程,以便从中提取出最重要的内容,使......
  • Kafka-核心设计和实现原理,生产者和消费者详述
    1.体系架构Producer:生产者Consumber:消费者Broker:服务代理节点(kafka实例)2.消息存储主题(Topic):kafka消息以topic为单位进行归类,逻辑概念分区(Partition):Topic-Partition为一对多分区在存储层面可看做是一个可追加的日志文件消息在追加到分区时会分配一个特定的偏移量(offset)作为在此分区......
  • Kafka-核心设计和实现原理,生产者和消费者详述
    1.体系架构 Producer:生产者Consumber:消费者Broker:服务代理节点(kafka实例) 2.消息存储主题(Topic):kafka消息以topic为单位进行归类,逻辑概念分区(Partition):Topic-Partition为一对多分区在存储层面可看做是一个可追加的日志文件消息在追加到分区时会分配一个特定的......