内存中的数据对象只有转换为二进制流才可以进行数据持久化和网络传输。将数据对象转换为二进制流的过程成为对象的序列化(Serialization)。反之,将二进制流恢复为数据对象的过程称为反序列化(Deserialization)。序列化需要保留充分的信息以恢复数据对象,但是为了节约存储空间和网络带宽,序列化后的二进制流又要尽可能小。序列化常见的场景是RPC框架的数据传输。常见的序列化有三种:
(1) Java原生序列化。Java类通过实现Serialization接口来是实现该类对象的序列化,这个接口非常特殊,没有任何方法,只起标识作用。java序列化保留了对象类的元数据(如类、成员变量、继承类信息),以及对象数据等,兼容性最好,但不支持跨语言,而且性能一般。
实现Serializable接口的类建议设置serivalVersionUID字段值,如果不设置,那么每次运行时,编译器会根据类的内部实现,包括类名、接口名、方法和属性等来自动生成的serialVersionUID。如果类的源代码有修改,那么重新编译后serialVersionUID的取值可能会发生变化。因此实现Serializable接口的类一定要显式地定义serialVersionUID属性值。修改类时需要根据兼容性决定是否修改serialVersion:
· 如果是兼容性升级,请不要修改serivalVersionUID字段,避免反序列失败。
· 如果不是兼容性升级,需要修改serivalVersionUID字段,避免反序列混乱。
使用JAVA原生序列化需注意,Java反序列化不会调用类的无参构造方法,而是调用native方法将成员变量赋值为对应类型的初始值。基于性能及兼容性考虑,不推荐使用JAVA原生序列化。
(2) Hessian序列化。 Hessian序列化是一种支持动态类型、跨语言、基于对象传输的网络协议。JAVA对象序列化的二进制流可以被其他语言(如C++ 、Python )反序列化。Hessian协议具有如下特性:
· 自描述序列化类型。不依赖外部描述文件或接口定义,用一个字节表示常用基础类型,极大缩短二进制流。
· 语言无关,支持脚本语言。
· 协议简单,比JAVA原生序列化高效。
相比Hessian 1.0,Hessian 2.0中增加了压缩编码,其序列化二进制流大小是JAVA序列化的50%,序列化耗时是JAVA序列化的30%,反序列化耗时是JAVA反序列化的20%。
Hessian会把复杂对象所有属性存储在一个MAP中进行序列化。所以在父类、在类存在同名成员变量的情况下,Hessian序列化时,先序列化子类,然后序列化父类,因此序列化结果会导致子类同名成员变量被父类的值覆盖。
(3) JSON序列化。 JSON(JavaScript Object Notation)是一种轻量级的数据交互格式。JSON序列化就是将数据对象转换为JSON字符串。在序列化过程中抛弃了类型信息,所以反序列化时只是提供类型信息才能准确地反序列化。相比前两者方式,JSON可读性比较好,方便调试。
序列化通常会通过网络传输对象,而对象中往往有敏感数据,所以序列化常常称为黑客的攻击点,攻击者巧妙地利用反序列过程构造恶意代码,使得程序在反序列化的过程中执行任意代码。JAVA工程中广泛使用的Apache Commons Collections、Jackson、fastjson等都出现过反序列化漏洞。如何防范这种黑客攻击呢?有些对象的敏感属性不需要进行序列化传输,可以加transient关键字,避免把此属性信息转化为序列化的二进制流。如果一定要传递对象的敏感属性,可以使用对称与非对称加密方式独立传输,再使用某个方法把属性还原到对象中。应用开发者对序列化要有一定的安全防范意识,对传入数据的内容进行校验或权限控制,及时更新安全漏洞,避免受到攻击。
、