最近MONGODB 系统中的数据量逐渐变大,联系了开发准备开始进行数据的archive 和 cleanup 事宜。其中运维的同学问我,你存储的数据size 和实际的数据 size 是不一样的,我回答那是mongodb 自带的数据压缩功能。
但后续的问题我模糊了,例如磁盘和内存的数据是否完全一致,压缩的比率是多少,等等。人无完人,我也不是DB 百科全书。不过好在还不是中年油腻大叔,模糊了那就learning 去。
那就直奔主题wiredTiger , wiredTiger 作为MONGODB 的主力存储引擎(3.0以后,当然还有PERCONA 但目前不主流)。
首先我们看看wiredTiger 到底是怎么存储数据的,本身wiredTiger 存储数据的方式有两种, 行模式 和 列模式。而这两种方式都是使用 B+ TREE的方式来进行数据的存储的。
在行模式中,KEY 与 Values 都是 strings 可变的,而如果采用列的方式,key是通过 64BIT的方式记录 Values 和行模式一样。所以行与列的模式中不同的是 key 的存储方式。
这两种存储方式各有优点和缺点
行的方式提取整行数据快,但需要的存储空间大,并且如果某些方面设计不好,消耗的I/O 无论从性能还是尺寸上都比较大。
列式存储则适合提取所需的字段(意思就是最好别一次提取较多的字段,否则没优势),并且存储的值被限制在 8-BITS 这限制值的大小。相关的mongodb的并发控制主要在 transactions , snapshots 和 cache几个位置
MONGODB中 基本行采用了行模式的方式进行数据的存储,而数据存储中就会牵扯到 mongodb 中的数据压缩
目前行的存储方面支持四种压缩方式
1 键值前缀压缩
2 字段压缩
3 霍夫曼数据编码压缩
4 块压缩
具体四种压缩方式,默认采用的是键值前缀压缩的方式。这主要是根据CPU 磁盘的消耗,压缩,以及算法的复杂度等因素考虑。
首先要确认的是,磁盘存储的数据与在内存中的数据一定是不一样的,要不怎么还有压缩一说。
1
文件系统缓存中的数据与磁盘上的格式相同,包括对数据文件进行任何压缩,MONGODB使用文件系统缓存来减少磁盘I/O。
2
WiredTiger内部缓存中加载的索引具有与磁盘格式不同的数据表示形式,但是仍然可以利用索引前缀压缩来减少RAM的使用。索引前缀压缩从索引字段中去除常见前缀。
3
WiredTiger内部缓存中的收集数据是未压缩的,并且使用与磁盘格式不同的表示形式。
关于压缩比率的问题,其实没有一个具体的固定的比率这和存储的数据是有关的,下面有一个图,这是 percona 的一个 PPT 中曾经提到的压缩的比率还是比较高的
所以在设计MONGODB 的时候,不能因为MONGODB 自带压缩功能 snappy,就可以随意的存储数据尤其是KEY 设计的不应该太长。因为在怎样你的数据在内存中是要打回原形的。
当然,面对mongodb 的 过期数据的 archive 还可以找一期来说说
标签:存储,方式,MONGODB,压缩,内存,磁盘,数据格式,数据 From: https://blog.51cto.com/u_14150796/6515677