问题
SQLSession 是一个非常大的内存结构,一个分布式执行的 Query 中,SQLSession 要被复制/序列化多次,复制开销非常大。如果有机会再来一遍,如何设计 SQLSession 才能避免这种开销呢?
思路
下面提出一种思路:
- 对于不变、可共享的数据,设计成只读结构,无需拷贝/序列化,支持多线程并发读。
- 对于可变内容,必须拷贝,又分成两部分,一部分是基线内容,一部分是可更新内容。
- 基线内容支持 memcpy 直接拷贝来做序列化
- 为了支持 memcpy 直接拷贝,要求基线部分数据结构都是 plain old data(POD)
- 可更新内容参与标准 deep_copy 过程
- 可更新内容不参与序列化
设计
按照上面的思想设计,SQLSession 是一个容器:
class SQLSession {
public:
SQLSessionSharable *shared_;
SQLSessionMemCopiableVariants mem_copiable_variants_; // 如 char[1024]
SQLSessionDeepCopiableVariants deep_copiable_variants_; // 如 vector
public:
DEF_SERIALIZE(); // 跨机复制,序列化所有数据
DEF_SHARE_CLONE(SQLSession); // 本机复制, 共享不变数据, 复制可变数据
private:
Allocator allocator_;
};