实验环境:oceanbase 企业版V3 1-1-1 架构。
1.查看当前资源情况
select unit_config_id,name,max_cpu,min_cpu,round(max_memory/1024/1024/1024) max_mem_gb, round(min_memory/1024/1024/1024) min_mem_gb, round(max_disk_size/1024/1024/1024) max_disk_size_gb from __all_unit_config order by unit_config_id;
2.黑屏创建oracle租户
(1)创建unit
CREATE RESOURCE UNIT unit1 MAX_CPU 3, MAX_MEMORY '6G', MAX_IOPS 10000,MAX_DISK_SIZE '500G', MAX_SESSION_NUM 1000, MIN_CPU=3, MIN_MEMORY='6G',MIN_IOPS=1000;
(2)创建资源池
create resource pool ora_pool_test unit = 'unit1',unit_num = 1;
(3)创建oracle租户
create tenant ob_ora resource_pool_list=('ora_pool_test'), primary_zone='RANDOM',comment 'oracle tenant/instance', charset='utf8' set ob_tcp_invited_nodes='%', ob_compatibility_mode='oracle';
这样我们就有了租户资源规格大小为 3C6G 的oracle类型租户。
开始实验:
步骤 1 登录 Oracle 租户的 sys 用户(注意不是 sys 租户),查看修改前参数值;修改隐含参数 _ob_queuing_fast_freeze_min_count 的默认值,此参数限制 delete 语句到达这个阈值 后, 触发对 queuing 表执行转储的操作;
show parameters like '_ob_queuing_fast_freeze_min_count';
alter system set "_ob_queuing_fast_freeze_min_count"=20000;
上面这个参数查不到值 ,应该类似于oracle 的隐含参数,目前还没搞清楚ob中oracle租户的隐含参数怎么查询,但可以直接修改。
步骤 2 创建并登录 tpcc 用户,授予 dba 权限,创建 2 张表,一张表为普通表,另外一个为 queuing 表
create user tpcc identified by obce_test;
grant dba to tpcc;
drop table tab_no_queue purge;
drop table tab_queue purge;
create table tab_no_queue (id int primary key, name varchar(10), contact
varchar(20), addr varchar(100));
create table tab_queue(id int primary key, name varchar(10), contact varchar(20),
addr varchar(100)) table_mode='queuing';
步骤3 查看两个表的主副本位置
SELECT
tenant.tenant_name,
meta.table_id,
tab.table_name,
partition_id,
ZONE,
svr_ip,
svr_port,
CASE
WHEN ROLE = 1 THEN 'leader'
WHEN ROLE = 2
THEN 'follower'
ELSE NULL
END AS ROLE,
tab.primary_zone
FROM
__all_virtual_meta_table meta
INNER JOIN __all_tenant tenant ON
meta.tenant_id = tenant.tenant_id
INNER JOIN __all_virtual_table tab ON
meta.tenant_id = tab.tenant_id
AND meta.table_id = tab.table_id
WHERE
tenant.tenant_id = 1004
ORDER BY
tenant.tenant_name,
table_name,
partition_id,
ZONE;
步骤4 向表 tab_no_queue 添加测试数据
insert into tab_no_queue select level,
case mod(level,5)
when 0 then '张一'
when 1 then '李一'
when 2 then '王一'
when 3 then '赵一'
when 4 then '钱一'
else null
end
, '1234567890','Asia-China-Sichuan-Chengdu'
from dual where mod(level,5)=3 connect by level <=200000;
commit;
我这里把50w变成了20w 执行了两次,不然很容易报
步骤5 执行一次表和租户级别的转储, 避免以上插入操作对本实验的影响
ALTER SYSTEM MINOR FREEZE TENANT=(ob_ora);
步骤6 确认转储成功
SELECT * FROM __all_zone WHERE name='merge_status';
查看 gv$merge_info,确认转储发生时间
select * from gv$merge_info where table_id =1103909674337105 order by start_time desc limit 6;
步骤 7 执行批量 insert 语句,模拟此表被应用插入新数据的场景
insert into tab_no_queue select level,
case mod(level,5)
when 0 then '张一'
when 1 then '李一'
when 2 then '王一'
when 3 then '赵一'
when 4 then '钱一'
else null
end, '1234567890','Asia-China-Sichuan-Chengdu' from dual where mod(level,5) in (2)
connect by level <=150000;
commit;
步骤 8 登陆 sys 租户,查看 tab_no_queue 表在 memstore 的内存消耗情况, 关注 used_mb 字段值
select ip,table_id,partition_id,round(used/1024/1024,1) as used_mb,hash_items,btree_items,is_active from gv$memstore_info
where table_id =1103909674337105;
步骤 9 模拟修改表的操作,了解多版本数据对 memstore 内存的使用
update tab_no_queue set name = '王二' where mod(id,5) in (2);
commit;
步骤 10 删除记录, 观察是否触发系统转储,理解隐含参数 ob_queuing_fast_freeze_min_count 的含义, 得出结果此参数对非 queuing 表无效
delete from tab_no_queue where mod(id,5) in (2);
commit;
步骤 11 查看表 tab_no_queue 的转储情况,确认没有转储
select * from gv$merge_info where table_id =1103909674337105 order by start_time
desc limit 6;
再次执行 insert 和 delete 操作, 观察 tab_no_queue 表的转储情况, 确认没有转储发生
insert into tab_no_queue
select level,
case mod(level,5)
when 0 then '张一'
when 1 then '李一'
when 2 then '王一'
when 3 then '赵一'
when 4 then '钱一'
else null
end
, '1234567890','Asia-China-Sichuan-Chengdu'
from dual
where mod(level,5) in (4)
connect by level <=150000;
delete from tab_no_queue where mod(id,5) in (4);
commit;
步骤 12 对 tab_no_queue 执行全表扫描, 查看 gv$sql_audit 的执行信息 , 注意 execute_time 时间(86744),记录与后面的 queuing 表对比。
select
svr_ip,query_sql,trace_id,sql_id,plan_id,is_hit_plan,plan_type,elapsed_time,
execute_time,get_plan_time,table_scan,memstore_read_row_count,
ssstore_read_row_count from gv$sql_audit where tenant_id=1004 and query_sql like
'select%, count(*) from tab_no_queue%';
步骤 13 对 tab_queue 表(queuing 表)执行以上相同的步骤,查询表 tab_queue 的 table_id 和 leader 副本所在的 Observer IP 地址; 注意 tenant_id 根据实际 tenant_id(我这里是1004), 记录 table_id(1103909674337106)和 IP(127.0.0.1)
select tenant.tenant_name,meta.table_id, tab.table_name,
partition_id,zone,svr_ip,svr_port, case when role=1 then 'leader' when role=2
then 'follower' else null end as role, tab.primary_zone from
__all_virtual_meta_table meta inner join __all_tenant tenant on
meta.tenant_id=tenant.tenant_id inner join __all_virtual_table tab on
meta.tenant_id=tab.tenant_id and meta.table_id=tab.table_id where
tenant.tenant_id=1004 and tab.table_name='TAB_QUEUE' order by
tenant.tenant_name,table_name,partition_id,zone;
步骤 14 向 queuing 表(tab_queue)添加测试数据
insert into tab_queue select level,
case mod(level,5)
when 0 then '张一'
when 1 then '李一'
when 2 then '王一'
when 3 then '赵一'
when 4 then '钱一'
else null
end
, '1234567890','Asia-China-Sichuan-Chengdu'
from dual where mod(level,5)=3 connect by level <=200000;
commit;
这里level这个测试参数还是改为200000。
步骤 15 执行一次表和租户级别的转储, 避免以上插入操作对本实验的影响
ALTER SYSTEM MINOR FREEZE TENANT=(ob_ora);
步骤 16 确认转储结束
SELECT * FROM __all_zone WHERE name='merge_status';
查看 gv$merge_info,确认转储发生时间
select * from gv$merge_info where table_id =1103909674337106 order by start_time
desc limit 6;
步骤 17 执行批量 insert 语句,模拟此表被应用插入新数据的场景
insert into tab_queue select level,
case mod(level,5)
when 0 then '张一'
when 1 then '李一'
when 2 then '王一'
when 3 then '赵一'
when 4 then '钱一'
else null
end, '1234567890','Asia-China-Sichuan-Chengdu' from dual where mod(level,5) in (2)
connect by level <=150000;
commit;
步骤 18 登陆 sys 租户,查看 tab_queue 表在 memstore 的内存消耗情况, 关注 used_mb 字段值
select ip,table_id,partition_id,round(used/1024/1024,1) as
used_mb,hash_items,btree_items,is_active from gv$memstore_info where table_id = 1103909674337106;
步骤 19 模拟修改表的操作 ,了解多版本数据对 memstore 内存的使用
update tab_queue set name = '王二' where mod(id,5) in (2);
commit;
步骤 20 再次查看此步骤的内存消耗,可以看到 update 语句消耗更多内存
select ip,table_id,partition_id,round(used/1024/1024,1) as
used_mb,hash_items,btree_items,is_active from gv$memstore_info where table_id = 1103909674337106;
步骤 21 删除记录,观察是否触发系统转储,理解隐含参数 ob_queuing_fast_freeze_min_count 的含义
delete from tab_queue where mod(id,5) in (2);
commit;
步骤 22 查看表 tab_queue 的转储情况, 确认发生转储的信息(若没有立即发现转储发生,可以等 待 30 秒左右,多次执行此命令)
select * from gv$merge_info where table_id =1103909674337106 order by start_time
desc limit 6;
步骤 23 再次执行 insert 和 delete 操作,观察 tab_queue 表的转储情况, 确认发生一次新的转储
insert into tab_queue
select level,
case mod(level,5)
when 0 then '张一'
when 1 then '李一'
when 2 then '王一'
when 3 then '赵一'
when 4 then '钱一'
else null
end
, '1234567890','Asia-China-Sichuan-Chengdu'
from dual
where mod(level,5) in (4)
connect by level <=150000;
delete from tab_queue where mod(id,5) in (4);
commit;
(思考:比较和非 queuing 表 tab_no_queue 的转储情况,可以看到 tab_queue 在 delete 语句满足隐含参数(_ob_queuing_fast_freeze_min_count)设定的阈值时,立刻发生自 动转储,随即执行了 queuing 表独有的 buf minor merge,把刚刚转储生成的 mini sstable 与 major sstable 合并成一个 minor sstable,这个操作有利于对 queuing 表的全表扫描效率)
步骤 24 对 tab_queue 执行全表扫描, 查看 gv$sql_audit 的执行信息 , 注意 execution_time 时 间, 对比与非 queuing 表的执行时间, queuing 表明显缩短。
select
svr_ip,query_sql,trace_id,sql_id,plan_id,is_hit_plan,plan_type,elapsed_time,
execute_time,get_plan_time,table_scan,memstore_read_row_count,
ssstore_read_row_count from gv$sql_audit where tenant_id=1004 and query_sql like
'select%, count(*) from tab_queue%';
官网结论:从 queuing 表和 no queuing 表的执行时间对比结果得出,queue 表在用户多次执 行 DML 语句后造成内存数据增加,但是对批量 delete 语句自动转储对查询链路增加的问题 进行了优化, queuing 表的全表扫描总耗时大大减少
个人结论: 在oceanbase 的LSM-tree 架构中,对表进行DML操作,因为oceanbase是准内存性数据库,所以中间的记录都会在内存中记录,有点像PG中update方式(PG中update操作会先insert 再给原数据打上delete,但数据并没有真正删除)。所以当表中比较频繁的执行DML操作的时候,就会占用大量的内存,并且在做查询的时候也会扫描已经打上delete的数据块。PG中有autovacuum来清理数据块,oceanbase中也有buffer(Queuing表)来解决这个问题,对于table_mode='queuing' 的表,
当删除的数据量达到 _ob_queuing_fast_freeze_min_count
或删除的比例达到_ob_queuing_fast_freeze_min_threshold 则直接开始转储。
官网中有很明确的buffer(Queuing表)转储策略图:
我们在做实验的时候也可以看到明确的buf minor merge 标记,也可以看到 非buffer表的execute时间 38361 明显 大于buffer表的execute时间 13967。并且非buffer表没有自适应的转储策略。