首页 > 数据库 >子查询注意事项&semi-join(2)—mysql基于规则优化(四十五)

子查询注意事项&semi-join(2)—mysql基于规则优化(四十五)

时间:2022-11-01 17:37:55浏览次数:45  
标签:join semi s2 s1 查询 mysql WHERE key1 SELECT


前面说了mysql会吧一些冗余的sql语句查询优化重写,比如多于的括号,比如有的外连接其实跟内连接类似,可以优化查询表的顺序。子查询又分为相关和不相关子查询,如果子查询过滤条件里有外层查询的参数,则是相关子查询,反之则是不相关子查询。Any函数就代表只要有一个就行,最小的,all代表必须所有的都满足这个条件,所以必须最大的也满足。当我们判断子查询里是否存在的时候,则用exists判断,有则返回true。

​​条件简化&子查询(1)--Mysql基于规则优化(四十四)​​

子查询注意事项

1、子查询必须用括号,否则报错:

mysql> SELECT SELECT m1 FROM t1;

ERROR 1064 (42000): You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'SELECT m1 FROM t1' at line 1

2、在select语句中,子查询必须是标量,如果有多行或者多列报错:

mysql> SELECT (SELECT m1, n1 FROM t1);

ERROR 1241 (21000): Operand should contain 1 column(s)

3、对于in/not in/ANT/all/some这些子语句不允许用limit:

mysql> SELECT * FROM t1 WHERE m1 IN (SELECT * FROM t2 LIMIT 2);

ERROR 1235 (42000): This version of MySQL doesn't yet support 'LIMIT & IN/ALL/ANY/SOME subquery'

所以因为没有聚集函数和having,所以group by就是多余的

SELECT * FROM t1 WHERE m1 IN (SELECT m2 FROM t2 GROUP BY m2);

Distinct也是多余的,集合里去重没啥意义

SELECT * FROM t1 WHERE m1 IN (SELECT DISTINCT m2 FROM t2);

同理orderby也是多余的。

子查询在mysql怎么执行的呢?

我们继续用前面创建的表single_table来演示,假设有两个一样的表s1和s2,以前我是这么认为的:

SELECT * FROM s1

    WHERE key1 IN (SELECT common_field FROM s2);

不相关子查询应该是先查询子sql,获取到标量之后,在执行外层sql。

SELECT * FROM s1

    WHERE key1 IN (SELECT common_field FROM s2 WHERE s1.key2 = s2.key2);

相关子查询则是先执行外层sql,获取到s2.key2对应的标量,在执行子查询,子查询获取到值后,在用集合查询外层查询,如此循环。

标量子查询和行子查询

  1. select子句时,必须使用标量子查询。
  2. 子查询使用=,>,<,<>等操作符和某个操作数组成布尔表达式,这样子查询必须是标量子查询或者行子查询。

对于上面两种查询来说,执行的很简单,跟我们前面想的一样,

SELECT * FROM s1 WHERE

    key1 = (SELECT common_field FROM s2 WHERE s1.key3 = s2.key3 LIMIT 1);

这种相关子查询也和我们前面想的一样:

  1. 外层获取一条记录,用于s2.key3的值。
  2. 查询子查询集合。
  3. 再根据集合的where语句看外层子查询是否符合。
  4. 重复第一步查询。

In子查询优化

对于不相关的in子查询:

SELECT * FROM s1

    WHERE key1 IN (SELECT common_field FROM s2 WHERE key3 = 'a');

这时候如果in里面的参数太多,会导致无法有效使用索引,只能对外层全表扫描,于是mysql设计者想到了,直接这种in的子查询,吧子查询看做一个临时表,如果低于系统变量,tmp_table_size会创建memory的内存临时表,此时此刻则是hash索引。写入的临时表而且会通过唯一索引去重,如果超过了tmp_table_size则会创建物理磁盘的临时表,索引类型也会变为b+树索引。

Mysql吧这种in的子查询建立临时表过程叫做物化(Materialize),所以这种临时表又叫物化表,因为物化表里都有索引,基于内存的有hash索引,基于磁盘的有b+树索引,所以查询起来效率非常高。

物化表转连接

当mysql建立了物化表时候,其实查询的过程是什么呢,先扫描s1表,然后把所有s1查询出来的值带入物化表查询,或者显示先扫描物化表,吧所有物化表查询出来的值带入s1的key1列查询。这时候我们可以看到,其实就是两个表的内链接,如果是内连接,就要考虑表优先级顺序来选择最低成本的来执行sql了。

如果选s1作为驱动表,则成本是物化临时表需要的成本 + s1驱动表扫描成本 +  s1表中数据去物化表单表访问成本。(前面说过物化表是有索引,且不是重复,所以效率很高)

如果选物化表作为驱动表,则成本是物化临时表需要的成本 + 物化表扫描成本 + 物化表数据 去s1单表访问成本。(因为s1表的key1也是索引,所以这里效率也很高)

将子查询转换成semi-join

既然是物化之后转连接,mysql设计者于是想着能不能直接不物化,转连接呢

SELECT * FROM s1

    WHERE key1 IN (SELECT common_field FROM s2 WHERE key3 = 'a');

我们可以看到上面的查询过程:先查询s1的值,然后把key1值带入到物化表,看看common_field是否存在,最后吧这些值放入结果集。

SELECT s1.* FROM s1 INNER JOIN s2

    ON s1.key1 = s2.common_field

    WHERE s2.key3 = 'a';

看起来是不是像这样,让他们两个值相同,然后用where过滤s2的值。

这时候,我们可以研究下,在s2执行完key3 = ‘a’之后满足s1.key1=s2.common_fiels 的数据有多少。

情况1:s2表过滤后,没有任何记录满足s1.key1=s2.common_fiels,则没有数据加入结果集。

情况2:s2表过滤后,有一条满足s1.key1=s2.common_fiels,则一条数据加入结果集。

情况3:s2表过滤后,有多条满足s1.key1=s2.common_fiels,则多条数据加入结果集。

其实对于我们需要的结果只需要s2表满足这个条件就好,我们只要查询出s1的值,并不需要管他有多少数据,但这时候并不满足情况三的条件,所以这时候mysql内部出现一个新的连接,叫semi-join。这个连接就能满足我们前面需要的数据,并不需要管子连接查询的数据,满足就直接查询s1就好。

SELECT s1.* FROM s1 SEMI JOIN s2

    ON s1.key1 = s2.common_field

    WHERE key3 = 'a';

那mysql怎么实现半连接的呢?

Table pullout(子查询中的表上拉)

当子查询的查询列表处只有主键和唯一索引的时候,直接上拉转换一下就好,

SELECT * FROM s1

    WHERE key2 IN (SELECT key2 FROM s2 WHERE key3 = 'a');

直接把条件和子查询的列上拉改为:

SELECT s1.* FROM s1 INNER JOIN s2

    ON s1.key2 = s2.key2

    WHERE s2.key3 = 'a';

为什么呢,因为这些数不可能存在查询出一个集合出来,已经是唯一的了。

DuplicateWeedout execution strategy(重复值消费)

SELECT * FROM s1

    WHERE key1 IN (SELECT common_field FROM s2 WHERE key3 = 'a');

上面的sql,因为查询列不是唯一值,所以肯定不能用上面上拉的方法,这时候就需要建立临时表,给临时表一个唯一id,当吧数据放入s1集合时,先加入临时表,如果不存在临时表,则添加进集合成功,如果临时表存在,则不添加进集合。

LooseScan execution strategy(松散扫描)

如下sql:

SELECT * FROM s1

    WHERE key3 IN (SELECT key1 FROM s2 WHERE key1 > 'a' AND key1 < 'b');

如果以s2为驱动表,如果key1查询来aa,aa,aa,ab,ab,ab,bb,bb,bb,只需要在s1表中s1.key3 = ‘aa’,只需要取相同值第一个值的记录放入结果集,这种取值方式就是松散扫描。

Semi-join Materialization execution strategy

我们前面吧子查询进行物化,然后通过外层表和物化表连接,本身就是semi-join,只不过物化表没有重复记录,所以可以将子查询转为连接查询。

FirstMatch execution strategy (首次匹配)

这种是最原始的半连接方式,和我们前面想法是一样的,关子查询则是先执行外层sql,获取到s2.key2对应的标量,在执行子查询,子查询获取到值后,在用集合查询外层查询,如此循环。

SELECT * FROM s1

    WHERE key1 IN (SELECT common_field FROM s2 WHERE s1.key3 = s2.key3);

比如这种in语句也可以转成

SELECT s1.* FROM s1 SEMI JOIN s2

    ON s1.key1 = s2.common_field AND s1.key3 = s2.key3;

然后可以用我们上面介绍的查询方法查询,但需要注意的是,由于相关子查询不是一个独立的查询,所以不能转为物化表来执行。

标签:join,semi,s2,s1,查询,mysql,WHERE,key1,SELECT
From: https://blog.51cto.com/u_15856702/5814523

相关文章

  • 不重用的undo日志 (2)—mysql进阶(六十五)
    前面我们说了undo日志在insert,update,delete存储的日志格式,delete存储的type是trx_undo_del_mark_rec里面有个参数oldroll_pointer会指向insert的地址值,恢复需要的数据。Sel......
  • undo日志insert,update,delete (1)—mysql进阶(六十四)
    前面说了redo日志为了保证系统宕机的情况下,能够恢复数据,恢复数据是在以checkpoint_lsn为起始位子来恢复,在该值之前的都是已经持久化到磁盘的,可以为了提升效率而放弃,而之后的......
  • redo log(1)—mysql进阶(五十九)
    上篇文章说了我们可以用begin和statrtransaction,提交可以commit,rollback回滚,可以指定回滚到保存点,也可以设置全局变量setautocommitoff。也会隐式提交,比如开启事务后,如......
  • 【MySQL】常见错误汇总
    一、MySQL无法重新启动(cmd)netstopmysql手动关闭mysql后netstartmysql无法重启,提示服务没有报告任何错误直接上网搜启动问题的话可能解决不了,因为原因很多样。所以先......
  • redo log-Transaction(2)—mysql进阶(六十)
    前面我们说了为了吧bufferpool的数据持久化到磁盘上,比如修改了一条数据,不可能每次吧整个页的数据都刷新过去,这样耗费性能,innoDB就是把修改的数据记录在redo日志里,redo日志......
  • springBoot+mysql实现用户权限控制--系统框架搭建(四)
    上篇文章说了AOP实现上下文的存储,有需要的可以看看,​​AOP实现上下文存储---系统框架搭建(三)​​环境需求:springboot+mysql5.7.16+Lombok1.18.121、需求背景为了实......
  • transaction (2)—mysql进阶(五十八)
    上篇文章说了acid四个事务的特性,原子性保证要不两个sql一起执行,要么不执行,隔离性,两个事务之间必须互不干扰,一致性,两边的数据必须保持一致,可以说一致性的前提是原子性和隔离......
  • MySQL中Delete和Truncate区别
    一、清空表语句truncatetable[表名];deletefrom[表名]where…; 二、相同点两者都是删除表数据但不会删除表结构 三、不同点delete支持按条件删除,TRUNCA......
  • SS310L-ASEMI肖特基二极管SS310L
    编辑-ZSS310L在SMA封装里采用的2个芯片,其尺寸都是60MIL,是一款低压降肖特基二极管。SS310L的浪涌电流Ifsm为80A,漏电流(Ir)为0.1mA,其工作时耐温度范围为-55~150摄氏度。SS310L......
  • ASEMI肖特基二极管SS210L参数,SS210L规格,SS210L封装
    编辑-ZASEMI肖特基二极管SS210L参数:型号:SS210L最大重复峰值反向电压(VRRM):100V最大RMS电桥输入电压(VRMS):70V最大直流阻断电压(VDC):100V最大平均正向整流输出电流(IF):2.0A峰值正向浪......