首页 > 数据库 >Mysql--JOIN连表查询

Mysql--JOIN连表查询

时间:2023-03-16 17:24:09浏览次数:51  
标签:JOIN -- join Nested 连表 索引 Join 查询 Loop

一、Join查询原理

MySQL内部采用了一种叫做 nested loop join(嵌套循环连接)的算法:通过驱动表的结果集作为循环基础数据,然后一条一条的通过该结果集中的数据作为过滤条件到下一个表中查询数据,然后合并结果。如果还有第三个参与 Join,则再通过前两个表的 Join 结果集作为循环基础数据,再一次通过循环查询条件到第三个表中查询数据,如此往复,基本上MySQL采用的是最容易理解的算法来实现join

所以驱动表的选择非常重要,驱动表的数据小可以显著降低扫描的行

一般情况下参与联合查询的两张表都会一大一小,如果是join,在没有其他过滤条件的情况下MySQL会自动选择小表作为驱动表。简单来说,驱动表就是主表,left join 中的左表就是驱动表,right join 中的右表是驱动表。

 

 

 

二、Nested-Loop Join

如 select * from t1 inner join t2 on t1.id=t2.tid ,t1称为外层表,也可称为驱动表,t2称为内层表,也可称为被驱动表

mysql只支持一种join算法:Nested-Loop Join(嵌套循环连接),但Nested-Loop Join有三种变种:

  • 简单嵌套循环连接:Simple Nested-Loop Join(SNLJ)
  • 索引嵌套循环连接:Index Nested-Loop Join(INLJ)
  • 缓存块嵌套循环连接:Block Nested-Loop Join(BNLJ)

在选择Join算法时,会有优先级,理论上会优先判断能否使用INLJ、BNLJ: Index Nested-LoopJoin > Block Nested-Loop Join > Simple Nested-Loop Join 

 

2.1 Simple Nested-Loop Join

如下图,r为驱动表,s为匹配表,可以看到从r中分别取出r1、r2、…、rn去匹配s表的左右列,然后再合并数据,对s表进行了rn次访问,对数据库开销大。

如果table1有1万条数据,table2有1万条数据,那么数据比较的次数=1万 * 1万 =1亿次,这种查询效率会非常慢。

故基本不使用这种方式,mysql会根据情况选择其他两种方式进行查询

 

 

2.2 Index Nested-Loop Join(减少内层表数据的匹配次数)

  • 索引嵌套循环连接是基于索引进行连接的算法,索引是基于内层表的,通过外层表匹配条件直接与内层表索引进行匹配,避免和内层表的每条记录进行比较, 从而利用索引的查询减少了对内层表的匹配次数,优势极大的提升了 join的性能
  • 使用场景:只有内层表join的列有索引时,才能用到Index Nested-LoopJoin进行连接
  • 由于用到索引,如果索引是辅助索引而且返回的数据还包括内层表的其他数据,则会回内层表查询数据,多了一些IO操作

这个要求非驱动表(匹配表s)上有索引,可以通过索引来减少比较,加速查询。

在查询时,驱动表(r)会根据关联字段的索引进行查找,当在索引上找到符合的值,再回表进行查询,也就是只有当匹配到索引以后才会进行回表查询。

如果非驱动表(s)的关联健是主键的话,性能会非常高,如果不是主键,要进行多次回表查询,先关联索引,然后根据二级索引的主键ID进行回表操作,性能上比索引是主键要慢。

 

 

2.3 Block Nested-Loop Join(减少内层表数据的循环次数)

缓存块嵌套循环连接通过一次性缓存多条数据,把参与查询的列缓存到Join Buffer 里,然后拿join buffer里的数据批量与内层表的数据进行匹配,从而减少了内层循环的次数(遍历一次内层表就可以批量匹配一次Join Buffer里面的外层表数据)。

当不使用Index Nested-Loop Join的时候(内层表查询不适用索引),默认使用Block Nested-Loop Join

  1. Join Buffer会缓存所有参与查询的列而不是只有Join的列
  2. 可以通过调整join_buffer_size缓存大小
  3. join_buffer_size的默认值是256K,join_buffer_size的最大值在MySQL 5.1.22版本前是4G-1,而之后的版本才能在64位操作系统下申请大于4G的Join Buffer空间
  4. 使用Block Nested-Loop Join算法需要开启优化器管理配置的optimizer_switch的设置block_nested_loop为on,默认为开启

 

 

三 优化

  1. 用小结果集驱动大结果集,减少外层循环的数据量:如果小结果集和大结果集连接的列都是索引列,mysql在内连接时也会选择用小结果集驱动大结果集,因为索引查询的成本是比较固定的,这时候外层的循环越少,join的速度便越快
  2. 为匹配的条件增加索引:争取使用INLJ,减少内层表的循环次数
  3. 增大join buffer size的大小:当使用BNLJ时,一次缓存的数据越多,那么外层表循环的次数就越少
  4. 减少不必要的字段查询:
    • 当用到BNLJ时,字段越少,join buffer 所缓存的数据就越多,外层表的循环次数就越少
    • 当用到INLJ时,如果可以不回表查询,即利用到覆盖索引,则可能可以提示速度
  5. 尽量使用inner join,避免left join 和NULL

 

四 实例

4.1 找出所有在左表,不在右表的纪录

注:列值为null应该用is null 而不能用=NULL

  a.user_id 列必须声明为 NOT NULL 的

select id, name, action from user as u left join user_action a on u.id = a.user_id where a.user_id is NULL

 

 

 

摘抄自(有删改):https://blog.csdn.net/agonie201218/article/details/106993948

 

标签:JOIN,--,join,Nested,连表,索引,Join,查询,Loop
From: https://www.cnblogs.com/Xinenhui/p/17223430.html

相关文章

  • 面试题
    目录可变类型与不可变类型常用的魔法方法类中的装饰器双写一致性断点续传内网穿透缓存击穿可变类型与不可变类型可变类型:列表,字典,集合不可变类型:字符串,元组,整型,......
  • JAVA WEB超大文件上传解决方案:分片断点上传(一)
    ​ 上周遇到这样一个问题,客户上传高清视频(1G以上)的时候上传失败。一开始以为是session过期或者文件大小受系统限制,导致的错误。查看了系统的配置文件没有看到文件大小......
  • vuex TypeError: Cannot read properties of undefined (reading ‘dispatch‘)
      1、入口文件main.js  2、或者版本不匹配 vue2安装3版本的vuex,默认安装的4版本给vue3用//卸载原来安装的vuexnpmuninstallvuex//安装3.6.2版本的vuexnpm......
  • Mysql——索引失效
         ......
  • Linux & 标准C语言学习 <DAY14>
    一、头文件  头文件可能会被任意源文件包含,意味着头文件中的内容可能会在多个目标文件中存在,要保证合并时不要冲突  重点:头文件只编写声明语句,不能有定义语句......
  • go微服务开发:go-zero入门教程(二)
    以下内容,参考了go-zero官方文档,是对官方文档的进阶指南章节的梳理汇总。go-zero的进阶指南,请参考 https://go-zero.dev/cn/docs/advance/business-dev 通过本文,你将学......
  • 【医疗器械之化学发光免疫分析仪器+试剂原理】
    夹心法原理:竞争法原理: 试剂原理: ......
  • CAS算法
    CAS算法今天在看了《Java并发编程的艺术》,学习如何减少上下问切换的时候,里面说到了通过CAS算法来更新数据,而它不需要加锁。不太理解什么是CAS算法,所以在网上搜罗半天资料,......
  • 三、UserDetailsService详解
    当什么也没有配置的时候,账号和密码是由SpringSecurity定义生成的。而在实际项目中账号和密码都是从数据库中查询出来的。所以我们要通过自定义逻辑控制认证逻辑。​如......
  • 【并发编程十九】芊程(fiber)
     【并发编程十九】芊程(fiber)一、前言二、芊程(fiber)1、线程中使用芊程2、获取当前芊程数据3、从芊程切回线程4、创建新的芊程5、删除芊程对象6、在不同芊程......