首页 > 数据库 >【SQL】IN和EXISTS谁的效率更高

【SQL】IN和EXISTS谁的效率更高

时间:2024-04-17 17:33:43浏览次数:9  
标签:EXISTS 更高 查询 flag SQL where id select

【SQL】IN和EXISTS谁的效率更高

总结:
索引设置好的情况下
子查询数据量大的,用exists
子查询数据量小的,用in


原文连接:https://zhuanlan.zhihu.com/p/400553948

IN和EXISTS被频繁使用在SQL中,虽然作用是一样的,但是在使用效率谁更高这点上众说纷纭。下面我们就通过一组测试来看,在不同场景下,使用哪个效率更高。

测试数据:

B表: 大表,大约300000行数据

CREATE TABLE `B` (
  `id` int NOT NULL AUTO_INCREMENT,
  `B_id` int NOT NULL,
  `value` varchar(20) NOT NULL,
  `flag` int not null,
   PRIMARY KEY (`id`),
   KEY `idx_b_flag` (`flag`),
   KEY `idx_b_id` (`B_id`)
)


A表: 小表,20000行数据

CREATE TABLE `A` (
  `id` int NOT NULL AUTO_INCREMENT,
  `flag` int NOT NULL,
  `value` varchar(20) NOT NULL,
  PRIMARY KEY (`id`),
  KEY `idx_a_flag` (`flag`)
)

测试1:

子查询 select flag from B where B_id<100 结果集99条

select * from A where flag in (select flag from B where B_id<100 );
198 rows in set (0.00 sec)
select * from A where exists (select * from B where B_id<100 and A.flag=B.flag);
198 rows in set (0.10 sec)

可以看到IN效率高于EXISTS。

IN的执行计划:

(1)执行A表的查询,查询条件是A.flag在结果集B里面,可以使用到A表的索引flag。

(2)执行B表的子查询,得到结果集B,可以使用到B表的索引B_id;

EXISTS的执行计划:

(1)先将A表所有记录取到。

(2)逐行针对A表的记录,去关联B表,判断B表的子查询是否有返回数据,5.5之后的版本使用Block Nested Loop(Block 嵌套循环)。

(3)如果子查询有返回数据,则将A当前记录返回到结果集。

A相当于取全表数据遍历,B可以使用到索引。

测试2:
子查询 select flag from B where B_id>100 结果集 299899条

select * from A where flag in (select flag from B where B_id>100 );
19798 rows in set (0.09 sec)
select * from A where exists (select * from B where B_id>100 and A.flag=B.flag);
19798 rows in set (0.06 sec)

可以看到EXISTS效率这次比IN高。

两者的索引使用情况跟第一次实验是一致的,当子查询结果集很大,而外部表较小的时候,EXISTS的Block Nested Loop(Block 嵌套循环)的作用开始显现,查询效率会优于IN。

从两次测试来看,并不能说哪个效率高于哪个,而应该具体情况具体分析

首先先来看IN和EXISTS的执行原理:

IN是做外表和内表通过hash 连接,先查询子表,再查询主表,不管子查询是否有数据,都对子查询进行全部匹配。

EXISTS是外表做loop循环,先主查询,再子查询,然后去子查询中匹配,如果匹配到就退出子查询返回true,将结果放到结果集。

IN原理:

在in()的执行中,是先执行内表得到结果集,再执行外表,外表会对所有的内表结果集匹配,也就是如果外表有100,内表有10000,就会执行100*10000次,所以在内表比较大的时候,不合适用in()方法,效率比较低。

select * from 外表 a where id i n(select 相关id from 内表) in的执行类似如下:

List resultSet=[];
  Array A=(select * from A);
  Array B=(select id from B);
   
  for(int i=0;i<A.length;i++) {
     for(int j=0;j<B.length;j++) {
        if(A[i].id==B[j].id) {
           resultSet.add(A[i]);
           break;
        }
     }
  }
  return resultSet;
  

EXISTS原理:

exists()的执行过程中,并没有对每一条内表的数据都进行查询,而是存在该条数据的时候会将结果集存起来,到最后的时候同一输出结果集。
select a.* from 外表 a where exists(select 1 from 内表 b where a.id=b.id) 的EXISTS的执行语句如下:

List resultSet=[];
Array A=(select * from 外表 A)
 
for(int i=0;i<A.length;i++) {
   if(exists(A[i].id) {    //执行select 1 from 内表 b where b.id=a.id是否有记录返回
       resultSet.add(A[i]);
   }
}
return resultSet;

设:外表A,内表B。

A表有10000条记录,B表有1000000条记录, 那么exists()会执行10000次去判断A表中的id是否与B表中的id相等。
A表有10000条记录,B表有100000000条记录,那么exists()还是执行10000次,因为它只执行A.length次,可见B表数据越多,越适合exists()发挥效果。

再如:......

总结:
......

子查询结果集越大用EXISTS,子查询结果集越小,使用IN的索引优化效果更佳。

标签:EXISTS,更高,查询,flag,SQL,where,id,select
From: https://www.cnblogs.com/jokingremarks/p/18141320

相关文章

  • mysql 数据库性能分析工具简介
    分析sql性能整体步骤观察服务器状态(系统性能),看是否存在周期性波动。如果存在波动,则可以增加缓存或修改缓存失效策略。如果没有周期性波动,而是不规则的延迟或卡顿,又或者是添加了缓存或修改了缓存失效策略之后问题仍然未解决,我们就可以开启慢查询功能,通过慢查询日志找到执行......
  • 解决C# 连接MYSQL数据库查询数据时 Unable to convert MySQL date/time value to Syst
    C#读取MySql时,如果存在字段类型为date/datetime时的可能会出现以下问题“UnabletoconvertMySQLdate/timevaluetoSystem.DateTime”原因:可能是该字段(date/datetime)的值默认缺省值为:0000-00-00/0000-00-0000:00:00,这样的数据读出来转换成System.DateTime时就会有问题;解......
  • mysql中replace into用法
    前言replaceinto跟insertinto功能类似,不同点在于:replaceinto首先尝试插入数据到表中如果发现表中已经有相同的数据(根据主键或者唯一索引判断)则先删除原来的数据,然后插入新的。否则,直接插入新数据。注意:插入数据的表必须有主键或者是唯一索引!否则的话,replaceinto会......
  • docker部署mysql
    docker部署mysqlmkdir-p/data/docker/mysql5.7/{data,conf.d}mkdir-p/data/docker/mysql8/{data,conf.d}version:'3'services:mysql_5.7:image:mysql:5.7.40restart:alwaysports:-13306:3306environment:-MYSQL_ROOT_PAS......
  • SQL语法错误-java.sql.SQLSyntaxErrorException: You have an error in your SQL synt
    频繁爆出这样的错误:java.sql.SQLSyntaxErrorException:YouhaveanerrorinyourSQLsyntax;checkthemanualthatcorrespondstoyourMySQLserverversionfortherightsyntaxtousenear''atline1查阅了许多资料后,我怀疑报错可能与字段名不小心用了关键字有关......
  • 第十六章——处理锁、阻塞和死锁(3)——使用SQLServer Profiler侦测死锁
    前言:作为DBA,可能经常会遇到有同事或者客户反映经常发生死锁,影响了系统的使用。此时,你需要尽快侦测和处理这类问题。死锁是当两个或者以上的事务互相阻塞引起的。在这种情况下两个事务会无限期地等待对方释放资源以便操作。下面是死锁的示意图: 本文将使用SQLServerProfi......
  • mysql主从升级(直接先升级主库,旧binlog拷贝到新版本目录,需要停业务)
    环境:OS:Centos7旧版本:mysql5.6新版本:mysql5.71.停掉旧版本数据库确保主从当前没有延迟再停主库,不过有延迟也可以停掉查看从库的状态mysql>showslavestatus\G;***************************1.row***************************Slave_IO_State:Wai......
  • Go在Sqlserver中的作用
    Sql_server中的Go标识在写Sql脚本时总是会遇到go标识,也没有个明确的解释。官方解释Go:官方说法是:GO只是SQLServer管理器(SSMS)中用来提交T-SQL语句的一个标志。这几个字我都认识,但是绷组合到一起就感觉说的不是人话。实际的作用一个(段)脚本结束的标识,下面的内容不再与上......
  • MySQL8 设置大小写敏感
    https://blog.csdn.net/xhmico/article/details/136680013今天对我本地的数据库迁移服务器上,完成之后启动项目报错 说数据库中不存在quartz_LOCKS这张表 我打开服务器上面的数据上面展示的表名是quartz_LOCKS,然后通过查询lower_case_table_names配置可知showvariabl......
  • mysql复制数据库
    mysql复制数据库,导出导入方法一:使用mysqldump创建新的数据库createdatabasenew_db同一个mysql服务器复制数据库方法mysqldumpold_db-u账户-p密码|mysql-P端口new_db-u账户-p密码不同mysql服务器复制数据库方法mysqldumpold_db-u账户-p密码|m......