1.Oracle的执行计划
执行计划:描述一条语句在oracle中的执行过程或访问路径的描述,即就是对一个查询任务,做出一个怎样去完成任务的详细方法
如果要分析某条sql的性能问题,通常我们要先看sql的执行计划,看看sql的每一步执行是否存在问题,通过执行计划定位性能问题,定位后就通过建立索引、修改sql等解决问题。
2.怎样查看执行计划?
set autotrace trace exp; // 只显示执行计划 set autotrace trace exp stat //既显示执行计划又会显示统计信息 set autotrace off //关闭显示执行或者统计信息
SQL> set autotrace trace exp; SQL> select * from test; Execution Plan ---------------------------------------------------------- Plan hash value: 1357081020 -------------------------------------------------------------------------- | Id | Operation | Name | Rows | Bytes | Cost (%CPU)| Time | -------------------------------------------------------------------------- | 0 | SELECT STATEMENT | | 23305 | 591K| 16 (0)| 00:00:01 | | 1 | TABLE ACCESS FULL| TEST | 23305 | 591K| 16 (0)| 00:00:01 | -------------------------------------------------------------------------- Note ----- - dynamic statistics used: dynamic sampling (level=2)
3.执行顺序
- 执行顺序的原则是:由上至下,从右向左
- 由上至下:在执行计划中一般含有多个节点,相同级别(或并列)的节点,靠上的优先执行,靠下的后执行
- 从右向左:在某个节点下还存在多个子节点,先从最靠右的子节点开始执行。
4.执行计划中字段解释
Operation: 当前操作的内容
Rows:当前操作的Cardinality,oracle估计当前操作的返回结果集
Cost(CPU):Oracle计算出来的一个数值(代价),用于说明sql执行的代价,理论上该值越小越好
Time:oracle估计当前操作的时间
注意:在看执行计划的时候,除了看执行计划本身,还需要看谓词和统计信息,通过整体来判断sql效率。
5.执行计划示例
Plan hash value: 1234051256 ------------------------------------------------------------------------------------------------------ | Id | Operation | Name | Rows | Bytes | Cost (%CPU)| Time | ------------------------------------------------------------------------------------------------------ | 0 | SELECT STATEMENT | | 1 | 530 | 2 (50)| 00:00:01 | | 1 | NESTED LOOPS | | 1 | 530 | 2 (50)| 00:00:01 | | 2 | NESTED LOOPS | | 1 | 530 | 2 (50)| 00:00:01 | | 3 | SORT UNIQUE | | 1 | 265 | 1 (0)| 00:00:01 | | 4 | TABLE ACCESS BY INDEX ROWID BATCHED| T2 | 1 | 265 | 1 (0)| 00:00:01 | |* 5 | INDEX RANGE SCAN | IND_T2_NAME | 1 | | 1 (0)| 00:00:01 | |* 6 | INDEX RANGE SCAN | IND_T1 | 1 | | 0 (0)| 00:00:01 | | 7 | TABLE ACCESS BY INDEX ROWID | T1 | 1 | 265 | 0 (0)| 00:00:01 | ------------------------------------------------------------------------------------------------------ Predicate Information (identified by operation id): --------------------------------------------------- " 5 - access(""NAME""='AA')" " 6 - access(""ID""=""ID"")" Note ----- - dynamic statistics used: dynamic sampling (level=2)
6.检索方式
1.TABLE ACCESS BY … 即描述的是该动作执行时表访问(或者说Oracle访问数据)的方式(非全部): a.TABLE ACCESS FULL(全表扫描): Oracle会读取表中所有的行,并检查每一行是否满足SQL语句中的 Where 限制条件; 全表扫描时可以使用多块读(即一次I/O读取多块数据块)操作,提升吞吐量; 使用建议:数据量太大的表不建议使用全表扫描,除非本身需要取出的数据较多,占到表数据总量的 5% ~ 10% 或以上 b.ABLE ACCESS BY ROWID(通过ROWID的表存取): ROWID是由Oracle自动加在表中每行最后的一列伪列,既然是伪列,就说明表中并不会物理存储ROWID的值; 你可以像使用其它列一样使用它,只是不能对该列的值进行增、删、改操作; 一旦一行数据插入后,则其对应的ROWID在该行的生命周期内是唯一的,即使发生行迁移,该行的ROWID值也不变。 让我们再回到 TABLE ACCESS BY ROWID 来:行的ROWID指出了该行所在的数据文件、数据块以及行在该块中的位置,所以通过ROWID可以快速定位到目标数据上,这也是Oracle中存取单行数据最快的方法; c.TABLE ACCESS BY INDEX SCAN(索引扫描): 在索引块中,既存储每个索引的键值,也存储具有该键值的行的ROWID。 所以索引扫描其实分为两步: Ⅰ:扫描索引得到对应的ROWID Ⅱ:通过ROWID定位到具体的行读取数据 d.TABLE ACCESS BY INDEX ROWID BATCHED: The BATCHED access shown in Step 1 means that the database retrieves a few rowids from the index, and then attempts to access rows in block order to improve the clustering and reduce the number of times that the database must access a block. 这句话的意思是说,该操作是数据库为了从索引中获取一些rowid,接着,试着按照块顺序存取块中的数据行, 以便用来改善聚集效果和减少对一个数据块存取的次数。 官方解释的意思就是这样,但怎么理解呢?之前,当我们通过索引获取的rowid回表获取相应数据行时, 都是读一个rowid回表获取一次相应数据行,然后,再读一个rowid,再回表获取一次相应数据行。。。, 这样一直读取完所有所需数据。当不同rowid对应的数据行存储在一个数据块中时,就可能会发生对 同一表数据块的多次读取,当一个索引的聚集因子比较低时,这也是一个必然结果,从而浪费了系统 资源。Oracle 12c中该新特性,通过对rowid对应的数据块号进行排序,然后回表读取相应数据行, 从而避免了对同一表数据块的多次重复读取,从而改善了SQL语句的性能,降低了资源消耗。 该特性通过隐藏参数“_optimizer_batch_table_access_by_rowid”控制,默认值为true,即为开启。 ----------------索引扫描延伸------------------- 索引扫描又分五种: (a)INDEX UNIQUE SCAN(索引唯一扫描) 针对唯一性索引(UNIQUE INDEX)的扫描,每次至多只返回一条记录; 表中某字段存在 UNIQUE、PRIMARY KEY 约束时,Oracle常实现唯一性扫描; (b)INDEX RANGE SCAN(索引范围扫描) 使用一个索引存取多行数据; 发生索引范围扫描的三种情况: 在唯一索引列(unique索引)上使用了范围操作符(如:> < <> >= <= between) 在组合索引上,只使用部分列进行查询(查询时必须包含前导列,否则会走全表扫描) 对非唯一索引列(非unique)上进行的任何查询 (c)INDEX FULL SCAN(索引全扫描) 进行全索引扫描时,查询出的数据都必须从索引中可以直接得到 (注意全索引扫描只有在CBO模式下才有效) (d)INDEX FAST FULL SCAN(索引快速扫描) 扫描索引中的所有的数据块,与 INDEX FULL SCAN 类似,但是一个显著的区别是它不对 查询出的数据进行排序(即数据不是以排序顺序被返回) (e)INDEX SKIP SCAN(索引跳跃扫描) Oracle 9i后提供,有时候复合索引的前导列(索引包含的第一列)没有在查询语句中出现, oralce也会使用该复合索引,这时候就使用的INDEX SKIP SCAN;什么时候会触发 INDEX SKIP SCAN 呢? 前提条件:表有一个复合索引,且在查询时有除了前导列(索引中第一列)外的其他列作 为条件,并且优化器模式为CBO时当Oracle发现前导列的唯一值个数很少时,会将每个唯 一值都作为常规扫描的入口,在此基础上做一次查找,最后合并这些查询; 例如: 假设表emp有ename(雇员名称)、job(职位名)、sex(性别)三个字段,并且建立 了如 create index idx_emp on emp (sex, ename, job) 的复合索引;因为性别只有 '男' 和 '女' 两个值,所以为了提高索引的利用率,Oracle可将这个复合索引拆成 ('男', ename, job),('女', ename, job) 这两个复合索引;当查询 select * from emp where job = 'Programmer' 时,该查询发出后:Oracle先进入sex为'男'的入口,这时候使用到了 ('男', ename, job) 这条复合索引,查找 job = 'Programmer' 的条目;再进入sex为'女'的入口,这时候使用到了 ('女', ename, job) 这条复合索引,查找 job = 'Programmer' 的条目; 最后合并查询到的来自两个入口的结果集。 ----------------分区表扫描方式----------------------- PARTITION RANGE ALL 扫描所有分区 PARTITION RANGE ITERATOR 扫描部分分区 PARTITION RANGE SINGLE 扫描单个分区
7.连接方式
注:这里将首先存取的表称作 row source 1,将之后参与连接的表称作 row source 2
(1)SORT MERGE JOIN(排序-合并连接) 假设有查询:select a.name, b.name from table_A a join table_B b on (a.id = b.id) 内部连接过程: a) 生成 row source 1 需要的数据,按照连接操作关联列(如示例中的a.id)对这些数据进行排序 b) 生成 row source 2 需要的数据,按照与 a) 中对应的连接操作关联列(b.id)对数据进行排序 c) 两边已排序的行放在一起执行合并操作(对两边的数据集进行扫描并判断是否连接) 延伸: 如果示例中的连接操作关联列 a.id,b.id 之前就已经被排过序了的话,连接速度便可大大提 高,因为排序是很费时间和资源的操作,尤其对于有大量数据的表。故可以考虑在 a.id,b.id 上建立索引让其能预先排好序。不过遗憾的是,由于返回的结果集中包括所有字段,所以通 常的执行计划中,即使连接列存在索引,也不会进入到执行计划中,除非进行一些特定列处 理(如仅仅只查询有索引的列等)。 排序-合并连接的表无驱动顺序,谁在前面都可以; 排序-合并连接适用的连接条件有: < <= = > >= ,不适用的连接条件有: <> like (2)NESTED LOOPS(嵌套循环) JOIN 关键字用于将两张表作连接,一次只能连接两张表,JOIN 操作的各步骤一般是串行的(在读取做连接的两张表的数据时可以并行读取); 表(row source)之间的连接顺序对于查询效率有很大的影响,对首先存取的表(驱动表)先应用某些限制条件(Where过滤条件)以得到一个较小的row source,可以使得连接效率提高。 -------------------------延伸阅读:驱动表(Driving Table)与匹配表(Probed Table)------------------------- 驱动表(Driving Table): 表连接时首先存取的表,又称外层表(Outer Table),这个概念用于 NESTED LOOPS(嵌套循环) 与 HASH JOIN(哈希连接)中; 如果驱动表返回较多的行数据,则对所有的后续操作有负面影响,故一般选择小表(应用Where限制条件后返回较少行数的表)作为驱动表。 匹配表(Probed Table): 又称为内层表(Inner Table),从驱动表获取一行具体数据后,会到该表中寻找符合连接条件的行。故该表一般为大表(应用Where限制条件后返回较多行数的表)。 内部连接过程: a) 取出 row source 1 的 row 1(第一行数据),遍历 row source 2 的所有行并检查是否有匹配的,取出匹配的行放入结果集中 b) 取出 row source 1 的 row 2(第二行数据),遍历 row source 2 的所有行并检查是否有匹配的,取出匹配的行放入结果集中 c) 若 row source 1 (即驱动表)中返回了 N 行数据,则 row source 2 也相应的会被全表遍历 N 次。 因为 row source 1 的每一行都会去匹配 row source 2 的所有行,所以当 row source 1 返回的行数尽可能少并且 能高效访问 row source 2(如建立适当的索引)时,效率较高。 延伸: 嵌套循环的表有驱动顺序,注意选择合适的驱动表。嵌套循环连接有一个其他连接方式没有的好处是: 可以先返回已经连接的行,而不必等所有的连接操作处理完才返回数据,这样可以实现快速响应。 应尽可能使用限制条件(Where过滤条件)使驱动表(row source 1)返回的行数尽可能少,同时在 匹配表(row source 2)的连接操作关联列上建立唯一索引(UNIQUE INDEX)或是选择性较好的 非唯一索引,此时嵌套循环连接的执行效率会变得很高。若驱动表返回的行数较多,即使匹配表连接 操作关联列上存在索引,连接效率也不会很高。 (3)HASH JOIN(哈希连接) 哈希连接只适用于等值连接(即连接条件为 = ) HASH JOIN对两个表做连接时并不一定是都进行全表扫描,其并不限制表访问方式; 内部连接过程简述: a) 取出 row source 1(驱动表,在HASH JOIN中又称为Build Table) 的数据集,然后将其构建成内存中的一个 Hash Table(Hash函数的Hash KEY就是连接操作关联列),创建Hash位图(bitmap) b) 取出 row source 2(匹配表)的数据集,对其中的每一条数据的连接操作关联列使用相同的Hash函数并找到对应的 a) 里的数据在 Hash Table 中的位置,在该位置上检查能否找到匹配的数据 ----------------延伸阅读:Hash Table相关---------------- 来自Wiki的解释:In computing, a hash table (hash map) is a data structure used to implement an associative array, a structure that can map keys to values. A hash table uses a hash function to compute an index into an array of buckets or slots, from which the desired value can be found.散列(hash)技术:在记录的存储位置和记录具有的 关键字key之间建立一个对应关系 f ,使得输入key后,可以得到对应的存储位置 f(key),这个对应关系 f 就是散列 (哈希)函数; 采用散列技术将记录存储在一块连续的存储空间中,这块连续的存储空间就是散列表(哈希表); 不同的key经同一散列函数散列后得到的散列值理论上应该不同,但是实际中有可能相同,相同时即是发生了散列 (哈希)冲突,解决散列冲突的办法有很多,比如HashMap中就是用链地址法来解决哈希冲突; 哈希表是一种面向查找的数据结构,在输入给定值后查找给定值对应的记录在表中的位置以获取特定记录这个过程的 速度很快。 -------------------------------------------------------- HASH JOIN的三种模式: a.OPTIMAL HASH JOIN OPTIMAL 模式是从驱动表(也称Build Table)上获取的结果集比较小,可以把根据结果集构建的整个 Hash Table都建立在用户可以使用的内存区域里。 连接过程简述: Ⅰ:首先对Build Table内各行数据的连接操作关联列使用Hash函数,把Build Table的结果集构建成内存中 的Hash Table。如图所示,可以把Hash Table看作内存中的一块大的方形区域,里面有很多的小格 子,Build Table里的数据就分散分布在这些小格子中,而这些小格子就是Hash Bucket(见上面Wiki的 定义)。 Ⅱ:开始读取匹配表(Probed Table)的数据,对其中每行数据的连接操作关联列都使用同上的Hash函 数,定位Build Table里使用Hash函数后具有相同值数据所在的Hash Bucket。 Ⅲ:定位到具体的Hash Bucket后,先检查Bucket里是否有数据,没有的话就马上丢掉匹配表 (Probed Table)的这一行。如果里面有数据,则继续检查里面的数据(驱动表的数据)是否和匹配表 的数据相匹配。 b.ONEPASS HASH JOIN 从驱动表(也称Build Table)上获取的结果集较大,无法将根据结果集构建的Hash Table全部放入内存中时, 会使用 ONEPASS 模式。 连接过程简述: Ⅰ:对Build Table内各行数据的连接操作关联列使用Hash函数,根据Build Table的结果集构建Hash Table 后,由于内存无法放下所有的Hash Table内容,将导致有的Hash Bucket放在内存里,有的Hash Bucket放 在磁盘上,无论放在内存里还是磁盘里,Oracle都使用一个Bitmap结构来反映这些Hash Bucket的状态 (包括其位置和是否有数据)。 Ⅱ:读取匹配表数据并对每行的连接操作关联列使用同上的Hash函数,定位Bitmap上Build Table里使用 Hash函数后具有相同值数据所在的Bucket。如果该Bucket为空,则丢弃匹配表的这条数据。如果不为空, 则需要看该Bucket是在内存里还是在磁盘上。 如果在内存中,就直接访问这个Bucket并检查其中的数据是 否匹配,有匹配的话就返回这条查询结果。如果在磁盘上,就先把这条待匹配数据放到一边,将其先暂存 在内存里,等以后积累了一定量的这样的待匹配数据后,再批量的把这些数据写入到磁盘上(上图中的 Dump probe partitions to disk)。 Ⅲ:当把匹配表完整的扫描了一遍后,可能已经返回了一部分匹配的数据了。接下来还有Hash Table中 一部分在磁盘上的Hash Bucket数据以及匹配表中部分被写入到磁盘上的待匹配数据未处理,现在Oracle会 把磁盘上的这两部分数据重新匹配一次,然后返回最终的查询结果。 c.MULTIPASS HASH JOIN 当内存特别小或者相对而言Hash Table的数据特别大时,会使用 MULTIPASS 模式。MULTIPASS会多次读 取磁盘数据,应尽量避免使用该模式。 (4)CARTESIAN PRODUCT(笛卡尔积) 不做描述,尽量避免笛卡尔积的发生。
参考:https://www.likecs.com/show-936369.html
https://www.cnblogs.com/jianggc/articles/2029854.html
标签:00,Hash,计划,Oracle,Table,执行,数据,连接,row From: https://www.cnblogs.com/zmc60/p/17023630.html