MySQL索引的数据结构

一：索引概述

MySQL官方对索引的定义为：索引（Index）是帮助MySQL高效获取数据的数据结构。
索引的本质：索引是数据结构。可以简单理解为“排好序的快速查找数据结构”，满足特定查找算法。这些数据结构以某种方式指向数据，这样就可以在这些数据结构的基础上实现高级查找算法。

1：索引优缺点

说明：索引是存储引擎用于快速找到数据记录的一种数据结构,就好比一本教课书的目录部分,通过目录中找到对应文章的页码，便可快速定位到需
     要的文章。MySQL中也是一样的道理，进行数据查找时，首先查看查询条件是否命中某条索引，符合则通过索引查找相关数据,如果不符合
     则需要全表扫描，即需要一条一条地查找记录，直到找到与条件符合的记录。
优点：
    ①：提高数据检索的效率，降低`数据库的IO成本`，这是创建索引最主要的原因。
    ②：通过创建唯一索引，可以保证数据库表中每一行`数据的唯一性`。
    ③：可以`加速表和表之间的连接`。对于有依赖关系的子表和父表联合查询时，可以提高查询速度。
    ④：在使用分组和排序子句进行数据查询时，可以显著`减少查询中分组和排序的时间`，降低了CPU的消耗。
缺点：
    ①：创建索引和维护索引要`耗费时间`，并且随着数据量的增加，所耗费的时间也会增加。
    ②：索引需要占`磁盘空间`，除了数据表占数据空间之外，每一个索引还要占一定的物理空间`存储在磁盘上`，
       如果有大量的索引，索引文件就可能比数据文件更快达到最大文件尺寸。
    ③：虽然索引大大提高了查询速度，同时却会`降低更新表的速度`。
       当对表中的数据进行增加、删除和修改的时候，索引也要动态地维护，这样就降低了数据的维护速度。

二：InnoDB引擎中索引推演

　　我们要知道在InnoDB中使用的默认索引是B+Tree，但是上来直接介绍则会显得枯燥，所以按照顺序慢慢推演到B+Tree

1：未使用索引的查询

如下精确查找语句例子（其中id为唯一值主键）：
    假设表中数据：
        +--------+------------+--------+
        | sid    | sname      | sage   |
        +--------+------------+--------+
        |     34 | 张悌斯      |     22 |
        |     77 | 时党舒      |     23 |
        |     5  | 萧百徽      |     18 |
        |     91 | 葛星申      |     18 |
        |     22 | 池樵霆      |     23 |
        |     89 | 路党拓      |     22 |
        |     23 | 魏沁霭      |     23 |
        +--------+------------+--------+
    SELECT [列名列表] FROM 表名 WHERE 列名 = xxx;
Ⅰ：在一个页中查询：
    假设目前表中的记录比较少，所有的记录都可以被存放在一个页（后面说明）中，在查找记录的时候可以根据搜索条件的不同分为两种情况
    ①：以主键为搜索条件：
        可以在页目录中使用`二分法`快速定位到对应的槽，然后再遍历该槽对应分组中的记录即可快速找到指定的记录。
        从图中可以看出把sid主键转换为了一个二叉树，这样我们假设查询sid为91的数据就会变得特别方便，只要遍历3次即可，然后
        根据对应主键找到对应数据行

    ②：以其它列作为搜索条件：
        因为在数据页中并没有对非主键建立所谓的页目录，所以我们无法通过二分法快速定位相应的槽。这种情况下只能从最小记录开始
        依次遍历单链表中的每条记录，然后对比每条记录是不是符合搜索条件。很显然，这种查找的效率是非常低的。可以说是全文检索
Ⅱ：在多个页中查询:
    大部分情况下我们表中存放的记录都是非常多的，需要好多的数据页来存储这些记录。在很多页中查找记录的话可以分为两个步骤：
    ①：定位到记录所在的页。
    ②：从所在的页内查找相应的记录。
    在没有索引的情况下，不论是根据主键列或者其它列的值进行查找，由于我们并不能快速的定位到记录所在的页，所以只能`从第一
    个页`沿着`双向链表`一直往下找，在每一个页中根据我们上面的查找方式去查找指定的记录。因为要遍历所有的数据页，所以这种方
    式显然是`超级耗时`的。
    如上图是一页记录，那么当有许多页则页需要依次都要想那样遍历，页与页直接是存在双向链表，可以在当前一页知道下一页在哪

2：使用索引方案

Ⅰ：创建基本表（为后面的演变说明）
    CREATE DATABASE IF NOT EXISTS demo_test;
    CREATE TABLE IF NOT EXISTS demo_test.index_demo(
        id INT PRIMARY KEY COMMENT '主键ID',
        c2 INT COMMENT '测试字段2',
        c3 CHAR(1) COMMENT '测试字段3'
    )ENGINE=InnoDB ROW_FORMAT = Compact;
    说明：index_demo表中的 id 字段为INT类型的主键，c2为INT类型的普通列，c3为CHAR类型的普通列；
    这个表使用 Compact 行格式来实际存储记录的。这里我们简化了index_demo表的行格式示意图：

    各个记录字段说明：
        ①：record_type：记录头信息的一项属性，表示记录的类型，0 表示普通记录、2 表示最小记录、3 表示最大记录、 1后面说
        ②：next_record：记录头信息的一项属性，表示下一条地址相对于本条记录的地址偏移量，我们用箭头来表明下一条记录是谁。
        ③：各个列的值：这里只记录在 index_demo 表中的三个列，分别是 id 、 c2 和 c3 。
        ④：其它信息：除了上述3种信息以外的所有信息，包括其他隐藏列的值以及记录的额外信息（具体InnoDB引擎结构说明）。
    把表中的记录放到页里示意图就是：

Ⅱ：一个简单的索引设计方案
    我们在根据某个搜索条件查找一些记录时为什么要遍历所有的数据页呢（生产环境上数据往往有特别多的页）？因为各个页中的记录并没有
    规律，我们并不知道我们的搜索条件匹配哪些页中的记录，所以不得不依次遍历所有的数据页。所以如果们 想快速的定位到需要查找的记
    录在哪些数据页中该咋办？我们可以为快速定位记录所在的数据页而建立一个目录 ，建这个目录必须完成下边这些事：
        ①：下一页的数据中，用户记录的主键值必须大于上一个页中用户记录的主键值。
        ②：给所以页建立一个目录项（查询指定数据时，防止遍历全部页）
            测试数据并按照①和②构建索引设计方案：
            INSERT INTO index_demo VALUES(1,4,'u'),(3,9,'d'),(4,4,'a'),(5,3,'y'),(8,7,'a'),(10,4,'o'),
            (12,7,'d'),(20,2,'e'),(200,9,'x'),(209,5,'b'),(220,6,'i'),(300,8,'a');

        以 页28 为例，它对应 目录项2 ，这个目录项中包含着该页的页号 28 以及该页中用户记录的最小主键值 5 。我们只需要把几个
        目录项在物理存储器上连续存储（比如：数组），就可以实现根据主键值快速查找某条记录的功能了。
        比如：查找主键值为 20 的记录，具体查找过程分两步：
            1. 先从目录项中根据 二分法 快速确定出主键值为 20 的记录在 目录项3 中（因为12<20<209），它对应的页是 页9
            2. 再根据前边说的在页中查找记录的方式去 页9 中定位具体的记录。
    至此，针对数据页做的简易目录就搞定了。这个目录有一个别名，称为索引。

3：InnoDB中索引方案之B+Tree

Ⅰ：迭代1次：目录项记录的页
    我们把上边索引设计方案使用到的目录项放到数据页中的样子就是这样：

    从图中可以看出来，我们新分配了一个编号为30的页来专门存储目录项记录。这里再次强调目录项记录和普通的用户记录的区别
    不同点：
        ①：目录项记录的record_type值是1，而普通用户记录的record_type值是0。
        ②：目录项记录只有主键值和页的编号两个列，而普通的用户记录的列是用户自己定义的，可能包含很多列，另外还有InnoDB自
            己添加的隐藏列。
        ③：了解：记录头信息里还有一个叫min_rec_mask的属性，只有在存储目录项记录的页中的主键值最小的目录项记录的
            min_rec_mask值为1 ，其他别的记录的 min_rec_mask 值都是 0 。
    相同点：
        ①：两者用的是一样的数据页，都会为主键值生成Page Directory（页目录），从而在按照主键值进行查找时可以使用二分法
            来加快查询速度。
    现在以查找主键为 20 的记录为例，根据某个主键值去查找记录的步骤就可以大致拆分成下边两步：
        1. 先到存储目录项记录的页，也就是页30中通过二分法快速定位到对应目录项，
            因为 12 < 20 <209 ，所以定位到对应的记录所在的页就是页9。
        2. 再到存储用户记录的页9中根据 二分法 快速定位到主键值为 20 的用户记录。

Ⅱ：迭代2次，多个目录项记录的页

    从图中可以看出，我们插入了一条主键值为320的用户记录之后需要两个新的数据页：
        ①：为存储该用户记录而新生成了 页31 。
        ②：因为原先存储目录项记录的页30的容量已满（我们前边假设只能存储4条目录项记录），
            所以不得不需要一个新的页32来存放 页31 对应的目录项。
    现在因为存储目录项记录的页不止一个，所以我们想根据主键值查找一条用户记录大致需要3个步骤，以查找主键值为20的记录为例：
        ①：确定目录项记录页：
            我们现在的存储目录项记录的页有两个，即 页30 和 页32 ，又因为页30表示的目录项的主键值的范围是 [1, 320)，
            页32表示的目录项的主键值不小于 320 ，所以主键值为 20 的记录对应的目录项记录在页30中。
        ②：通过目录项记录页确定用户记录真实所在的页。
            在一个存储目录项记录的页中通过主键值定位一条目录项记录的方式说过了。
        ③：在真实存储用户记录的页中定位到具体的记录。

Ⅲ：迭代3次，目录项记录页的目录页

    如图，我们生成了一个存储更高级目录项的页33，这个页中的两条记录分别代表页30和页32，如果用户记录的主键值在[1, 320)之间，
    则到页30中查找更详细的目录项记录，如果主键值不小于320的话，就到页32中查找更详细的目录项记录。
Ⅳ：B+Tree数据结构：

三：常见索引概念

　　在InnoDB中索引按照物理实现方式，索引可以分为 2 种：聚簇（聚集）和非聚簇（非聚集）索引。我们也把非聚集索引称为二级索引或者辅助索引。

1：聚簇索引

特点：
    Ⅰ：使用记录主键值的大小进行记录和页的排序，这包括三个方面的含义：
        ①：页内的记录是按照主键的大小顺序排成一个单向链表。
        ②：各个存放用户记录的页也是根据页中用户记录的主键大小顺序排成一个双向链表。
        ③：存放目录项记录的页分为不同的层次，在同一层次中的页也是根据页中目录项记录的主键大小顺序排成一个双向链表。
    Ⅱ：B+Tree的叶子节点存储的是完整的用户记录。
        所谓完整的用户记录，就是指这个记录中存储了所有列的值（包括隐藏列）。
优点：
    ①：数据访问更快，因为聚簇索引将索引和数据保存在同一个B+Tree中，因此从聚簇索引中获取数据比非聚簇索引更快
    ②：聚簇索引对于主键的排序查找和范围查找速度非常快
    ③：按照聚簇索引排列顺序，查询显示一定范围数据的时候，由于数据都是紧密相连，数据库不用从多个数据块中提取数据，
        所以节省了大量的io操作 。
缺点：
    ①：插入速度严重依赖于插入顺序 ，按照主键的顺序插入是最快的方式，否则将会出现页分裂，严重影响性能。因此，对于InnoDB表，
        我们一般都会定义一个自增的ID列为主键
    ②：更新主键的代价很高 ，因为将会导致被更新的行移动。因此，对于InnoDB表，我们一般定义主键为不可更新
    ③：二级索引访问需要两次索引查找 ，第一次找到主键值，第二次根据主键值找到行数据

2：二级索引（辅助索引，非聚簇索引）

假设我们以这个c2列大小排序来生成一个B+Tree(非聚簇索引)；它只能确定我们要查找记录的主键值所以如果我们想根据c2列的值查找到完整的
用户记录的话，仍然需要到 聚簇索引 中再查一遍，这个过程称为 回表 。也就是根据c2列的值查询一条完整的用户记录需要使用到 2 棵B+树！

小结:聚簇索引与非聚簇索引的区别:
　　①：聚簇索引的叶子节点存储的是我们的数据记录，非聚簇索引的叶子节点存储的是数据位置。非聚簇索引不会影响数据表的物理存储顺序
　　②：一个表只能有一个聚簇索引，因为只能有一种排序存储的方式，但可以有多个非聚簇索引，也就是多个索引目录提供数据检索。
　　③：使用聚簇索引的时候，数据的查询效率高，但如果对数据进行插入，删除，更新等操作，效率会比非聚簇索引低。

3：联合索引

我们也可以同时以多个列的大小作为排序规则，也就是同时为多个列建立索引，
    比方说我们想让B+Tree按照 c2和c3列 的大小进行排序，这个包含两层含义：
        ①：先把各个记录和页按照c2列进行排序。
        ②：在记录的c2列相同的情况下，采用c3列进行排序
    注意一点，以c2和c3列的大小为排序规则建立的B+树称为 联合索引 ，本质上也是一个二级索引。它的意思与分别为c2和c3列分别建立索引
    的表述是不同的，不同点如下：
        ①：建立 联合索引 只会建立如上图一样的1棵B+树。
        ②：为c2和c3列分别建立索引会分别以c2和c3列的大小为排序规则建立2棵B+树。

四：MyISAM中的索引方案

　　我们知道在MyISAM里面创建一个表会出现3个对应的文件，一个是.frm文件存储表结构，一个是.MYD文件（D代表Data），是MyISAM的数据文件，存放数据记录，一个是.MYI文件（I代表Index），是MyISAM的索引文件，存放索引；所以说在MyISAM里面，结构、索引、数据是三个独立的文件；

如果我们在Col2上建立一个二级索引，则此索引的结构如下图所示：

五：MyISAM和InnoDB的区别

MyISAM的索引方式都是“非聚簇”的，与InnoDB包含1个聚簇索引是不同的。小结两种引擎中索引的区别：
    ①：在InnoDB存储引擎中，我们只需要根据主键值对聚簇索引进行一次查找就能找到对应的记录，而在MyISAM中却需要进行一次回表操作，
        意味着MyISAM中建立的索引相当于全部都是二级索引。
    ②：InnoDB的数据文件本身就是索引文件，而MyISAM索引文件和数据文件是分离的，索引文件仅保存数据记录的地址。
    ③：InnoDB的非聚簇索引data域存储相应记录主键的值，而MyISAM索引记录的是地址。换句话说，InnoDB的所有非聚簇索引都引用主键
        作为data域。
    ④：MyISAM回表操作十分快速，因为是拿着地址偏移量直接到文件中取数据的，反观InnoDB是通过获取主键之后再去聚簇索引里找记录，
        虽然说也不慢，但还是比不上直接用地址去访问。
    ⑤：InnoDB要求表必须有主键(MyISAM可以没有)。如果没有显式指定，则MySQL系统会自动选择一个可以非空且唯一标识数据记录的列
    作为主键。如果不存在这种列，则MySQL自动为InnoDB表生成一个隐含字段作为主键，这个字段长度为6个字节，类型为长整型。

标签：记录,主键,索引,查找,键值,MySQL,数据结构,目录
From： https://www.cnblogs.com/antLaddie/p/17070384.html