首页 > 数据库 >mysql索引和基本概念

mysql索引和基本概念

时间:2023-06-21 15:11:56浏览次数:68  
标签:存储 基本概念 索引 查找 二叉树 mysql 数据 节点

1. mysql索引和基本概念

目录

转自作者:熬夜不加班
链接:https://www.jianshu.com/p/206b1db512f0

1.1. 声明

本文所述的各种数据结构(二叉树等),均不考虑重复值的情况,本文简述各种数据结构的区别仅仅只是为了理解MySQL索引的需要而做的铺垫。

1.2. 什么是索引

(树形结构的,存储了磁盘上文件地址和数据(以文件的形式存储在磁盘中,所以每一条数据都有一个文件地址)的一种数据结构)
提起索引,大家都知道,建立索引可以让数据库查询更快,那么索引究竟是什么?我想这就不是每个人都能说得出来了。 索引,是数据库管理系统中一个排序的数据结构,并用以协助快速查询、 更新数据库表中数据。 是的,索引是一种数据结构,但是那么多的数据结构中为何MySQL要选择B+树呢?接下来就让我们一起来了解下B+树相对于其他数据结构有何独特之处!

首先让我们自己想一想,如果让我们去设计,我们会怎么去存储?我想大部分人想到就是用链表或者数组去存储数据,然后再按默认的顺序排好,再去查找,而一个排好顺序的链表我们就可以通过二分查找法来高效查询。

二分查找也称折半查找,是一种效率较高的查找方法。比如有1-10十个数,我们要找到8,先从中间开始找5,然后发现8比5大,可以把5左边的数去掉,剩下6-10,再从中间开始找,依次类推,直到找到8为止。但是这种查找法有一个前提是数据必须是有序的,而且这种属于链表式的存储,我们一但要插入或者修改一个数据,可能会伴随着大量的下标移动,比如我们把1-10放在数组里面,下标分别对应0-9,然后现在要插入一个0,为了保证有序,0必须排在第一位,那么1-10所有的数据下标都要往后移动一位,这种就有点大动干戈了,所以为了解决这个问题,我们就有了二叉树。

1.4. 二叉查找树(BST)

二叉查找树简称二叉树(BST),英文全称:Binary Search Tree,这是一种什么样的数据结构呢?请看下图
webp
在上面这棵树中,我们要找到8,先从根节点6开始比较,发现8比6大,就往右边走,就可以找到8

1.4.1. 二叉树的特点

二叉树有两个特点: 1、左子树所有的节点都小于父节点 2、右子树所有的节点都大于父节点

1.4.2. 二叉树存在的问题

二叉树有一个严重的问题,那就是它的查找耗时是和这棵树的深度相关的,在最坏的情况下时间复杂度会退化成 O(n)。 如下图:
webp
上面就是一种极端情况下的二叉树,会退化成线性链表,这种如果要找到最后一个数6,就要从1开始遍历完整棵树,效率就会非常低。那么有没有一种相对平衡一点,不要出现这种极端情况的数据结构呢,所以就有了平衡二叉树。

1.5. 平衡二叉树(AVL Tree)

平衡二叉树,英文全名叫做 Balanced binary search trees,简称AVL树,这个AVL并不是英文名的简称,而是发明者(G. M. Adelson-Velsky和E. M. Landis)两个人的人名缩写,请看下图一个平衡二叉树示例:
webp

上图中也是从1开始插入6,如果是二叉树就会变成一种线性结构,但是平衡二叉树就会通过左旋和右旋操作,最终会生成上图所示的结构.

1.5.1. 平衡二叉树的特点

平衡二叉树相比较二叉树具有一个特点就是:左右子树深度差绝对值不能超过 1,当然,平衡二叉树首先是一颗二叉树,只不过通过左旋和右旋实现左右子树深度差不超过1,避免了二叉树的极端情况的出现。

MySQL为何不选择平衡二叉树
既然平衡二叉树解决了普通二叉树的问题,那么mysql为何不选择平衡二叉树作为索引呢?

1.6. 索引需要存储什么

让我们想一想,如果我们要把索引存起来,那么应该存哪些信息呢,它应该存储三块信息:

索引的值:就是表里面索引列对应的值。
数据的磁盘地址(通过磁盘地址找到当前数据)或者直接存储整条数据。
子节点的引用:我们需要从根节点往下走,所以需要知道左右子节点的地址。 根据这三点,可以有如下大致的一个简单的结构图:

webp
上图中数字表示的是索引的值,0x开头的表示磁盘地址,根节点中存了左右节点的引用。

1.7. B树的特点

相比较AVL树,B树一个磁盘上可以存多个关键字(值),而且有一个特点就是:
分叉数(路数)永远比关键字数多1。
我们可以画出如下简图(下图中只画了3路,即两个关键字,实际取决于一页能存储多少个关键字):
webp

从上图可以很明显的看出,同样高度的树,B树能存的数据远远大于平衡二叉树。

1.7.1. B树是如何查找数据的

以上图为例,假如我们要找key=32这个数字,首先获取到根节点,发现18小于key,所以往右边走,获取到右边的数据,54和76,这时候遵循以下原则:

key<54,命中最左边分叉;
key=54,直接命中,返回数据;
54<key<76,走中间的一个分叉;
key=76,直接命中,返回数据;
key>76,命中右边分支; 这里因为key=32,所以走得是第1条,命中左边分支,这时候再去获取左边分支,获取到32和50,比较发现key=32,命中,返回数据。

从上面我们可以看出B树效率相对于AVL树,在数据量大的情况效率已经提高了很多,那么为什么MySQL还是不选择B树作为索引呢? 那么接下来让我们先看看改良版的B+树,然后再下结论吧!

1.8. B+树

B+树由B树改良而来,属于改良版的多路平衡查找树。 首先让我们来看看B+树到底长什么样呢:
webp

对比B+树,我们可以发现一个很明显的区别就是叶子节点有一个箭头指引而且从左到右是有序的。
InnoDB中使用的B+树相比较于传统B+树,改进之后的B+树具有以下特点

1.8.1. InnoDB中B+树的特点

它的关键字的数量是跟路数相等的。
B+树的根节点和枝节点中都不会存储数据,只有叶子节点才存储数据。而搜索到关键字不会直接返回,会到最后一层的叶子节点。
B+树的每个叶子节点增加了一个指向相邻叶子节点的指针,它的最后一个数据会指向下一个叶子节点的第一个数据,形成了一个有序链表的结构。
它是根据左闭右开的区间来检索数据的 按照B+树的特点,我们可以画出一个存储数据的简图,如下:

webp

1.8.2. B+树是如何查找数据的

假设我们现在要找一个key=66,遵循如下步骤:
1、获取到根节点,依据左闭右开有如下区间:[1,28),[28,66),[66,+∞),命中了最后一个区间,虽然66在根节点,但是因为根节点不存储数据,所以是会往下继续搜索右边的节点
2、获取到右边节点,依据左闭右开有如下区间:[66,78),[78,89),[89,+∞),命中左边的范围。
3、获取到第三排倒数第二块磁盘,找到66,返回数据。

1.8.3. B+树相对于B树的改进点

B+树是由B树改进而来的,所以B树能解决的问题,B+树都能解决,那么B+树能解决哪些B树所不能解决的问题呢?
1、扫库、扫表能力更强:如果我们要对表进行全表扫描,只需要遍历叶子节点就可以 了,不需要遍历整棵B+Tree
2、B+Tree 的磁盘读写能力相对于 B Tree 来说更强:根节点和枝节点不保存数据区, 所以一个节点可以保存更多的关键字,一次磁盘加载(IO操作)能获取到相对更多的关键字。
3、天然具备排序能力:叶子节点上有下一个数据区的指针,数据形成了链表。
4、效率稳定:B+Tree 永远是在叶子节点拿到数据,所以 IO 次数是稳定的,而B树运气好根节点就拿到数据,运气不好就要到叶子节点才能拿到数据,所花费的时间会有差异。

总结
本文简述了从二叉树到B+树之前的演进过程,并大致讲解了各种数据结构之间的差异以及MySQL为何最终会选择了B+树来作为索引。

标签:存储,基本概念,索引,查找,二叉树,mysql,数据,节点
From: https://www.cnblogs.com/xulinforDB/p/17496261.html

相关文章

  • mysql 密码插件 validate_password
    MySQL密码增强插件2016-07-0110:02pursuer.chen阅读(668)评论(0)编辑[收藏](javascript:void(0))介绍以前没有太注意MySQL密码安全策略的配置方法,只是人为了将密码设为复杂密码,但是没有找到配置的方法,今天姜承尧的微信公众号正好发布了一篇关于这个的文章,所以在这里也顺......
  • MySQL笔记整理
    SELECT0+'123.00';SELECT0+'123.0qwe';SELECT0+'qwe1';SELECT0+null;SELECT'123.00'/4;SELECT'123.0qwe'/4;SELECT'qwe1'/4;SELECT'1qwe'/4;SELECTnull/4;SELECTconvert(......
  • MySQL自带的性能压力测试工具mysqlslap
    1.MySQL自带的性能压力测试工具mysqlslap目录1.MySQL自带的性能压力测试工具mysqlslap1.1.概述1.2.常用参数[options]详解1.3.测试范例:1.3.1.实例11.3.2.实例21.3.3.实例3(自定义sql语句)1.3.4.实例4(指定sql脚本)1.3.5.实际测试中的复杂情况。(指定表字段)1.4.测试结......
  • mysql proxy实现读写分离
    Mysql-proxy实现读写分离目录Mysql-proxy实现读写分离环境说明Mysql-proxy简介部署mysql-proxy服务读写分离测试总结环境说明Mysql-proxy简介mysql-proxy是官方提供的mysql中间件产品可以实现负载平衡,读写分离,failover等MySQLProxy就是这么一个中间层代理,简单的说,MySQLPro......
  • MySQL性能压测工具SysBench详解(非常详细)
    MySQL性能压测工具SysBench详解(非常详细)概述掌握数据库的性能情况是非常必要的。本文介绍了MySQL基准测试的基本概念,以及使用sysbench对MySQL进行基准测试的详细方法;基准测试与压力测试简介1、什么是基准测试数据库的基准测试是对数据库的性能指标进行定量的、可复现的、可......
  • mysql的用户和权限管理
    1.mysql用户和权限管理目录1.mysql用户和权限管理1.1.常用授权语句1.1.1.5.7以及以前的版本1.1.1.1.存储过程权限管理1.1.2.8.0的版本:1.1.3.删除用户及权限1.1.4.修改1.1.4.1.修改密码1.1.4.2.修改用户账号名称1.1.5.回收权限1.1.6.grant授权和直接操作权限表的区别......
  • Linux MySQL 5.7二进制 小版本升级
    LinuxMySQL5.7二进制小版本升级LinuxMySQL5.7二进制小版本升级MySQL5.7二进制安装在Unix/Linux上升级时,分为就地和逻辑升级方法。1就地升级就地升级包括关闭旧的MySQL服务器,用新的MySQL服务器替换旧的MySQL二进制文件或软件包,在现有数据目录上重新启动MySQL,以及运行mys......
  • 记一次mysql小版本升级
    记一次mysql小版本升级最近对后端组件进行安全扫描时,发现了一些轻微漏洞,为了避免后续部署后安全扫描出现问题,决定对mysql做一次版本升级。升级的原则是对mysql的二进制文件进行升级,若有主备节点,先升级从节点升级完成后将其提为主节点,然后再升级原主节点。升级步骤:mysql当前版本......
  • mysql的备份恢复之-mysqldump
    1.目录目录1.目录2.一.背景2.1.分类2.2.基本实现原理3.非一致性备份和一致性备份原理3.1.非一致性备份原理:3.2.一致性备份原理:4.常用备份命令:4.1.建议生产上使用的备份命令:4.2.常用备份选项:4.3.参数详解:4.4.导入4.5.导入时记录日志到文件中2.一.背景2.1.分类......
  • mysql的备份恢复之percona-xtrabackup物理备份
    1.mysql的备份恢复之percona-xtrabackup物理备份目录1.mysql的备份恢复之percona-xtrabackup物理备份1.1.背景1.2.Xtrabackup是什么?1.3.使用场景1.4.Xtrabackup可以做什么?1.5.Xtrabackup版本及下载地址1.6.PerconaXtraBackup工作流程1.7.Xtrabackup使用说明文档1.8.X......