首页 > 其他分享 >04_深入浅出索引(上)

04_深入浅出索引(上)

时间:2023-06-03 22:23:11浏览次数:42  
标签:04 数据库 深入浅出 主键 索引 节点 查询 ID

04_深入浅出索引(上)

索引的概念

索引的概念:索引是一种数据结构,用于提高数据库查询效率。就像一本书的目录一样,索引可以帮助数据库在大量数据中快速找到需要的数据,减少查询时间和资源消耗。

除了提高查询效率,索引还可以帮助数据库实现唯一性约束、主键约束和外键约束等数据完整性约束。

例如,在一个用户表中,我们可以使用用户ID作为主键,并在ID列上创建一个唯一索引,以保证每个用户ID都是唯一的。

常见索引模型

常见索引模型:索引模型是指索引的数据结构和组织方式。常见的索引模型有哈希表、有序数组和搜索树等。

哈希表:哈希表是一种将键映射到值的数据结构,它通过哈希函数将键转换为数组的下标,然后将值存储在该下标处。

哈希表适用于等值查询场景,例如在一个存储用户信息的表中,我们可以使用用户ID作为哈希表的键,来快速查找某个用户的信息。

有序数组:有序数组是一种按照元素大小顺序排列的数组,它适用于等值查询和范围查询场景。

例如,在一个按照身份证号排序的用户表中,我们可以使用二分法快速查找某个身份证号对应的用户信息。但是,有序数组的更新成本较高,适用于静态存储引擎

搜索树:搜索树是一种按照元素大小顺序组织的树形结构,它适用于等值查询和范围查询场景。

例如,在一个按照用户ID排序的用户表中,我们可以使用二叉搜索树快速查找某个用户ID对应的用户信息。但是,搜索树的查询效率高,但写入和更新成本高,不适用于大规模数据存储。

扩充例子:在一个电商网站的订单表中,我们可以使用订单ID作为哈希表的键,来快速查找某个订单的信息。在一个按照订单时间排序的订单表中,我们可以使用二分法快速查找某个时间段内的订单信息。在一个按照商品价格排序的商品表中,我们可以使用B树来快速查找某个价格区间内的商品信息。

二叉树虽然是搜索效率最高的,但是实际上大多数的数据库存储却并不使用二叉树,因为索引不仅存在内存中,还要写入磁盘。

为了让查询尽量少地读磁盘,我们需要让查询过程访问尽量少的数据块。因此,我们应该使用“N叉”树来代替二叉树。在“N叉”树中,“N”的大小取决于数据块的大小。

以InnoDB的一个整数字段索引为例,这个“N”大约是1200。当这棵树高为4时,就可以存储1200的3次方个值,这已经达到了17亿。考虑到树根的数据块总是在内存中,一个10亿行的表上一个整数字段的索引,查找一个值最多只需要访问3次磁盘。实际上,树的第二层也有很大概率在内存中,那么访问磁盘的平均次数就更少了。

扩充阐述:在实际的数据库应用中,磁盘I/O是非常耗时的操作。因此,我们需要尽量减少磁盘I/O的次数,以提高数据库的查询效率。为了实现这个目标,数据库存储引擎通常会采用B树、B+树、R树等数据结构来实现索引。这些数据结构都是基于“N叉”树的结构,能够有效地减少磁盘I/O的次数,提高查询效率。

例如,在一个电商网站的商品表中,我们可以使用商品价格作为B+树的键,来快速查找某个价格区间内的商品信息。B+树在叶子节点上保存了所有数据记录的指针,而非像B树那样在每个节点上都保存数据记录,因此能够减少磁盘I/O的次数,提高查询效率。

总结:为了提高数据库的查询效率,我们需要选择合适的索引模型,并采用相应的数据结构来实现索引。在选择数据结构时,需要考虑具体的查询场景和存储引擎特点。常见的索引模型有哈希表、有序数组和搜索树等,而常用的数据结构有B树、B+树、R树等。通过选择合适的索引模型和数据结构,可以有效地提高数据库的查询效率,降低磁盘I/O的次数,从而提升数据库的整体性能。

数据库底层存储的核心就是基于这些数据模型的。每碰到一个新数据库,我们需要先关注它的数据模型,这样才能从理论上分析出这个数据库的适用场景。

B 树和 B+ 树

B树和B+树都是多路搜索树,是一种常用的数据结构,在数据库、文件系统等领域广泛应用。它们不是二叉树,而是多叉树。

B树和B+树的主要区别在于它们的索引结构和叶子节点的存储方式不同。B树的每个节点都包含键值和指向子节点的指针,而B+树的非叶子节点只包含键值和指向子节点的指针,而所有的数据都存储在叶子节点中。

B树的搜索过程比较复杂,因为需要在非叶子节点和叶子节点之间不断切换,而B+树的搜索过程更加简单,因为只需要在叶子节点中进行搜索。此外,B+树的叶子节点是通过链表相连的,可以方便地进行范围查询和遍历。

因此,B+树通常比B树更适合在数据库中使用,因为它能够更快地进行范围查询和遍历。但是,在某些场景下,B树也可能比B+树更适合使用,例如需要快速插入和删除数据的场景。

InnoDB 的索引模型

在InnoDB中,表都是根据主键顺序以索引的形式存放的,这种存储方式的表称为索引组织表。

InnoDB 使用的是 B+ 树索引模型,所以数据都是存储在 B+ 树中的,每一个索引在 InnoDB 里面对应一棵 B+ 树。

索引类型分为主键索引和非主键索引。

  • 主键索引的叶子节点存的是整行数据。在 InnoDB 里,主键索引也被称为聚簇索引(clustered index)。
  • 非主键索引的叶子节点内容是主键的值。在 InnoDB 里,非主键索引也被称为二级索引(secondary index)。

举个例子来说,假设我们有一个学生表,其中主键为学生ID。如果我们要查询学号为1001的学生的所有信息,如果使用主键索引,则只需要搜索ID这棵B+树,而如果使用非主键索引,则需要先搜索学号这棵B+树得到ID的值为1001,再到ID索引树搜索一次,这个过程称为回表。

因此,使用主键索引查询可以减少一次搜索,提高查询效率。

在应用中我们应该尽量使用主键查询,以减少查询时间和提高性能。

但是,在实际使用中,我们也需要根据具体情况来选择使用哪种索引类型。例如,如果我们需要查询学生的所有信息,而不仅仅是学号,那么使用主键索引就无法满足我们的需求,这时候就需要使用非主键索引。

InnoDB的索引模型是数据库中非常重要的一个概念,不同的索引类型在查询效率和使用场景上都有着不同的优缺点。我们需要根据具体需求来选择使用哪种索引类型,以提高数据库的性能和效率。

索引维护

索引维护是数据库中非常重要的一部分,它确保了数据的快速查询和排序。

在B+树中,为了维护索引有序性,在插入新值的时候需要做必要的维护。

这个过程中,当插入的数据页已经满了,就需要进行页分裂操作。这个过程会申请一个新的数据页,并将部分数据挪动过去,影响了性能和数据页的利用率。

不过,有分裂就有合并。当相邻两个页由于删除了数据,利用率很低之后,会将数据页做合并,这个过程可以认为是分裂过程的逆过程。

另外,对于自增主键的使用场景,我们需要分析哪些场景下应该使用自增主键,而哪些场景下不应该。

自增主键的插入数据模式,是递增插入的场景,每次插入一条新记录,都是追加操作,都不涉及到挪动其他记录,也不会触发叶子节点的分裂。

而有业务逻辑的字段做主键,则往往不容易保证有序插入,这样写数据成本相对较高。

此外,从存储空间的角度来看,如果用身份证号等字符串类型的字段做主键,那么每个非主键索引的叶子节点上都是主键的值,占用的空间较大。因此,自增主键往往是更合理的选择。

但是,对于只有一个索引且必须是唯一索引的场景,可以直接将这个索引设置为业务字段做主键,避免每次查询需要搜索两棵树。

假设你在设计一个订单系统,其中包含订单的ID、用户ID、商品ID、数量、价格等信息。如果你需要在该系统中快速查找某个订单的信息,可以在订单ID字段上建立一个唯一索引,这样就可以快速查找到该订单的信息。但是,如果你需要根据用户ID或商品ID等信息进行查询,那么就需要在这些字段上建立索引,以保证查询的速度和效率。

在这种情况下,如果使用自增主键作为主键,可以保证数据的有序插入和查询,提高了查询效率。每次插入一条新记录,都是追加操作,都不涉及到挪动其他记录,也不会触发叶子节点的分裂。此外,自增主键的数据类型通常为整型,占用的存储空间相对较小,可以节省存储空间。

但是,如果你的业务场景需要根据用户ID或商品ID等字段进行频繁的查询和排序,那么就应该考虑将这些字段作为主键。在这种情况下,使用自增主键可能会导致数据的插入顺序与查询顺序不一致,降低查询效率。

因此,在设计主键时,需要根据具体业务场景进行选择。

标签:04,数据库,深入浅出,主键,索引,节点,查询,ID
From: https://www.cnblogs.com/LuoQi11/p/04_early-simple-index-top-27akdi.html

相关文章

  • 搜索引擎 回车键 变成换行了怎么处理?
    搜索引擎回车键变成换行了怎么处理?Enter键未在GoogleChrome中执行搜索的可能原因有几个。键盘驱动程序或硬件问题。Chrome扩展。Chrome中的设置。要解决此问题,您可以尝试以下步骤:检查您的键盘驱动程序和硬件。确保您的键盘已正确插入并且驱动程序是最新的。您可以尝试重新......
  • P5704 【深基2.例6】字母转换
    【深基2.例6】字母转换题目描述输入一个小写字母,输出其对应的大写字母。例如输入q[回车]时,会输出Q。输入格式输出格式样例#1样例输入#1q样例输出#1Q代码#include<bits/stdc++.h>usingnamespacestd;chara;intmain(){scanf("%c",&a);printf("%......
  • Spring Boot 整合 分布式搜索引擎 Elastic Search 实现 我附近的、酒店竞排
    文章目录⛄引言一、我附近的酒店⛅需求分析⚡源码编写二、酒店竞价排名⌚需求分析⏰修改搜索业务✅效果图⛵小结⛄引言本文参考黑马分布式ElasticsearchElasticsearch是一款非常强大的开源搜索引擎,具备非常多强大功能,可以帮助我们从海量数据中快速找到需要的内容一、我附近的酒......
  • 04web安全学习---PHP表单验证
    一、什么是表单?二、如何创建一个表单表单的一个最简单的写法:<formaction="https://www.baidu.com/s"><inputname='wd'/><inputtype='submit'/></form><!DOCTYPEhtmlPUBLIC"-//W3C//DTDXHTML1.0Transitional//EN"&quo......
  • pygame-04加载人物图片与显示
    1-实例代码importmath,randomimportpygamefrompygameimportmixer#游戏初始化pygame.init()#窗口设置screen=pygame.display.set_mode((800,600))#背景设置background=pygame.image.load('background.png')#背景音乐,-1表示循环播放mixer.music.load(......
  • 关于MySQL数据库的索引的作用及如何创建?
    一、创建索引的作用?原因:创建索引可以大大提高系统的性能。第一,通过创建唯一性索引,可以保证数据库表中每一行数据的唯一性。第二,可以大大加快数据的检索速度,这也是创建索引的最主要的原因。第三,可以加速表和表之间的连接,特别是在实现数据的参考完整性方面特别有意义。第四,在使用分......
  • Java High Level Rest Client---操作索引库
    操作索引库初始化RestClient引入es的RestHighLevelClient依赖:点击查看代码<dependency><groupId>org.elasticsearch.client</groupId><artifactId>elasticsearch-rest-high-level-client</artifactId> <version>7.12.1</version>......
  • 一篇搞定MySQL索引长度(key_len)计算规则
    MySQL索引长度(key_len)计算 计算规则索引字段:没有设置NOTNULL,则需要加1个字节。定长字段:tinyint占1个字节、int占4个字节、bitint占8个字节、date占3个字节、datetime占5 个字节、char(n)占n个字节。变长字段:varchar(n)占n个字符+2个字节。注......
  • 无法删除索引 1553 - Cannot drop index ‘fk_pptn_r_emtc‘: needed in a foreign ke
    标题标题:解决问题:1553-无法删除索引‘fk_pptn_r_emtc’:外键约束需要引言:在数据库管理中,经常会遇到各种问题和错误。其中之一是"1553-无法删除索引‘fk_pptn_r_emtc’:外键约束需要"错误。这个错误可能会导致数据库操作受阻,影响系统的正常运行。在本篇博客中,我们将深入探讨这......
  • 系统ubuntu20.04-ROS2源码安装humble
    系统要求HumbleHawksbill目前基于Debian的目标平台是Tier1:UbuntuLinux-Jammy(22.04)64-bitTier3:UbuntuLinux-Focal(20.04)64-bitDebianLinux-Bullseye(11)64-bit其他具有不同支持级别的Linux平台包括:ArchLinux,seealternateinstructionsFedoraLinux,s......