首页 > 其他分享 >InnoDB行记录格式

InnoDB行记录格式

时间:2022-08-14 01:44:39浏览次数:95  
标签:存储 字节 记录 00 InnoDB 格式 NULL 数据

InnoDB存储引擎和大多数数据库一样,记录是以行的形式存储的,即页中保留着表中一行行的数据,这些记录在磁盘上的存放方式也被成为行格式;

InnoDB支持四种行格式:REDUNDANT,COMPACT,DYNAMIC,COMPRESSED

参考:[https://dev.mysql.com/doc/refman/5.7/en/innodb-row-format.html]

指定行记录格式的语法

查看代码
 -- 建表
CREATE TABLE 表名 (列的信息) ROW_FORMAT=行格式名称;
-- 更改表结构    
ALTER TABLE 表名 ROW_FORMAT=行格式名称;

 

Compact行格式

Compact行记录是在MySQL5.0中引入的,其设计目标是高效地存储数据;一个页中存放的行数据越多,其性能就越高;

 

分析Compact行记录的内部结构

表结构如下:

CREATE TABLE `record_format_demo` (
  `c1` varchar(10) DEFAULT NULL,
  `c2` varchar(10) NOT NULL,
  `c3` char(10) DEFAULT NULL,
  `c4` varchar(10) DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=ascii ROW_FORMAT=COMPACT;

INSERT INTO record_format_demo(c1, c2, c3, c4) VALUES('aaaa', 'bbb', 'cc', 'd'), ('eeee', 'fff', NULL, NULL);

 

Compact行记录格式

 

变长字段长度列表

Compact行记录格式的首部是一个非NULL变长字段长度列表,

MySQL支持一些变长的数据类型,如:VARCHAR(M),VARBINARY(M),各种TEXT类型,各种BLOB类型,这些类型的数据为变长字段,变长字段中存储多少字节数是不固定的;Compact行记录格式的首部是一个非NULL变长字段长度列表,并且其是按照列的顺序逆序放置的;

 

第一条记录各变长字段内容的长度

列名 存储内容 内容长度(十进制表示) 内容长度(十六进制表示)
c1 aaaa 4 0x04
c2 bbb 3 0x03
c4 d 1 0x01

 

变长字段长度列表是按照列的顺序逆序放置的,如下

变长列占用的字节数的计算,定义以下几个变量

  • 某个字符集中表示一个字符最多需要使用的字节数为W(即使用SHOW CHARSET语句的结果中的Maxlen列);

  • 对于变长类型VARCHAR(M)来说,这种类型表示能存储最多M个字符,即这个类型能表示的字符串最多占用的字节数就是M * W

 

存储长度分为两种规则
  • M * W <= 255

  那么使用1字节来表示真正字符串占用的字节数;  

  • M * W > 255

  如果实际存储的字符串占用的字节数 <= 127,则用1个字节来表示存储的字符串占用的字节数;

  如果实际存储的字符串占用的字节数 > 127,则用2个字节来表示存储字符串占用的字符数;

  InnoDB在读记录的变长字段长度列表,如果某个变长字段允许存储的最大字节数大于255时,如果该字节的第一个位为0,那该字节就是一个单独的字段长度(使用一个字节表示不大于127的二进制的第一个位都为0),如果该字节的第一个位为1,那该字节就是半个字段长度;

如果该可变字段允许存储的最大字节数(M * W)超过255字节且实际存储的字符串的字节数超过127个字节,则用2字节表示,否则使用1字节表示;

 

变长字段列表只存储值为非NULL的列内容占用的长度,值为NULL的列的长度是不存储的,上面初始化脚本执行完后,填充玩变长字段长度列表的两条记录,如下:

 

NULL标志位

变长字段之后的第二个部分是NULL标志位,该位指示了该行数据中是否有NULL值;

如果表中没有允许存储NULL的列,那么NULL值列表不存在,否则将每个允许存储NULL的列对应一个二进制位,二进制为按照列的顺序逆序排列;

  • 二进制位的值为1时,代表该列的值为NULL
  • 二进制位的值为1时,代表该列的值不为NULL

上面的表结构允许c1,c3,c4列的值为NULL,其中二进制按照列的顺序逆序排列,如下:

MySQL规定NULL值列表必须用整数个字节的比特位表示,其中1个字节=8个比特位,如果使用的二进制位个数不是整数个字节,则在字节的高位补0

1个字节=8个比特位,当允许值为NULL的列超过8个时,如9个,这时记录NULL值列表需要2个字节;  

上面的表的第一行数据,NULL标志位填充后用0x00表示,如下:

 

上面的表的第二行数据,NULL标志位填充后用0x06表示,如下:

 

记录头信息

接下来的部分是记录头信息,Compact记录头信息是固定由5个字节组成

名称 大小(bit)   描述  
预留位1 1 没有使用
预留位2 1 没有使用
deleted_flag 1 标记改行是否被删除
min_rec_flag 1 B+树的每层非叶子节点的最小记录都会被添加该标记
n_owned 4 表示当前记录拥有的记录数
heap_no 13 表示当前记录在记录堆中的位置
record_type 3 记录类型,000表示普通,001表示B+树节点指针,010表示Infinmum,011表示Supremum,1xx表示保留
next_record 16 页中下一条的相对位置

 

第一条记录Compact记录头信息记录为0x000010002D,如下:

 

第二条记录Compact记录头信息记录为0x000018FFC2,如下:

 

记录的真实数据

每行数据除了用户定义的列外,还有两个隐藏列,事务ID列和回滚指针列,分别为6字节和7字节的大小,若InnoDB表没有主键,每行还会增加一个6字节的rowid列;

列名 是否必须 占用字节 描述
DB_ROW_ID 6字节 行ID,唯一标识一条记录
DB_TRX_ID 6字节 事务ID
DB_ROLL_PTR 7字节 回滚指针

参考:[https://dev.mysql.com/doc/refman/5.7/en/information-schema-innodb-temp-table-info-table.html

   https://dev.mysql.com/doc/refman/5.7/en/innodb-restrictions-limitations.html]

测试表使用ASCII字符集,数据转换如下:

  • 第一行

c1列的为'aaaa','a'对应的ASCII的16进制为0x61,'aaaa'的16进制为0x61616161;

c2列的为'bbb','a'对应的ASCII的16进制为0x62,'bbb'的16进制为0x626262;

c3列的为'cc','c'对应的ASCII的16进制为0x63,'cc'的16进制为0x6363,但c3列的数据类型为CHAR(10),该列仍然占用10个字节,除了真实数据'cc'外都用空格字符填充,空格字符的ACSII的16进制为0x20,该列数据的16进制为0x63632020202020202020;

c4列的为'd','d'对应的ASCII的16进制为0x64,'aaaa'的16进制为0x64;

 

第二行

以此类推,c1列数据的16进制为0x65656565,c2列的数据为0x666666,而c3列和c4列的数据为NULL,因为不管是CHAR类型还是VARCHAR类型,在Compact格式下NULL值都不占用任何空间;

 

查看表空间文件

Linux环境下,使用命令

hexdump -C -v record_format_demo.ibd > record_format_demo.txt 

将文件结果重定向到了文件record_format_demo.txt中,打开,找到如下内容:

MySQL Supremum参考:[https://dev.mysql.com/doc/internals/en/innodb-infimum-and-supremum-records.html]

数据记录从0x0000C078开始,第一行数据存储,如下:

01 03 04 /* 变长字段长度列表,逆序 */
00 /* NULL标志位,第一行没有空值 */
00 00 10 00 2d /* 记录头信息 */
00 00 00 00 02 00 /* DB_ROW_ID */ 
00 00 00 00 34 16 /* DB_TRX_ID */ 
b6 00 00 01 2a 01 10 /* DB_ROLL_PTR */ 
61 61 61 61 /* c1列 */ 
62 62 62 /* c2列 */ 
63 63 20 20 20 20 20 20 20 20 /* c3列 */ 
64 /* c4列 */ 

记录头信息中最后两个字节代表下一个记录的偏移量,即当前记录的位置加上偏移量0x2d就是下一条记录的相对位置的起始位置,0x0000C080 + 0x2d = 0x0000C0AD,其中0x0000C080为记录头信息中next_record的地址,加上0x2d的偏移量后得到的是下一条记录中的记录头信息中的next_record的地址,如下图

 

第二行数据存储,如下:

03 04 /* 变长字段长度列表,逆序 */
06 /* NULL标志位,c3列,c4列表为空值 */
00 00 18 ff c2 /* 记录头信息 */
00 00 00 00 02 01 /* DB_ROW_ID */ 
00 00 00 00 34 16 /* DB_TRX_ID */ 
b6 00 00 01 2a 01 1f /* DB_ROLL_PTR */ 
65 65 65 65 /* c1列 */ 
66 66 66 /* c2列 */ 

 

Redudant行格式

Redudant行格式是MySQL5.0之前InnoDB的行记录存储方式,MySQL5.0支持Redudant是为了兼容之前版本的页格式,这种行格式非常老了,这里就不整理了;

 

行溢出数据

InnoDB存储引擎可以将一条记录中的某些数据存储在真正的数据页面之外,一般认为BLOB,LOB这类的大对象列类型的存储会把数据存放在数据页面之外,但是BLOB可以不将数据放在溢出页面,而且即便是VARCHAR列数据类型依然有可能被存放行溢出的数据;

 

VARCHAR(M)最多能存储的数据

VARCHAR(M)类型的列最多可以占用65535个字节,其中M表示该类型最多存储的字符数量,如果使用ASCII字符集,VARCHAR(65535)是否可用?

从报错信息里可以看出,MySQL对一条记录占用的最大存储空间是有限制的,除了BLOB或者TEXT类型的列之外,其他所有的列(不包括隐藏列和记录头信息)占用的字节长度加起来不能超过65535个字节,这个时候MySQL服务器建议把存储类型改为TEXT或者BLOB的类型;    

VARCHAR(M)存储包含3部分存储空间

  • 真实数据占用字节长度
  • 真实数据
  • NULL值标识,如果该列有NOT NULL属性,那没有这部分空间的存储

 

如果该VARCHAR类型的列没有NOT NULL属性,那最多只能存储65532个字节的数据,其中,NULL值标识需要占用1个字节,真实数据可能占用2个字节;

 

如果该VARCHAR类型的列有NOT NULL属性,那最多只能存储65533个字节的数据,其中,NULL值标识不需要占用1个字节,真实数据可能占用2个字节;

 

上述创建的表其字符类型都是ASCII类型的,如果更换成GBK/UTF-8,会产生什么样的结果?


从执行结果可以看出,如果VARCHAR(M)类型的列使用的不是ASCII字符集,那么M的最大取值取决于该字符集表示一个字符最多需要多少的字节数;在列允许NULL的情况下,GBK的字符集表示一个字符最多需要2个字节,那在该字符集下,M的最大取值就是32766(也就是:65532/2),也就是说最多能存储32766个字符;UTF-8字符集表示一个字符最多需要3个字节,那在该字符集下,M的最大取值就是21844,最多能存储21844个字符;

 

VARCHAR(M)中的M值得是字符的长度,而文档中说明VARCHAR类型最大支持65535,单位是字节;此外需要注意的是,MySQL官方文档中定义的65535长度是指所有VARCHAR列的长度总和,如果列的长度总和超出这个长度,依然无法创建;

3个列长度总和是66000,因此InnoDB存储引擎再次报了同样的错误;

 

记录中数据太多产生行溢出

InnoDB存储引擎的页为16KB,即16384字节,如何存储65532字节?

REPEAT('a', 65532)是一个函数调用,它表示生成一个字符'a'重复65532次的字符串;

MySQL中磁盘与内存交互的基本单位是页,即MySQL是以页为单位管理存储空间的,每一条记录都会被分配到某个页中存储;

一般情况下,InnoDB存储引擎的数据都是存放在页类型为B-tree node中,但是发生行溢出(如上面的例子,MySQL一个页的大小为16KB,即16384字节,但VARCHAR(65532)最多存储65532个字节,这就会造成一个页存放不了一条记录)时,数据存放在页类型为Uncompress BLOB页中;

 

在Compact和Redundant行格式中,对于占用存储空间非常大的列,在记录的真实数据处只会存储该列的一部分数据,把剩余的数据分散存储在几个其他的页中,然后记录的真实数据处用20个字节存储指向这些页的地址(这20个字节中还包括这些分散在其他页面中的数据的占用的字节数),从而可以找到剩余数据所在的页;

 

对于Compact和Redundant行格式来说,如果某一列中的数据非常多,在本记录的真实数据处只会记录前768个字节和一个指向其他页的地址,然后把剩下的数据放到其他页,这个过程为行溢出,存储超过768个字节的那些数据页为溢出页,如下图;

参考:[https://dev.mysql.com/doc/refman/5.7/en/char.html

   https://dev.mysql.com/doc/refman/5.7/en/column-count-limit.html]

 

行溢出的临界点

  注:MySQL中规定一个页最少存放两行记录;
CREATE TABLE varchar_size_demo(
    c VARCHAR(65532)
) CHARSET=ascii ROW_FORMAT=Compact;
  以上面的varchar_size_demo表为例子,它只有一个列,每条记录最少插入多少字节的数据才会出现行溢出;
  • 每个页除了存放记录外,还需存储一些额外信息,这些额外信息加起来需要132个字节;
  • 每条记录需要的额外信息是27个字节;

  这27个字节包括:

    • 2个字节用于存储真实数据的长度
    • 1个字节用于存储列是否是NULL值
    • 5个字节大小的头信息
    • 6个字节的行ID
    • 6个字节的事务ID
    • 7个字节的回滚指针

需要满足以下这个式子:

132 + 2 * (27 + n) < 16384

针对上面的varchar_size_demo表,n < 8099,即如果一个列中存储的数据小于8099个字节,那么该列就不会为溢出列,否则为溢出列;

 

Dynamic和Compressed行格式

  InnoDB 1.0.x版本开始引入新的文件格式,以前支持的Compact和Redundant格式称为Antelope文件格式,新的文件格式称为Barracuda文件格式;Barracuda文件格式下拥有两种行记录格式:Compressed和Dynamic(MySQL 5.7版本默认行格式是Dynamic); 新的两种格式对于存放在BLOB中的数据采用了完全的行溢出方式,在数据页只存放20个字节的指针,它们不会在记录的真实数据处存储字段真实数据的前768个字节,而是将所有的字节都存储到其他页面,只在记录的真实数据处存储其他页面的地址,如下图;    

CHAR的行结构存储

VARCHAR是存储变长长度的字符类型,而CHAR是存储固定长度的字符类型; 注:从MySQL 4.1版本开始,CHAR(M)中的M值得是字符的长度,而不是之前版本的字节长度,即在不同的字符集下,CHAR类型列内部存储的可能不是定长的数据;
CREATE TABLE `record_format_demo` (
  `c1` varchar(10) DEFAULT NULL,
  `c2` varchar(10) NOT NULL,
  `c3` char(10) DEFAULT NULL,
  `c4` varchar(10) DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=ascii ROW_FORMAT=COMPACT;

INSERT INTO record_format_demo(c1, c2, c3, c4) VALUES('aaaa', 'bbb', 'cc', 'd'), ('eeee', 'fff', NULL, NULL);
上面的record_format_demo表中c1,c2,c4列的类型是VARCHAR,而c3列的类型是CHAR的; 在使用ASCII字符集的情况下,这个字符集是一个定长的字符集,即表示一个字符采用一个固定的长度;但是,如果采用多字节的字符集(表示一个字符需要的字节数不确定,如GBK表示一个字符需要1~2个字节,UTF8表示需要1~3个字节) ,因此对于这种多字节的字符编码,CHAR类型不再代表固定长度的字符串;   如果采用多字节的字符集,上面record_format_demo表中的c3列的长度也会被存储到变长字段长度列表; 将c3列的字符集修改如下:
ALTER TABLE record_format_demo MODIFY COLUMN c3 CHAR(10) CHARACTER SET utf8;
  对于CHAR(M)类型的列来说,当列采用的是定长字符集时,该列占用的字节数不会被加到变长字段长度列表,而如果采用多字节的字符集时,该列占用的字节数也会被加到变长字段长度列表;CHAR类型被表明了变长字符类型,对于未能占满长度的字符还是填充空格(0x20); 另外还需注意,变长字符集的CHAR(M)类型的列要求至少占用M个字节,而VARCHAR(M)没有这个要求,如UTF8下的CHAR(10)类型的列,其最小可以存储10个字节,最大可用存储30个字节;  

标签:存储,字节,记录,00,InnoDB,格式,NULL,数据
From: https://www.cnblogs.com/coder-zyc/p/16552790.html

相关文章

  • 2022.8.13 颓废记录
    Preface最后一天~Content[CF1175E]MinimalSegmentCover给定形如\([l,r]\)的\(n\)条线段。\(m\)次询问,询问每次至少选几条线段才能使它们的并集包含线段\([x,y......
  • 假期第七次记录
    Enumeration接口中定义了一些方法,通过这些方法可以枚举(一次获得一个)对象集合中的元素。一个Bitset类创建一种特殊类型的数组来保存位值。BitSet中数组大小会随需要增加。......
  • 时序数据库influxdb-1.8.9部署记录步骤
    时序数据库部署步骤1.influxdb是目前比较流行的时间序列数据库。何谓时间序列数据库?什么是时间序列数据库,最简单的定义就是数据格式里包含Timestamp字段的数据,比如某一......
  • 【题解】做题记录(2022.8)
    (之前的就暂时不补了就从以后的开始记)8.12CF1606CBanknotes题目分析:显然第\(i\)种货币可以用来组成\(a_{i+1}-a_{i}\)位,为了使得\(k\)最小,显然从低到高位依次......
  • 程序解题报告博客的书写格式
    每个题目编程完成后,必须完成解题报告的整理解题报告格式:1.试题名称及出处2.试题算法分析(试题分析、解题思路、算法与数据结构设计)3.试题程序解析(程序+注释) 书写结题报告......
  • python-格式化输出表格+中英文对齐
    python-格式化输出表格+中英文对齐目录python-格式化输出表格+中英文对齐输出效果代码实现——参考了prettytable库输出的效果,一个简单的实践输出效果代码实现#-*-......
  • 12.Matplotlib grid()设置网格格式
    通过Matplotlibaxes对象提供的grid()方法可以开启或者关闭画布中的网格(即是否显示网格)以及网格的主/次刻度。除此之外,grid()函数还可以设置网格的颜色、线型以及线......