首页 > 其他分享 >CMU15-445:Lecture #04 笔记

CMU15-445:Lecture #04 笔记

时间:2022-12-25 15:56:43浏览次数:66  
标签:DBMS tuple 一个 存储 445 Lecture 日志 数据 CMU15

Lecture #04: Database Storage (Part II)


本文是对CMU15-445课程第4节笔记的一个粗略总结和翻译。仅供个人(M1kanN)复习使用。


1. Log-Structured Storage

(也叫Append-only Sequence of Data) 参考: Log-Structured 结构

  • 与Slotted-Page Design有关的问题是:

    • Fragmentation:
      删除tuple会在page中留下空隙。

    • Useless Disk I/O:

      由于非易失性存储的block-oriented的性质,需要读取整个块来获取tuple。

    • Random Disk I/O:
      磁盘阅读器可能不得不跳到20个不同的地方来更新20个不同的tuples,这可能会非常慢。

    如果我们在一个只允许创建新数据而不允许覆盖的系统上工作呢?日志结构的存储模型与这个假设相配合,解决了上面列出的一些问题。

  • Log-Structured Storage: DBMS不存储tuples,只存储日志记录。

    • 将数据库如何被修改的记录存储到文件中(放入和删除)。每条日志包含tuples的唯一标识符
    • 要读取一条记录,DBMS会从最新的到最旧的逆向扫描日志文件,并 "重新创建 "这个 tuple。
    • 写的快,读的可能慢。磁盘写入是连续的,现有的页面是不可改变的,这导致了随机磁盘I/O的减少。
    • 在append-only的存储上工作得很好,因为DBMS不能回溯并更新数据。
    • 为了避免长时间的读取,DBMS可以有索引来允许它跳到日志中的特定位置。它还可以定期地压缩日志。(如果它有一个tuple,然后对其进行了更新,它可以将其压缩到只插入更新的tuple)。
    • 由于不再需要时间信息,数据库可以将日志压缩到一个按id排序的表中。这些被称为分类字符串表(SSTables),它们可以使tuple搜索非常快。
    • 紧凑化的问题是,DBMS最终会出现写入放大的情况。(它一次又一次地重写相同的数据)。

2. Data Representation

  • tuple的数据本质就是字节数组!DBMS要知道如何解释这些字节,来推导出属性的值。数据表示方案(data representation scheme) 是DBMS如何为一个值存储字节。

  • 有5种high level datatypes可以存储在tuples中:integer,variable-precision numbers,fixed-point precision numbers,variable length values, dates/times

    • Integers

      大多数DBMS使用IEEE-754标准规定的 "native "C/C++类型来存储整数。这些值是固定长度的。

      • 例子:
        INTEGER, BIGINT, SMALLINT, TINYINT.
    • Variable Precision Numbers

      这些是不精确的、可变精度的数字类型,使用IEEE-754规定的 "native "C/C++类型。标准规定的 "native "C/C++类型。这些值也是固定长度的。

      变精度数的运算比任意精度数的运算更快,因为CPU可以直接对其执行指令。然而,在进行计算时可能会出现精度损失!

      • 例子:
        FLOAT, REAL
    • Fixed-Point Precision Numbers
      这些是具有任意精度和比例的数字数据类型。它们通常以精确的、可变长度的二进制表示法(像一个字符串)来存储,并带有额外的元数据,这些数据将告诉系统诸如数据的长度和小数点应该在哪里。
      当误差不可接受的时候,DBMS就要付出性能的代价来提高精度。

      • 例子:
        NUMERIC, DECIMAL.
    • Variable-Length Data

      • 代表任意长度的数据类型。它们通常是用一个header来存储的,这个header可以追踪到字符串的长度,以便于跳转到下一个值。它还可能包含一个数据的校验和。
      • 大多数DBMS不允许一个tuple超过一个页面的大小。 但是!那些允许的系统将数据存储在一个特殊的 "溢出 "页上,并让tuple包含一个对该页的引用。这些溢出页可以包含指向其他溢出页的指针,直到所有的数据都可以被存储。
      • 有些系统会让你把这些大的数值存储在一个外部文件中,然后元组会包含一个指向该文件的指针。例如,如果数据库存储的是照片信息,DBMS可以将照片存储在外部文件中,而不是让它们占用DBMS中的大量空间。这样做的一个缺点是,DBMS不能操作这个文件的内容。因此,没有耐久性或交易 保护。
      • 例子:
        VARCHAR, VARBINARY, TEXT, BLOB.
    • Dates and Times
      不同的系统对日期/时间的表示方法不同。通常情况下,它们被表示为一些单位时间 (自unix时代的(微/毫)秒)。

      • 例子:
        TIME, DATE, TIMESTAMP.
    • System Catalogs

      为了使DBMS能够识别tuple的内容,它维护了一个内部目录来告诉它关于数据库的元数据。元数据将包含关于数据库有哪些表和列的信息,以及它们的类型和值的顺序。

      大多数DBMS将其目录以其表的格式存储在自己的内部。他们使用
      特殊代码来 "bootstrap "这些目录表。

标签:DBMS,tuple,一个,存储,445,Lecture,日志,数据,CMU15
From: https://www.cnblogs.com/orangestar/p/17004112.html

相关文章

  • CMU15-445:Lecture #03 笔记
    Lecture#03:DatabaseStorage(PartI)本文是对CMU15-445课程第三节笔记的一个粗略总结和翻译。仅供个人(M1kanN)复习使用。1.Storage存储我们将关注一个"面向......
  • CMU15-445:Lecture #02 笔记
    Lecture#02:ModernSQL本文是对CMU15-445课程第二节笔记的一个粗略总结和翻译。仅供个人(M1kanN)复习使用。1.RelationalLanguages用户只需要使用声明性语言(即SQL......
  • CMU15-445:Homework #1 - SQL
    Homework#1-SQL本文是对CMU15-445课程第1个作业文档的一个粗略翻译和完成。仅供个人(M1kanN)学习使用。1.Overview第一个作业要我们构建一组SQL查询,用于分析给定......
  • CMU15-445:Lecture #01 笔记
    Lecture#01:RelationalModel&RelationalAlgebra本文是对CMU15-445课程第一节笔记的一个粗略总结和翻译。仅供个人(M1kanN)复习使用。如果能对其他同学学习这门课有......
  • CMU15-445_Project 1:C++Primer
    Project1:C++Primer先开一个坑1.Abstractabstract2.IntroductionintroPreparationtools3.ImplementationTask#1-TemplatedTrieHeadfileTrieNodeCl......
  • ORA-07445: 出现异常错误: 核心转储...
    数据库版本:oracle11.2.0.4今早ERP数据库巡检,发现alert_orcl.log中有ORA-07445错误。查看trace文件,dumpfile到另一个trace文件。继续查看,发现是个超长的sql引起的。......
  • cs231n学习笔记——Lecture 4 Backpropagation and Neural Networks
    该博客主要用于个人学习记录,部分内容参考自:【cs231n】详解神经网络中的反向传播、CS231n笔记三:神经网络之反向传播、超详细斯坦福CS231n课程笔记(第四课)——反向传播和神......
  • cs231n学习笔记——Lecture 3 Loss Functions and Optimiz
    该博客主要用于个人学习记录,部分内容参考自李飞飞笔记、cs231n第三章损失函数和最优化、超详细斯坦福CS231n课程笔记(第三课)——损失函数和优化损失函数、【cs231n】le......
  • cs231n学习笔记——Lecture2 Image Classification
    该博客主要用于个人学习记录,部分内容参考自李飞飞笔记、cs231n计算机视觉课程笔记、图像识别算法(一)、cs231n笔记2—线性分类一、图像识别ImageClassification1、在......
  • [15-445]Join Algorithms memo (Join 为什么要用小表做驱动表)
    NestedLoopJoin这一章节主要讲解join的算法,我想记录一些重点的地方。有趣的是关于NestedLoopjoin对驱动表为什么小表会更好这个问题,搜遍简中的blog都是一些错......