首页 > 其他分享 >每天5分钟复习OpenStack(九)存储发展史

每天5分钟复习OpenStack(九)存储发展史

时间:2023-11-09 21:11:40浏览次数:43  
标签:HDFS 存储 复习 OpenStack 分布式 数据 节点 SAN

上一章节我们介绍了使用本地硬盘做kvm的存储池,这章开始将介绍下存储的发展历程,并介绍什么是分布式存储,为什么HDFS为有中心节点的分布式存储?

1、存储发展

  • 在单机计算时代(大型机、小型机、微机),内部存储器可以理解为内存(即Memory),外部存储器可以理解为物理硬盘(包括本地硬盘和通过网络映射的逻辑卷.
    外部存储根据连接方式不同,又可以分为DAS (Direct-attached Storage)直连存储或直接附加存储。网络化存储 Fabric-Attached Storage,简称FAS);

而网络化存储根据传输协议又分为:网络附加存储 NAS (Network-Attached Storage)存储区域网络SAN(Storage Area Network)。 (此概念容易弄混,N对应network 网络, NAS 也可以理解为网络附加存储,即将存储协议在常用网络中传输。S 开头 storage 存储,存储区域网络其强调的是专用的网络)

其分类如下思维导图:

  • 直接存储:(DAS)很好理解,一般是通过专用线缆如IDE 、SCSI线直接将外部存储连在服务器的内部总线上,可以理解为存储设备只与一台主机互联。此时常用的接口类型有 IDE、SCSI、SATA、NVMe,如下图是VMware软件上添加磁盘时提供的接口选项。

  • 网络化存储: 则是通过网络传输来提供的存储能力,如果提供的是文件类型的存储如NFS、CIFS,则其一般是NAS 存储。如果提供的是块设备的接口类型,则其是SAN存储。(通常是这样,但是其分类与提供的磁盘类型无关。)

  • FC-SAN: 而根据传输协议的不同,在数据链路层有专用的光纤通道协议,依赖存储设备组成单独的网络,大多利用光纤连接,采用光纤通道协议(Fiber Channel,简称FC)。服务器和存储设备间可以任意连接,I/O请求也是直接发送到存储设备。光纤通道协议实际上解决了底层的传输协议,高层的协议仍然采用SCSI协议,所以光纤通道协议实际上可以看成是SCSI over FC

  • IP-SAN: 如果SAN是基于TCP/IP的网络,实现IP-SAN网络。这种方式是将服务器和存储设备通过专用的网络连接起来,服务器通过“Block I/O”发送数据存取请求到存储设备。最常用的是iSCSI技术,就是把SCSI命令包在TCP/IP包中传输,即为SCSI over TCP/IP

(注*在OpenStack 为主的IAAS场景中,IP-SAN和FC-SAN作为专业的存储设备与OpenStack进行对接是很常见的场景。了解其基本原理还是很有必要的。)

2、FC-SAN VS IP-SAN

总结:

1、IP SAN 通常被认为比 FC SAN 成本更低、更易于管理。

2、FC SAN 需要特殊的硬件,如光纤交换机或主机总线适配器,而 IP SAN 只需要现有的以太网网络硬件。

3、FC SAN 是许多关键业务应用程序的理想存储平台。

4、IP SAN 是那些需要经济高效解决方案的组织的理想选择。

5、缺点 FC-SAN 和IP-SAN 其都是用的专业的存储设备,存储设备是集中在固定的几个存储服务器上的,这样的存储也称为集中式存储。集中式存储缺点也很明显,依赖专用的存储设备,无法快速的批量部署在普通服务器上。

3、 分布式存储

单块磁盘的性能是固定,如果我们能将数据分割成多块, 每块数据,选择一块硬盘去存储,这样在有N块硬件的条件下,理论上是可以达到N*单盘性能参数,这就是分布式存储的理论依据。而将存储功能和管理与硬件解耦,以软件的方式部署在普通服务器上,则是软件定义存储的思想。而软件定义存储是未来的存储的趋势。

分布式存储特点是将数据分散存储在多台计算机或服务器上的一种存储方式。它通过将数据划分为多个块,并将这些块分布存储在不同的节点上,实现了数据的并行处理和高可靠性。这种存储方式具有良好的扩展性、高吞吐量和可靠性,适用于处理大规模数据集。

Hadoop分布式文件系统(Hadoop Distributed File System,简称HDFS)是一个开源的、高度可靠的分布式存储系统,被广泛应用于大数据领域。HDFS基于Google的GFS论文设计而来,旨在为大规模数据处理提供高效的存储解决方案。

HDFS的核心思想是将数据划分为多个块,并将这些块分布存储在集群中的多个节点上。每个块的默认大小为128MB,可以根据需要进行配置。这种划分方式使得数据可以在集群中并行处理,提高了数据处理的效率。

HDFS采用主从架构,包括一个主节点(NameNode)和多个从节点(DataNode)。NameNode负责管理文件系统的命名空间、记录文件的元数据信息(如文件名、文件目录结构、文件属性等),以及监控整个系统的状态。DataNode负责存储实际的数据块,并根据NameNode的指示完成数据的读写操作。

在ext系列的文件系统中,磁盘块被分为两部分数据区元数据区,而文件在存储时,其inode信息就存放在元数据区。客户访问文件系统时,在文件系统树中表现应该一个路径如/usr/share/lib/file ,根据该路径的目录名去层层查找inode表,最后查找到file 文件对应的inode信息,而inode信息记录了当前数据块存放在哪些数据区。从这个角度来看元数据可以理解为是一张路由表,该表中记录我们怎么找到真正的数据存放位置。当然其也记录文件的属主、属组、权限等信息。在这样的一个分区或者磁盘中,如果我们想把一个大文件分成多个小文件,分散存储在多个节点上时,显示在这种数据和元数据在一起的架构上是无法实现的。

随之我们想到的是将元数据和数据分离,找一个单独的节点存放元数据,而将真正的数据,按一定大小分为固定的块,块分散的存放在不同的节点上。而让元数据去提供每个块数据的路由信息,例如当要存储一个256M大小的文件时,其先访问元数据节点,元数据节点按固定大小的块(如128M,则分为2块),每一块数据,当做一个独立的文件,然后进行路由和调度。从而完成所谓分散存储的目的。这样就能充分利用每一个存储节点的存储和网络能力,达到了分布式数据存储的效果。

当读数据时,也是先访问元数据节点,元数据节点记录了该文件被切了多少个文件块,块与块之间是如何偏移的,每个块是在哪个节点的哪个位置。通过这些信息组合,从而得到一个完整的文件信息,然后从各个数据节点并行读取所有分散的块,这也就达到了分布式读的效果。

而负责元数据服务的节点就称为NameNode ,而负责数据存放节点的称为DataNode.从上述描述中可以看到NameNode的角色是多么重要,如果宕机了,则文件都无法访问了,因此其需要高可用部署,其冗余的节点也称为 Secondary NameNode;

元数据是IO密集,但是IO量非常小的IO请求, 为了高效 ,一般都是在内存中的,还需要注意的是,磁盘IO的写一般都是随机的IO,随机写的IO是非常慢的,如何将一次随机的IO写变成有序的IO写请求呢?

我们可以像Mysql binlog 日志一样,不直接进行IO的写,而是记录写的操作,这样就是顺序写,这些写的操作就是binlog 日志,将来想要回滚时,只需要将日志回放即可。

可是即便是这样我们的元数据节点同时写操作也只能在一个NameNOde上进行,IO虽然小,但是在大量数据IO请求过来时,仍然有性能不足的风险。这种结构也称为有中心节点的分布式存储。其中心节点就是NameNode. 而Ceph是一个无中心节点的分布式存储,他们的最大差异点就在于此。

HDFS作为一个分布式存储,其具有分布式存储的所有特点;

  • 高可靠性:HDFS通过数据冗余机制实现高可靠性。每个数据块默认会有三个副本,分别存储在不同的节点上,以防止单点故障对数据的影响。当某个节点失效时,系统会自动将其副本切换到其他健康的节点上,保证数据的可访问性。

  • 高吞吐量:HDFS通过并行处理和数据本地性原则(Data Locality)来实现高吞吐量。数据本地性原则指的是尽可能地将计算任务调度到存储数据的节点上执行,减少数据传输开销。这种方式可以最大限度地利用集群的计算和存储资源,提高整体的处理效率。

  • 扩展性:HDFS支持横向扩展,可以方便地增加新的节点来扩展存储容量和计算能力。当需要存储更多数据时,只需添加新的节点即可,而无需对已有的节点进行改动。

  • 容错性:HDFS通过周期性地创建文件系统的快照(Snapshot)来实现容错性。快照是文件系统状态的一份拷贝,可以用于恢复数据或回滚到某个特定的时间点。当发生错误或数据损坏时,可以通过快照来恢复数据的完整性。

总之,HDFS是一个高度可靠、高扩展性和高吞吐量的分布式存储系统,它为大规模数据处理提供了一个稳定而高效的基础平台。在大数据领域中,HDFS被广泛应用于数据存储、数据管理和数据分析等方面,为用户提供强大的存储能力和数据处理能力。其与Ceph 都是分布式存储,两者最大的区别是Ceph是无中心节点的分布式存储。那Ceph是如何管理元数据的,我们在下一章将做详细介绍。

标签:HDFS,存储,复习,OpenStack,分布式,数据,节点,SAN
From: https://www.cnblogs.com/alex0815/p/17822852.html

相关文章

  • 基于Spark的共享单车数据存储系统的设计与实现-计算机毕业设计源码+LW文档
    摘 要近些年来,随着科技的飞速发展,互联网的普及逐渐延伸到各行各业中,给人们生活带来了十分的便利,共享单车数据存储系统利用计算机网络实现信息化管理,使整个共享单车数据存储管理的发展和服务水平有显著提升。本文拟采用java技术和Springboot搭建系统框架,后台使用MySQL数据库进......
  • SqlServer中存储过程中将Exec的执行结果赋值给变量输出
    sp_executesql介绍和使用execute相信大家都用的用熟了,简写为exec,除了用来执行存储过程,一般都用来执行动态Sqlsp_executesql,sql2005中引入的新的系统存储过程,也是用来处理动态sql的,如:execsp_executesql@sql,N'@countintout,@idvarchar(20)',@couout,@id@sql为拼成的......
  • 汇编期末复习
    本章博客贴了很多PPT的内容,可能需要开白天模式看的清晰 第一章字长,原码,反码,补码,真值,进制之间的转换字长:字长是计算机中存储和处理数据的基本单元大小。它通常以位(bits)为单位来表示,例如,一个8位字长可以表示256个不同的值。编码:1.原码(Sign-MagnitudeRepresentation):最高位......
  • 拓扑学 复习笔记 & 题目整理
    非常好友链,爱来自害羞:https://bluenine9.github.io/2023/09/21/拓扑学笔记/复习笔记懒得tex化了,我猜大家应该看得懂我的字^^......
  • 一个简单的存储过程例子
    创建存储过程createorreplaceprocedurep_delete_dlljgas begin deletefromsys_dlljg;commit;end;创建制定执行计划(每周一22点55分执行一次)DECLAREiInteger;BEGINdbms_job.submit(i,'p_delete_dlljg;',sysdate,'TRUNC(next_day(sysdate,1))+(22*60+5......
  • 云主机使用的硬盘类型及对应的存储类型详解
    本文分享自天翼云开发者社区《云主机使用的硬盘类型及对应的存储类型详解》,作者:不知不觉随着云计算的普及,云主机已成为企业和个人用户的重要选择。云主机为用户提供了灵活、可伸缩的计算资源,并且具有高可用性、高可扩展性以及易于管理的特点。在云主机的使用过程中,硬盘类型和存储......
  • (十二)C#编程基础复习——break、continue、goto:跳出循环
    在使用循环语句时,并不是必须等待循环完成后才能退出循环,我们也可以主动退出循环,C#为我们提供了break、continue和goto三种方式来跳出循环:1、break它不仅可以用来终止switch语句,在循环语句中使用时还可以用来跳出循环,执行循环外的下一条语句。如果是在嵌套循环中使用,例如在内层的......
  • (十一)C#编程基础复习——foreach循环
    除了前面介绍的几种循环语句外,C#同样也支持foreach循环,使用foreach可以遍历数组或者集合对象中的每一个元素。foreach会在每次循环的过程中,依次从数组或集合对象中取出一个新的元素放到foreach()里定义的变量中,直到所有元素都成功取出后退出循环。代码示例如下:int[]a=newin......
  • (十)C#编程基础复习——do while循环
    在C#中,dowhile循环同样可以多次迭代一部分程序,但它与我们前面学习的for循环和while循环不同,for循环和while循环会在循环开始之前先判断表达式的结果,只有表达式结果为真时才会开始循环,而dowhile循环会先执行一遍循环主体中的代码,然后再判断表达式的结果。也就是说,不论表达式的结......
  • 文件存储引擎模块封装和使用分享
    背景需求在项目开发过程中,经常会使用到文件存储相关的功能,如:存储发票文件提供发票下载地址……调研诸如此类的功能就需要使用到本地存储或云服务商提供的存储功能。当然,这对于开发高手的zone来说都是小意思,上网一查,对象存储哪家强?​​第一位赫然显示了百家号创作者......