HDFS官方架构图,清晰明了
主角色,要注意的是NameNode因为它的特性使得它是HDFS的唯一访问入口
主角色辅助角色,要注意的是SecondaryNameNode不是NameNode的备份,而是它的"秘书",协助其完成工作
DataNode职责
第三点有意思:NameNode不持久存储块的位置信息,而是在启动系统时,由DataNode汇报它所存储的文件的块位置
NameNode是hadoop集群中的单点故障点,意味着它一旦寄了,集群就都用不了,无法访问
Pipeline管道
数据备份传输中,使用管道传输,如同流水一般,高效快捷,而不是只由客户端一个一个的循环式的拓扑传输
ACK应答响应
在使用管道传输时,同时结点对传输的文件进行ACK检验,若有数据无确认信息,则传输发生损失,发送结点将接受丢失的数据的确认信息,重新发送此数据
即若DN1发送ABC,若DN2检测到只有AC,没有B,则DN1将重新发送B
需要注意的是,ACK校验是两两校验,两结点之间的校验
默认3副本存储
副本数一般等于DataNode数,即机器数