首页 > 其他分享 >【系统设计】笔记10 GFS

【系统设计】笔记10 GFS

时间:2024-02-27 12:56:32浏览次数:19  
标签:... 存储 机器 10 文件 GFS 笔记 metadata

分布式系统

谷歌三剑客

Distributed File System(Google FIle System)

  如何有效存储数据? Nosql底层需要一个文件系统

Bigtable = Nosql database

  怎么链接底层存储和上层数据

Map Reduce

  怎么快速处理数据

 

GFS C++ Google

HDFS Java Yahoo

 

scenario

用户写入一个文件,用户读取一个文件。 >1000T

多台机器存储

 

service

client + server

社会主义: client找任何一个机器,平级

peer 2 peer: 优势,一台机器挂了还可以工作。劣势,多台机器需要经常通信保持数据一致

资本主义: master + slave ✅

优势,simple design,数据容易一直。劣势, 单master挂(重启)

 

storage

大文件存在哪?硬盘,内存存不下

怎么设计GFS?

  metadata访问常常多余内容的访问。

  ✅文件metadata....(反应速度快) + 实际内容... or 穿插(找metadata寻轨时间长)

  机械硬盘,磁头到某一轨道需要寻轨时间

  

  文件内容1+2+3... or ✅文件内容1-1 + 1-2 + 2-1 + 2-2 + 1-3... (方便修改,顺次写)

  频繁修改文件,要删掉重新找位置。

metadata 

file info: name = xx.mp4, createdTime = xxx, size = xx, index block11 ->diskOffset1, block12 -> diskOffset2...

blocks 1block = 4kb = 4096 bytes  

 

100T文件,block数量太多了

增加block大小 1chunk = 64M = 64*1024k    (4k -> 64k)

pros: reduce size of metadata, cons: waste space for small files

 

标签:...,存储,机器,10,文件,GFS,笔记,metadata
From: https://www.cnblogs.com/funblogs12152023/p/18036651

相关文章

  • 《安富莱嵌入式周报》第333期:F35战斗机软件使用编程语言占比,开源10V基准电源,不断电运
    周报汇总地址:http://www.armbbs.cn/forum.php?mod=forumdisplay&fid=12&filter=typeid&typeid=104 视频版:https://www.bilibili.com/video/BV1y1421f7ip目录:1、F35战斗机软件使用编程语言占比2、开源10V基准电源,不断电运行一年,误差小于1uV3、资讯(1)苹果开源配置语言Pkl......
  • Go 100 mistakes - #79: Not closing transient resources
        ......
  • 《系统科学方法概论》第5章读书笔记
    无论自然界还是人类社会,抑或人类思维都存在着自发组织起来的现象。自发组织系统理论的提出不是偶然的,他是19世纪中期以来热学力学同生物学矛盾发展的结果。一个系统由始态变化到中态,其内能的减少量的e等于该系统对外做的功a与该系统传递给环境的热量q之和,这就是热力学第一定律,用公......
  • 《系统科学方法概论》第4章读书笔记
    20世纪以来控制发展论有三个阶段,第一阶段是经典控制论阶段是20世纪4050年代。第2个是现代控制论阶段,20世纪6070年代第3个大系统理论阶段是20世纪70年代。控制论也有好多种分支情况。一工程控制论二生物控制论三社会控制论四人工智能。控制的定义。所谓控制就是指在一定的环境中,一......
  • Go 100 mistakes - #78: Common SQL mistakes
      ......
  • Large Scale Product Graph Construction for Recommendation in E-commerce论文阅读
    Abstract​ 大规模的推荐系统通常严重依赖于预先构建的产品索引来加速推荐服务,从而使等待时间较长。一个重要的索引结构是产品-产品索引,在这里可以检索给定种子产品的排名产品列表。该指数可以看作是一个加权的产品-产品图。​ 在本文中,我们提出了一种能够有效地构建这类索引产......
  • NEW CONCEPT ENGLISH 1 (1-10)
    NEWCONCEPTENGLISH 1-10Lesson1ExcusemeKeywordsandexpressionsexcuseme 劳驾,请问,对不起pardon n. 原谅,请再说一遍handbag n. 女士手提包thankyou 感谢你(们)verymuch 非常地LanguagepointsExcuseme 在别人身边挤过,和陌生人搭话,打断别......
  • 面试官:如何实现10亿数据判重?
    From: https://mp.weixin.qq.com/s/l2yVtL5siHpxzNLuxJ3nkQ当数据量比较大时,使用常规的方式来判重就不行了。例如,使用MySQL数据库判重,或使用List.contains()或Set.contains()判重就不可行,因为MySQL在数据量大时查询就会非常慢,而数据库又是及其珍贵的全局数据库资源。......
  • Creo10.0安装
    来自:最新版Creo10.0详细安装教程(含安装包)-知乎(zhihu.com) 解压前:先关闭“所有杀毒软件(部分电脑自带的“迈克菲”也要关闭)、防火墙、WindowsDefender”,否则可能会被杀毒软件误杀无法运行。1,打开【PTC.Creo.10.0.0.0.Win64-SSQ\_SolidSQUAD_\PTC.LICENSE.WINDOWS.2023-04-......
  • P1110 (平衡树实现)
    难度1还是比较板的一道题,考的是对平衡树各功能的灵活使用。首先看要求的操作,发现操作三在每次插入时求下前驱后继即可,因为如果答案不是有这个更新的,那么这个答案必定在之前计算过,所以能保证正确性。然后看操作二,发现在每次插入时,有一个原来的差不能再对答案做出贡献,并且有两个新......