首页 > 其他分享 >Git的存储原理

Git的存储原理

时间:2024-07-27 18:28:33浏览次数:11  
标签:文件 存储 Git HEAD git commit 原理

目录

Git 设计原理

概括的讲,Git 就是一个基于快照的内容寻址文件系统。 往下慢慢看。

Git vs SVN

Git 出现前,主流版本控制系统(SVN...)一般为基于增量(delta-based)的系统,如下图:

img

Git 则是基于快照(snapshot),即针对每一个被修改的文件生成一个快照,没被修改的则不再重新生成快照,如下图:

img

直觉上讲,似乎基于增量的方式要更好些?

毕竟针对被修改的文件,Git 生成的是完全的快照,而其他系统只是生成增量文件。没错,但是当需要回滚版本或者比对多个版本间的差异时,Git 只需要取出对应版本的快照文件进行对比即可,而基于增量的系统则需要从头开始一步步应用增量文件来回溯,Git 的速度优势就很明显了。

Git 存储模型

.git 目录结构

当用git init 或者 git clone 获取一个 git 仓库时,可以发现目录下有一个隐藏目录。git,它的基本结构类似如下:

├── COMMIT_EDITMSG 仓库最后一次commit的message
├── FETCH_HEAD  每个分支的最后一次commit的SHA1值
├── HEAD 记录了HEAD指针的指向位置
├── ORIG_HEAD 针对某些危险操作,该指针记录了上一次安全版本的HEAD指针的位置,方便回退
├── config git的相关配置
├── index 暂存区,索引文件
├── packed-refs 已经压缩的分支,记录了每个分支的最后一次commit的SHA1
├── logs/ 操作日志,包括本地远程的
├── objects/ 对象存储文件夹
|   ├── ... 文件夹名称根据object的SHA1值的前2个字符确定
|   ├── ...
|   ├── info/
|   ├── pack/ 压缩后的数据
└── refs/ 记录本地和远程的最后一次commit的SHA1值
    ├── heads/ 分支引用
    ├── remotes/ 远程地址
    └── tags/ 标签引用

这个目录下包含了 Git 所有信息,且都是用文件的形式存储,所以说 Git 是一个文件系统。

Git 基本数据对象

  • blob(二进制大对象):也就是前面说的基于快照存储的文件
  • tree:目录,代表了 blob 对象的集合
  • commit:提交,包含了 blob、tree 的集合
  • tag:标签对象(指 annotation 标签),还有一种轻量标签不记录创建标签人等额外信息,不需要再单独创建标签对象

上述 4 种数据对象均存储在。git/object/目录下,git 会对每一种数据对象计算哈希值来确定具体的存储路径,下面来举个例子。

> echo 'test content' | git hash-object -w --stdin
d670460b4b4aece5915caf5c68d12f560a9fe3e4 
//40位的SHA-1哈希值,前2位位目录名,其他38位为文件名,存储路径即.git/objects/d6/70460b4b4aece5915caf5c68d12f560a9fe3e4
> git cat-file -p d670460b4b4aece5915caf5c68d12f560a9fe3e4
 test content 
> git cat-file -p master^{tree} // 输出master最新提交包含内容
100644 blob a906cb2a4a904a152e80877d4088654daad0c859      README  
100644 blob 8f94139338f9404f26296befa88755fc2598c289      Rakefile  
040000 tree 99f1a6d12cb4b6f19c8655fca46c3ecf317074e0      lib
// 包含了2个文件的修改和1个目录的修改
> git cat-file -p 99f1a6d12cb4b6f19c8655fca46c3ecf317074e0
100644 blob 47c6340d6459e05787f644c2447d2595f5d3a54b      simplegit.rb    

git hash-object 命令可以用于计算文件的哈希值

-w 表示把将对象写入到 git 数据库中

--stdin 表示从标准输入读取内容

git cat-file 命令可以根据传入哈希值取出 git 存储的对象

-p 自动判断内容的类型

一次提交的数据结构可以用下图来概括:

img

Git 包文件

可能有的小伙伴通过上述方式在自己项目中尝试时,发现在。git/objects/下找不到对应文件,这是什么原因呢?

可能真的不是操作出了问题,而是 Git 进行了压缩操作。

Git 最初存储对象时使用的时"松散(loose)"对象格式,即保存在。git/objects/下。

但是,Git 会时不时(或者当你手动执行git gc 命令后)地将这些对象打包成一个称为“包文件(packfile)”的二进制文件(存储在。git/objects/pack),以节省空间和提高效率。

Git 引用

引用类似于指针,除了 HEAD 存储在。git/HEAD 以外,其他指针存储在。git/refs 目录下

  • 分支
  • HEAD:一种特殊的指针,用于指向目前所在的 commit,。git/HEAD 文件里存储的就是引用的 commit 的哈希值
  • 标签(轻量标签)

可以看出,所谓的引用只是一个记录了 commit 哈希值的文件,非常的轻量,这也是为什么分支/标签的创建、删除速度能这么快的原因。

标签:文件,存储,Git,HEAD,git,commit,原理
From: https://www.cnblogs.com/whatever2code/p/18327316

相关文章

  • fastjson反序列化漏洞原理及<=1.2.24&<=1.2.47&Fastjson v1.2.80简单利用&不出网判断&修
    1、什么是fastjsonfastjson是一个有阿里开发的一个开源Java类库,可以将Java对象转换为JSON格式(序列化),当然它也可以将JSON字符串转换为Java对象(反序列化)。2、漏洞原理FastJson在解析json的过程中,⽀持使⽤autoType来实例化某⼀个具体的类,并调⽤该类的set/get⽅法......
  • Java SE 文件上传和文件下载的底层原理
    1.JavaSE文件上传和文件下载的底层原理@目录1.JavaSE文件上传和文件下载的底层原理2.文件上传2.1文件上传应用实例2.2文件上传注意事项和细节3.文件下载3.1文件下载应用实例3.2文件下载注意事项和细节4.总结:5.最后:2.文件上传文件的上传和下载,是常见的功能。......
  • git status 路径里的汉字不显示
    症状>gitstatusOnbranchmainYourbranchisuptodatewith'origin/main'.Changestobecommitted:(use"gitrestore--staged<file>..."tounstage)modified:"\346\225\260\350\256\272.md"......
  • MySQL存储过程
    目录介绍特点创建调用查看删除变量查看系统变量设置系统变量注意:用户定义变量赋值使用局部变量声明赋值if参数用法:casewhilerepeatloop游标条件处理程序介绍存储过程是事先经过编译并存储在数据库中的一段sql语句的集合,调用存储过程可以简化应用......
  • 运行 Github Action 测试 Docker 镜像时退出代码 137
    我正在学习Testdriven.io:使用FastAPI和Docker进行测试驱动开发课程,目前正在学习持续集成部分。在本节中,您将使用github操作来构建docker映像并运行测试和linting等。在流程的测试Docker映像步骤中,当尝试进行pytest时,我收到以下错误:错误:进程已完成并退出代码......
  • PHP 之腾讯云对象存储生成临时地址
    一、代码示例/***生成cos签名*@paramstring$httpURI你的url地址,如:https://xxxx.com/123/23/test.png*@paramstring$expires有效时间分钟*@paramstring$headerList*@paramstring$urlParamList*@paramstring$httpParameters*@paramstring$htt......
  • 决策树算法详解:原理、实现与应用案例
    目录一:简介二:决策树算法原理决策树的基本概念信息增益和熵基尼指数卡方检验三:决策树的构建过程数据预处理决策树生成算法剪枝技术决策树的优缺点四:决策树算法的实现使用Python实现决策树使用R语言实现决策树实现过程中需要注意的问题五:决策树算法的优化与改进......
  • 带你学习通过GitHub Actions如何快速构建和部署你自己的项目,打造一条属于自己的流水线
    本文主要讲解通过github的actions来对我们项目进行ci/cd一、actions简介GitHubActions是一种持续集成和持续交付(CI/CD)平台,可用于自动执行生成、测试和部署管道。您可以创建工作流程来构建和测试存储库的每个拉取请求,或将合并的拉取请求部署到生产环境。GitHubActions......
  • Linux工作原理10网络应用程序和服务
    10网络应用程序和服务本章探讨基本的网络应用--在用户空间运行的客户端和服务器,它们位于应用层。由于这一层位于堆栈的顶层,离最终用户很近,因此你可能会发现这部分内容比第9章的内容更容易理解。事实上,你每天都在与网络浏览器等网络客户端应用程序交互。为了完成工作,网络客户......
  • 探索Memcached的宇宙:APIs及其工作原理深度解析
    ......