• 2025-01-10多云架构,JuiceFS 如何实现一致性与低延迟的数据分发
    随着大模型的普及,GPU算力成为稀缺资源,单一数据中心或云区域的GPU资源常常难以满足用户的全面需求。同时,跨地域团队的协作需求也推动了企业在不同云平台之间调度数据和计算任务。多云架构正逐渐成为一种趋势,然而该架构下的数据分发面临一系列挑战。01多云架构下的存储挑战在
  • 2025-01-08JuiceFS 详解:一款为云原生设计的高性能分布式文件系统
    JuiceFS详解:一款为云原生设计的高性能分布式文件系统1.什么是JuiceFS?JuiceFS(JuicedFileSystem)是一款高性能、POSIX兼容的云原生分布式文件系统。它采用对象存储作为底层存储,支持多种元数据引擎,如Redis、MySQL、PostgreSQL等,通过强大的缓存机制提供快速的数据访问,具有
  • 2025-01-08JuiceFS 2024:开源与商业并进,迈向 AI 原生时代
    即将过去的2024年,是JuiceFS开源版本推出的第4年,企业版的第8个年头。回顾过去这一年,JuiceFS社区版依旧保持着快速成长的势头,GitHub星标突破11.1K,各项使用指标增长均超过100%,其中文件系统总数量较前一年更是增长了8.5倍;企业版同样持续保持高速增长,继去年实现盈亏平衡
  • 2024-12-17【转载】从 HPC 到 AI:探索文件系统的发展及性能评估
    2024-03-06鲁蔚征随着AI技术的迅速发展,模型规模和复杂度以及待处理数据量都在急剧上升,这些趋势使得高性能计算(HPC)变得越来越必要。HPC通过集成强大的计算资源,比如GPU和CPU集群,提供了处理和分析大规模数据所需的算力。然而,这也带来了新的挑战,尤其是在存储系统方面,包括如
  • 2024-12-07函数栈帧的创建和销毁
    文章目录函数栈帧的创建和销毁本章主题一:什么是函数栈帧二:理解函数栈帧能够解决什么问题三:函数栈帧创建与销毁解析3.1什么是栈3.2有关寄存器与反汇编指令3.3解析函数栈帧的创建和销毁3.3.1预备知识3.3.2函数的调用堆栈3.3.3准备环境3.3.4转到反汇编3.3.5函数栈帧的创建3.
  • 2024-12-03你知道网站运营的指标有哪些吗?
    网站运营指标有很多,前端开发尤其关注那些和用户体验直接相关的指标。以下是一些关键指标,并根据与前端开发的相关性进行了分类:核心指标(对所有网站都重要):PV(PageView页面浏览量):用户每打开一个页面就被记录一次。高PV通常表示网站流量大,但不能单独作为衡量网站成功的标准。
  • 2024-11-29字符串操作
    #String类型的操作行为#占位符操作#name='周杰伦'#a=f'我听过一首{name}的歌'#print(a)#多行输出(保留原有格式),三对引号,没有赋值的时候是注释,有赋值的时候是多行输出#a='''#亲爱的yf:#见字如面。#一日不见如隔三秋。#此致,敬礼!#
  • 2024-10-11大模型存储选型 & JuiceFS 在关键环节性能详解
    从去年开始,LLM大语言模型领域发展迅速、如LLaMA、ChatGLM、Baichuan、Qwen和yi-model等基础模型(FoundationModels)的数量显著增加。众多企业也开始基于这些基础模型做post-training的相关工作,以开发特定垂直领域的模型实现应用落地。AI模型的参数规模呈指数级增长,出现了越
  • 2024-09-25大模型训练:K8s 环境中数千节点存储最佳实践
    今天这篇博客来自全栈工程师朱唯唯,她在前不久举办的KubeCon中国大会上进行了该主题分享。Kubernetes已经成为事实的应用编排标准,越来越多的应用在不断的向云原生靠拢。与此同时,人工智能技术的迅速发展,尤其是大型语言模型(LLM)的推进,导致企业需要处理的数据量急剧增加,例如,Llama
  • 2024-09-09Ollama + JuiceFS:一次拉取,到处运行
    今天这篇博客转载自我们的全栈工程师朱唯唯。在使用Ollma进行大模型加载时,她尝试使用了JuiceFS进行模型共享,JuiceFS的数据预热和分布式缓存功能显著提升了加载效率,优化了性能瓶颈问题。01背景随着AI技术的发展,大模型已经潜移默化地影响着我们的生活。商业LLM始终因
  • 2024-09-04性能、成本与 POSIX 兼容性比较: JuiceFS vs EFS vs FSx for Lustre
    JuiceFS是一款为云环境设计的分布式高性能文件系统。AmazonEFS易于使用且可伸缩,适用于多种应用。AmazonFSxforLustre则是面向处理快速和大规模数据工作负载的高性能文件系统。在本文中,我们将通过一系列测试,来评估这三种主流文件系统的性能与成本表现,帮助用户快速了解这些
  • 2024-08-30Clobotics 计算机视觉场景存储实践:多云架构、 POSIX 全兼容、低运维的统一存储HB
    Clobotics是一家将计算机视觉和机器学习技术应用于风电以及零售行业的企业。在风电行业,Clobotics利用无人机对风力发电机叶片进行检查,显著降低了对人工作业的依赖。在零售领域,公司通过分析捕获的包装商品图像来提供基于实时数据的洞察,以增加销售额并减少运营成本。存储方面,Clob
  • 2024-08-30Clobotics 计算机视觉场景存储实践:多云架构、 POSIX 全兼容、低运维的统一存储
    Clobotics是一家将计算机视觉和机器学习技术应用于风电以及零售行业的企业。在风电行业,Clobotics利用无人机对风力发电机叶片进行检查,显著降低了对人工作业的依赖。在零售领域,公司通过分析捕获的包装商品图像来提供基于实时数据的洞察,以增加销售额并减少运营成本。存储方面,Clob
  • 2024-08-27JuiceFS元数据引擎PostgreSQL
    使用PostgreSQL作为JuiceFS元数据引擎,各表的含义和字段做一个简单归纳juicefs数据库用于存储juicefs文件信息postgres=#\lListofdatabasesName|Owner|Encoding|LocaleProvider|Collate|
  • 2024-08-23JuiceFS 在多云架构中加速大模型推理
    在大模型的开发与应用中,数据预处理、模型开发、训练和推理构成四个关键环节。本文将重点探讨推理环节。在之前的博客中,社区用户BentoML和贝壳的案例提到了使用JuiceFS社区版来提高模型加载的效率。本文将结合我们的实际经验,详细介绍企业版在此场景下的优势。下图是一个典型的
  • 2024-07-28科普文:详解 JuiceFS 读性能:预读、预取、缓存、FUSE 和对象存储
    在高性能计算场景中,往往采用全闪存架构和内核态并行文件系统,以满足性能要求。随着数据规模的增加和分布式系统集群规模的增加,全闪存的高成本和内核客户端的运维复杂性成为主要挑战。JuiceFS,是一款全用户态的云原生分布式文件系统,通过分布式缓存大幅提升I/O吞吐量,并使用成本
  • 2024-07-26一文详解 JuiceFS 读性能:预读、预取、缓存、FUSE 和对象存储
    在高性能计算场景中,往往采用全闪存架构和内核态并行文件系统,以满足性能要求。随着数据规模的增加和分布式系统集群规模的增加,全闪存的高成本和内核客户端的运维复杂性成为主要挑战。JuiceFS,是一款全用户态的云原生分布式文件系统,通过分布式缓存大幅提升I/O吞吐量,并使用成本较
  • 2024-07-19JuiceFS 直连 NFS 新功能介绍,赋能 NAS 进行 AI 训练
    NAS通过提供多用户网络数据存取服务,极大地简化了数据共享和管理。而NFS作为实现这种共享的一种主流协议,尽管广泛应用,但在处理复杂的AI训练场景时常常受限于其性能和一致性问题。JuiceFS在最新的1.2版本中增加了直连NFS功能,这一创新允许JuiceFS直接利用NAS上的NFS服
  • 2024-07-15JuiceFS、Ceph 和 MinIO 结合使用
    1.流程图将JuiceFS、Ceph和MinIO结合使用,可以充分利用Ceph的分布式存储能力、JuiceFS的高性能文件系统特性,以及MinIO提供的对象存储接口。以下是一个方案,介绍如何配置和部署JuiceFS使用Ceph作为其底层存储,并通过MinIO提供对象存储接口。2.前提条件部署
  • 2024-07-12SeaweedFS + TiKV 部署保姆级教程
    在使用JuiceFS时,我们选择了SeaweedFS作为对象存储,以及TiKV作为元数据存储,目前在SeaweedFS上已经存储了近1.5PB的数据。关于SeaweedFS和TiKV配置的参考资料不多,本文将为社区各位用户提供我们的部署实践,并提供详细的命令示例,希望能给社区各位用户一些参考。此外,在文章
  • 2024-06-23juicefs cubefs 等元数据分离文件系统分析
    在近期我看到过国外一个大牛开发的hpfshttps://mp.csdn.net/mp_blog/creation/editor/139739977(请看我前面发的片文章)我瞬间就想到国内同类似产品juicefscubefs这两个东西,当时这种产品出现我就有一个疑问,为什么要把元数据单独弄个数据库去存呢?你还要开发数据冗余机制去保
  • 2024-06-12贝壳找房: 为 AI 平台打造混合多云的存储加速底座
    贝壳机器学习平台的计算资源,尤其是GPU,主要依赖公有云服务,并分布在不同的地理区域。为了让存储可以灵活地跟随计算资源,存储系统需具备高度的灵活性,支持跨区域的数据访问和迁移,同时确保计算任务的连续性和高效性;此外,随着数据量的增长,元数据管理的压力也在逐渐加大。贝壳机器学习平
  • 2024-05-06JuiceFS v1.2-beta1,Gateway 升级,多用户场景权限管理更灵活
    JuiceFSv1.2-beta1今天正式发布。在这个版本中,除了进行了大量使用体验优化和bug修复外,新增三个特性:Gateway功能扩展:新增了“身份和访问管理(IdentityandAccessManagement,IAM)”与“事件通知”,为用户提供更安全、灵活和自动化的数据管理和监控能力,适用于多用户环境和复