- 2023-12-27韩国国民搜索 NAVER:为 AI 平台引入存储方案 JuiceFS
NAVER是一家多元化的互联网公司,拥有韩国最大的搜索引擎并在人工智能、自动驾驶等高科技领域积极投入。在搭建AI平台时,NAVER评估了公有云平台的存储产品、Alluxio以及高性能专用存储产品等多种选项后,最终决定采用JuiceFS。通过使用JuiceFS,NAVER成功地将内部存储资源升级为
- 2023-11-10Alluxio读写流程
1.背景在https://blog.51cto.com/u_15327484文章中,介绍了Alluxio的架构。本文基于此,介绍Alluxio文件读写流程。Alluxio读写流程几乎和HDFS一致,只是Worker多了一个从UFS读写的选项,本文会省略部分流程,只介绍重点。2.Alluxio写流程客户端向Alluxio写数据时,可以指定是否就Alluxio
- 2023-11-09Apache Ratis在Alluxio中应用
1.背景在alluxio1.8中,alluxiomaster只支持单节点部署,一旦挂掉,整个集群将不可用。alluxio2.x后,提供了高可用方案:Alluxio组件中嵌入ApacheRatis代码,由Ratis负责选举leader,Alluxio的各个master在同步editlog时,由Ratis提供editlog的一致性传输。Ratis服务基于Raft共识算法,该算
- 2023-06-01Alluxio : 开源分布式内存文件系统
Alluxio:开源分布式内存文件系统Alluxioisamemoryspeedvirtualdistributedstoragesystem.Alluxio是一个开源的基于内存的分布式存储系统,现在成为开源社区中成长最快的大数据开源项目之一。公司简介:由项目的创建者李浩源以及来自UCBerkeley,Google,CMU,Palantir,Stan
- 2023-05-29alluxio进行debug的方法
在alluxio-env中。增添ALLUXIO_MASTER_ATTACH_OPTS="-agentlib:jdwp=transport=dt_socket,server=y,suspend=n,address=60001"ALLUXIO_WORKER_ATTACH_OPTS="-agentlib:jdwp=transport=dt_socket,server=y,suspend=n,address=60003"ALLUXIO_USER_ATTACH_OPTS=&
- 2023-01-04Spark生态之Alluxio学习25--spark从HDFS和Alluxio读取时间比较
更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习版本:alluxio-1.3.0(tachyon),spark-1.5.2,hadoop-2.6.01.解释想要分析alluxio加速效果
- 2023-01-04Spark生态之Alluxio学习24--分别读取HDFS和Alluxio的数据进行line count比较分析
更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习版本:alluxio-1.3.0(tachyon),spark-1.5.2,hadoop-2.6.01.解释测量alluxio和hdfs哪个速
- 2023-01-04Spark生态之Alluxio学习23--alluxio-0.7.1解决数据本地化的问题
更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习版本:alluxio-1.3.0(tachyon),spark-1.5.2,hadoop-2.6.01.解释spark-1.5.2和alluxio-1.
- 2023-01-04Spark生态之Alluxio学习22--saveAsTextFile alluxio后count (有bug)
更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习版本:alluxio-1.3.0(tachyon),spark-1.5.2,hadoop-2.6.00以下分析是主要是基于spark-1
- 2023-01-04Spark生态之Alluxio学习20--疑问:为什么D7-D9到最后的count时间都是30s左右?
更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习版本:alluxio-1.3.0(tachyon),spark-1.5.2,hadoop-2.6.00以下分析是主要是基于spark-1
- 2022-12-12你不知道的开源分布式存储系统 Alluxio 源码完整解析(上篇)
一、前言目前数据湖已成为大数据领域的最新热门话题之一,而什么是数据湖,每家数据平台和云厂商都有自己的解读。整体来看,数据湖主要的能力优势是:集中式存储原始的、海量的、多
- 2022-11-03[Alluxio基础]-- 初识 Alluxio(原名 Tachyon )
1、前言我们有了解分布式文件系统(HDFS)、分布式计算(如Spark),但是肯定有许多小伙伴未曾了解过Alluxio,当然我也未曾深入了解,那么,今天,我们就一起初步了解下Alluxio。它是什么