首页 > 其他分享 >首届IEEE RAS峰会,为什么大厂阿里、字节、腾讯都参加了?

首届IEEE RAS峰会,为什么大厂阿里、字节、腾讯都参加了?

时间:2024-06-10 16:29:46浏览次数:32  
标签:数据中心 字节 Intel 错误 故障 RAS IEEE 内存

"RAS in Data Centers 2024" 首届IEEE RAS(Reliability, Availability, and Serviceability,即可靠性、可用性和可维护性)在数据中心峰会在2024年6月11日至12日举行,地点设在美国加利福尼亚州圣克拉拉市的圣克拉拉万豪酒店(Santa Clara Marriott)。这一峰会主要是为了探讨和交流数据中心领域中关于RAS的重要议题,尤其关注如何提升数据中心基础设施和服务的可靠性、确保系统的高可用性以及优化维护操作,以支持日益增长的云计算、大数据处理、人工智能等应用对数据中心提出的严格要求。

图片

随着数据中心规模的扩大和复杂性的增加,确保系统的RAS特性变得越来越重要。技术进步如量子计算、边缘计算、以及持续增长的数据流量对数据中心的硬件和软件架构提出了更高要求,需要新的策略和技术来应对潜在的故障点,减少停机时间,并简化维护流程。

我们先预览下这个峰会两天的行程:

第一天:6/11。主论坛,针对行业RAS的现状和发展、OCP标准等进行了一天的讨论与分享。该部分就简单略过了。

第二天:6/12。主要有6个分论坛:分别涵盖Data Center RAS、Memory and Interconnects(包括CXL RAS)、AI and RAS、Testing and Resilience四个主题的讨论。

图片

图片

图片

从参会者可以看到:主要是以Intel领衔,国外厂商包括Intel、Meta、AMD、Microsoft、Hynix等、国内厂商主要有:字节、阿里、腾讯、Scaleflux,还有一些国外大学。

会议还未开始,小编还未收集到这些topic的演讲材料。这里主要是从上面会议日程中,可以看到针对内存故障预测以及可靠性提升的话题,已经吸引了国内外大厂的目标,特别是以Intel为首,与各大互联网厂商都有相关合作,这里做一个简单总结,供大家参考。(声明:本文涉及信息均为公开信息,包括公开发表论文以及Intel官网,仅代表个人观点,不涉及任何组织或者机构,仅供学习交流

在数据中心的运维中,DRAM作为服务器的主要存储资源,因其速度和成本效益而备受青睐。然而,DRAM故障却可能导致计算错误,直接影响服务器的可靠性、可用性和可维护性(RAS),进而威胁数据中心的持续运营。传统上,内存故障往往直到服务器崩溃才被发现。

内存故障形式多样,包括单比特错误、单行错误和多数组错误,且每种错误都有其特定的频率模式。某些内存故障具有特定的受害模式,容易演变成不可纠正错误(UE),增加了风险。部分故障间歇出现,难以追踪,而另一些则可复制。

图片

目前,没有一劳永逸的方案能解决所有内存错误问题,例如,随机单比特错误可通过ECC修正,其他类型的错误则需采用不同技术,如系统ECC、SDDC、EDAC、PPR及英特尔MRT。

扩展阅读:

标签:数据中心,字节,Intel,错误,故障,RAS,IEEE,内存
From: https://blog.csdn.net/zhuzongpeng/article/details/139578385

相关文章

  • 计算机组成原理 第六章 计算机的运算方法 Part4 浮点数的四则运算、IEEE754标准与ALU
    1.浮点数介绍基本格式首先需要明确的是浮点数的组成,浮点数由阶码和尾数两部分组成其中阶码又分为阶符和数值部分,阶码J和阶码的位数m共同反应浮点数的表示范围以及小数点的实际位置;尾数由数符和数值部分组成,数符代表浮点数的符号,尾数的数值部分反映浮点数的精度例:阶码E反......
  • [ROS自定义消息问题]ImportError: cannot import name ‘GQCNNGrasp‘ from ‘gqcnn_r
         在使用ROS运行Python代码时,经常会遇到无法引用自定义消息文件的情况。这其实是一个比较常见的问题,通常是由于ROS找不到消息文件所在的路径导致的。问题描述:在ROS中运行Python代码时,如果尝试导入自定义消息文件,可能会遇到类似如下的错误:ImportError:Nomodule......
  • 视频大模型 Vidu 支持音视频合成;字节跳动推出语音生成模型 Seed-TTS 丨 RTE 开发者日
      开发者朋友们大家好: 这里是「RTE开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享RTE(Real-TimeEngagement)领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表编辑的个人观点,......
  • 数据转换-位串字节数组
    utils.c#include"utils.h"intBitstr2ByteArr(unsignedchar*bs,unsignedchar*ba,int*lba){inti,j;for(i=0,j=0;j<*lba;j++){ba[j]=0;for(intk=0;k<8;k++){if(bs[i]=='......
  • JVM之【字节码/Class文件/ClassFile 内容解析】
    说在前面的话Java语言:跨平台的语言(writeonce,runanywhere)当Java源代码成功编译成字节码后,如果想在不同的平台上面运行,则无须再次编译这个优势不再那么吸引人了。Python、PHP、Perl、Ruby、Lisp等有强大的解释器。跨平台似乎已经快成为一门语言必选的特性。Java虚拟......
  • 实验19-使用keras完成语音识别
      wavs_to_model.pyimportwaveimportnumpyasnpimportosimportkerasfromkeras.modelsimportSequentialfromkeras.layersimportDensenum_class=0#加载的语音文件有几种类别labsIndName=[]##训练集标签的名字["seven","stop"]#加载数......
  • 【Java】JVM字节码分析
    一、功能1、工作原理2、解释和运行jvm本质上是运行在计算机上的程序,负责运行java字节码文件对字节码文件中的指令,实时的解释成机器码,供计算机执行3、内存管理自动为对象、方法等分配内存自动垃圾回收机制,回收不再使用的对象4、即时编译在java中每次执行都需要实时解释......
  • 【预计IEEE出版】第四届电子信息工程与计算机技术国际学术会议(EIECT 2024)
       第四届电子信息工程与计算机技术国际学术会议(EIECT2024)20244thInternationalConferenceonElectronicInformationEngineeringandComputerTechnology2024年11月15-17日|中国深圳#往届均已成功见刊、EI检索;先投稿,先送审,先录用!快至投稿后三天录用!重要......
  • 重学java 63.IO流 字节流 ④ 文件复制
    身处泥泞,看满山花开               ——24.6.4图片复制分析1.创建两个对象        FilelnputStream—>读取指定的文件        FileOutputStream—>将读到的字节写到指定的位置2.边读边写importjava.io.FileInputS......
  • 网络字节序和本地字节序之间转换
    网络字节序和本地字节序之间转换目录网络字节序和本地字节序之间转换主机字节序网络字节序相关函数htons,htonl,ntohs,和ntohl相关函数inet_aton,inet_ntoa,inet_pton,和inet_ntop当我们与同一台计算机的进程进行通信时,一般不用考虑字节序。什么是字节序——字节序是一......