• 2024-04-09全国首个!天翼云上海临港国产单池万卡液冷算力集群启用!
    3月22日,中国电信宣布,天翼云上海临港国产万卡算力池正式启用,八家合作伙伴宣布将作为首批用户入驻临港国产算力池。这是国内首个投入正式运营的国产单池万卡液冷算力集群,也是业内领先的全国产化云智一体公共智算中心。通过中国电信天翼云打造的人工智能公共算力服务平台,将以公共
  • 2024-04-08全国首/个!天翼云上海临港国产单池万卡液冷算力集群启用!
    3月22日,中国电信宣布,天翼云上海临港国产万卡算力池正式启用,八家合作伙伴宣布将作为首批用户入驻临港国产算力池。这是国内首/个投入正式运营的国产单池万卡液冷算力集群,也是业内领先的全国产化云智一体公共智算中心。通过中国电信天翼云打造的人工智能公共算力服务平台,将以公共普
  • 2024-03-30MegaScale:字节万卡集群
    随着训练集群扩展到超过数万个GPU,软件和硬件故障几乎不可避免。字节引入了一个健壮的训练框架,实现了自动故障识别和快速恢复,在最少的人为干预下实现了容错,并且对正在进行的训练任务的影响可以忽略不计。1.训练流程分配资源:在接收到提交的训练任务后,driver进程会与自定义的K