首页 > 其他分享 >AIGC承载网解决方案的设计思路

AIGC承载网解决方案的设计思路

时间:2023-08-18 12:33:36浏览次数:40  
标签:承载 Leaf 200G 接入 解决方案 AIGC 网络 ToR 端口

客户是一家AIGC领域的公司,他们通过构建一套完整的内容生产系统,革新内容创作过程,让用户以更低成本完成内容创作。


客户网络需求汇总

RoCE的计算网络

RoCE存储网络

1.不少于600端口200G以太网接入端口,未来可扩容至至少1280端口

1.不少于100端口200G以太网接入端口,未来可扩容至至少240端口

2. 全网无收敛(1:1收敛比),全线速交换

2. 带宽收敛比不大于3:1

3. 支持RoCE实现无损以太网

3. 支持 RoCE 实现无损以太网

整网方案设计的思路

高性能

AIGC承载网络需要具备高宽带的特性,以支持快速的数据传输和处理。生成内容可能涉及大规模的文本、图像或视频数据,因此需要具备高带宽的网络连接,以便快速传输数据到计算资源节点进行处理;此外,AIGC承载网络需要实现低时延的要求,以确保生成内容的实时性和响应性。在用户上传任务或请求后,网络需要迅速响应并进行任务分配或资源调度。

大规模

AIGC承载网络需要能够处理大量的用户请求和任务,并同时支持多个用户的并发访问。因此,网络架构需要具备高度的可扩展性和负载均衡能力。例如,采用分布式计算和分布式存储技术,使得网络可以横向扩展,自动调节资源分配以应对不断增长的用户需求。

高可用

AIGC承载网络需要具备高可用性,以确保服务的连续性和稳定性。由于AIGC是基于人工智能技术的,其生成过程可能需要较长的时间和大量的计算资源。因此,网络需要具备容错机制和故障恢复策略,以应对硬件故障、网络中断或其他意外情况。

整体方案架构

AIGC承载网解决方案的设计思路_AIGC

AIGC承载网解决方案的设计思路_承载网_02

计算网络设计方案一:整网 1:1 无收敛

不考虑GPU的8个接口的接入方式,8个接口接入1台或多台ToR

AIGC承载网解决方案的设计思路_生成式人工智能_03

  • 交换机 10 Leaf + 20 ToR= 30 台,提供640个接入端口(20*32=640),每台GPU服务器8端口,可以最大可接入GPU服务器 80台
  • 接入侧和Fabric内部互联均可以使用200G的AOC(含两端的200G光模块),其中接入侧600条,Fabric侧600条,合计1200条

方案一的扩展性

AIGC承载网解决方案的设计思路_生成式人工智能_04

  • 基于该架构,最多可以接入64台ToR,最大可以扩展到2048个200G接口接入,满足1280接口接入的扩展性要求

计算网络设计方案二:整网 1:1 无收敛

考虑GPU的8个接口的接入方式,8个接口接入到8台Leaf,每8台Leaf作为一个分组

AIGC承载网解决方案的设计思路_AIGC_05

  • 交换机 13 Leaf + 24 ToR = 37 台,按600个接入端口(75台GPU服务器),每组8个ToR接入25台GPU服务器,3组ToR接入75台
  • 每组ToR接入25台GPU服务器,下行接入带宽为200*200GE,因此,上行也需要至少是200*200GE带宽,每台ToR到每台Leaf为2条200G,总上行带宽为2*13*8*200GE,满足1:1收敛要求
  • 接入侧和Fabric内部互联均可以使用200G的AOC(含两端的200G光模块),其中接入侧600条,Fabric侧624条,合计1224条

方案二的扩展性

AIGC承载网解决方案的设计思路_生成式人工智能_06

  • 基于该架构,最多可以接入8组ToR ,每组8个ToR接入32台GPU服务器,8组ToR接入256台
  • 最大可以扩展到2048个200G接口接入,满足1280接口接入的扩展性要求

存储网络设计方案:整网 3:1 收敛

AIGC承载网解决方案的设计思路_生成式人工智能_07

  • 交换机 2 Leaf + 3 ToR = 5 台,提供最大144个接入端口(满足100个接入需求)
  • 如果不考虑Leaf高可靠部署,也可以单Leaf接入
  • 接入侧和Fabric内部互联均可以使用200G的AOC(含两端的200G光模块),其中接入侧100条,Fabric侧36条,合计136条

存储网络扩展性

AIGC承载网解决方案的设计思路_生成式人工智能_08

  • 交换机 2 Leaf + 5 ToR = 7 台,提供最大240个接入端口(满足240个接入的扩展需求)

方案价值与优势

⇘ 超低TCO、超高性价比

相较于IB方案,大幅度降低用户的网络TCO,同时确保超高性能

⇘ 横向平滑扩容、1:1收敛无阻塞

无收敛的网络设计确保无阻塞的大容量网络,按需横向扩展

⇘ 整网RoCEv2

基于CEE/DCB能力,提供可与IB媲美的性能和同样无损的网络服务

⇘ 开放网络操作系统

星融元网络操作系统AsterNOS,SONiC企业级发行版,支持灵活的功能扩展、在线升级

⇘ 无缝对接云管

AsterNOS 利用简单易用的REST API,可轻松让第三方的云平台/控制器快速纳管

⇘ 专家级服务

专业、全面、可靠的研发、方案与服务团队,为客户提供小时级的快速响应服务


关注vx公号“星融元Asterfusion”,获取更多技术分享和最新产品动态。

标签:承载,Leaf,200G,接入,解决方案,AIGC,网络,ToR,端口
From: https://blog.51cto.com/u_15905258/7133502

相关文章

  • tfs 迁入解决方案缺少项目文件[*.csproj]
    .csproj、.vssscc没办法签入TFS怎么办?试图将VisualStudio文件上传到TeamFoundationServer中,但是签入了解决方案文件,项目文件一个都没签入,没办法,就右键,手工将文件添加到源代码管理器。但是.csproj、.vssscc并没有在VisualStudio的解决方案资源管理器中出现,怎么将......
  • 【华秋推荐】无线充电的原理与解决方案
    工业和信息化部近日印发《无线充电(电力传输)设备无线电管理暂行规定》。规定”适用于生产或者进口在国内销售、使用的移动通信终端无线充电设备、便携式消费电子产品无线充电设备,以及电动汽车(含摩托车)无线充电设备,该规定将于2024年9月1日起正式施行。这意味着包括智能手机、移动电......
  • 交通枢纽智能可视化综合管理系统解决方案
    一、行业需求交通枢纽是城市管理中一个典型的跨应用场景,如铁路、公路、航空、内河航运、海港等,人流、车流量较多,环境复杂,易发生突发情况,因此安全和安保是非常重要的考虑因素。交通枢纽的运营管理体系建设需要考虑到人员疏散、消防设施、监控系统等方面的安全要求,以防止恐怖袭击和其......
  • vue3项目,vie框架,相对路径图片,测试时正常显示,发布后不显示问题解决方案
    参考Vite官网的说明,修改图片的引用路径后,图片发布后可以正常显示constimgUrl=newURL('./img.png',import.meta.url).hrefdocument.getElementById('hero-img').src=imgUrl官网地址: https://cn.vitejs.dev/guide/assets.html ......
  • 什么是电商解决方案的 Composable 特性
    电商网站解决方案中的"composable"特性,或者叫"组合性"特性,是指电商平台的各种服务、功能和模块可以自由组合,以满足不同的业务需求。这种设计理念在现代电商平台的架构设计中得到了广泛的应用和实践。"组合性"的优点是显而易见的。首先,它可以提高系统的灵活性和可扩展性。通......
  • python中3种获取cookie解决方案
    方案一:利用selenium+phantomjs无界面浏览器的形式访问网站,再获取cookie值:fromseleniumimportwebdriverdriver=webdriver.PhantomJS()url="https://et.xiamenair.com/xiamenair/book/findFlights.action?lang=zh&tripType=0&queryFlightInfo=XMN,PEK,2018-01-15"drive......
  • 桌面云教学一体机解决方案有哪些
    桌面云教学一体机是指将计算资源和教学软件部署在云端,通过终端设备(如终端电脑、平板等)进行访问和使用,实现远程教学的解决方案,可以在教学过程中可以涵盖各种场景。一、桌面云一体机的教学场景云端课堂:桌面云的一体机解决方案可以帮助教师实现远程课堂,对比以前传统的教师教学环境,......
  • 适用于各行业的桌面云解决方案-青椒云
    青椒云是一款基于云计算技术的桌面云解决方案,通过将计算资源和应用程序虚拟化在云服务器上,实现了将高性能计算和资源共享带入到用户的终端设备中。青椒云可以帮助用户实现远程访问、数据存储、多人协作和数据安全等功能,适用于各行业的桌面云需求。一、设计类行业对于设计行业来......
  • 关于Node.js 构建中遇到node-gyp报错问题的解决方案记录
    项目今天进行版本更新,在走阿里云流水线的时候,出现了Node.js构建过程报错问题,抱歉详情截图如下: 经过反复排查,最终发现是因为阿里云的npm仓库的问题,于是果断更换npm仓库,执行命令如下:npmconfigsetregistryhttps://registry.npm.taobao.org然后重新 npmi--force 进行......
  • 安防监控视频汇聚平台EasyCVR视频平台调用iframe地址无法播放的问题解决方案
    安防监控视频汇聚平台EasyCVR基于云边端一体化架构,具有强大的数据接入、处理及分发能力,可提供视频监控直播、云端录像、视频云存储、视频集中存储、视频存储磁盘阵列、录像检索与回看、智能告警、平台级联、云台控制、语音对讲、AI算法中台智能分析无缝对接等功能。为了便于用户......