首页 > 其他分享 >Nvlink对大模型推理的速度有多大提升?

Nvlink对大模型推理的速度有多大提升?

时间:2025-01-15 14:58:15浏览次数:3  
标签:Nvlink reduce 对大 PCIe token P2P ms 推理 NVLink

来自:https://www.zhihu.com/question/654832546/answer/71647384740

先放结论,NVlink 对推理速度的提升非常大,非常非常大!

这可能和高赞答案的结论不一样,且听我娓娓道来 :D

最近在分析 RTX4090 上用 FP8 tensor core 跑 70B 模型的性能瓶颈,发现大模型推理过程中,很多时候通信是非常昂贵的一件事儿。NVLink,甚至 P2P,都会对推理有很大的加速效果。

以 Llama 3 70B TP4 为例,模型共有 80 层,每一层中有 2 次 all reduce 通信,数据量是 batch 中token 的数量乘以 hidden dim (8192)。

在 FP16 下,一个 token 的数据量是 16384 bytes。通信延迟会是什么样的呢?我用 nccl-tests 测了一下单次 all reduce 的延迟和 token 数量之间:

图片

NVLink 3.0 vs PCIe 4.0

如果我们的输入是 4096 个 token,单次 all reduce 的延迟分别是 603 us 和 11369 us。乘上 80 (num layers)和 2(每层 2 次 all reduce)后,NVLink 3.0,PCIe 4.0 的开销则分别是 96.48ms 和 1819.04 ms。

在推理优化尝试榨干 GPU 每一份算力的时候,1819.04 ms 的通信成本是一个非常非常夸张的数字,宝贵的 GPU 计算资源在通信的时候几乎是闲置!

为验证这个数据,我用 vLLM v0.6.6 在 4xA100 的环境实测了一下,一个 4379 tokens 的输入,只跑 prefill。我们通过 NCCL_P2P_DISABLE=1 关闭 NVLink:


NCCL_P2P_DISABLE=1 vllm serve /mnt/resource/public_models/Meta-Llama-3-70B-Instruct-hf -tp 4

在关闭 NVLink 前,latency 是 878.57ms 左右;关闭后,prefill 的 latency 是 2740.17ms。Bang!

考虑到 NVLink 打开时通信开销很小,我们可以大致认为 compute 的时间是 800 ms 左右,那么关闭 NVLink 后,纯通信的开销大概是 1900 ms 左右,和我通过 nccl-test 测出来的 1819 ms 基本相符。

到这里,NVLink 对大模型推理的加速效果可见一斑。其实我们对 latency 也取对数的话,会发现 NVLink 和 PCIe 的 latency 随数据量是线性的,但 PCIe 的斜率明显较大,这是受带宽制约:

图片

NVLink 3.0 vs PCIe 4.0

当输入为 4096 个 token 的时候,实验中 all reduce 传输的数据量是 N * 2 * (D - D / N),其中 D 为 64 MB,N 为 4(GPU 的数量),那么总的通信量为 384 MB。

NVLink 能够达到的带宽是 384 MB / 603 us,约为 631.58 GBps;PCIe 能够达到的带宽是 384 MB / 11369 us,约为 33.77 GBps。

这和 NVLink 3.0,PCIe 4.0 的规格也是相符的。原本应该测测 PCIe 5.0,奈何手头没有合适的机器,后面如果有机会再补充数据吧。

最后放一张带 P2P over PCIe 数据的图作为结束吧。总结一下:在 GPU 越来越快的当下,我们也需要越来越快的通信,否则宝贵的算力是发挥不出来滴!

图片

NVLink 3.0 vs P2P vs PCIe 4.0

标签:Nvlink,reduce,对大,PCIe,token,P2P,ms,推理,NVLink
From: https://blog.csdn.net/AIBigModel/article/details/145160549

相关文章

  • 用 Python 从零开始创建神经网络(二十二):预测(Prediction)/推理(Inference)(完结)
    预测(Prediction)/推理(Inference)(完结)引言完整代码:引言虽然我们经常将大部分时间花在训练和测试模型上,但我们这样做的核心原因是希望有一个能够接受新输入并生成期望输出的模型。这通常需要多次尝试训练最优模型,保存该模型,并加载已保存的模型进行推断或预测。以Fashion......
  • 为AI聊天工具添加一个知识系统 之37 推理引擎:逻辑和诗歌
    本文要点今天讨论的题目是“推理引擎:逻辑和诗歌”。---为本项目(为AI聊天工具增加一个知识系统(作为外挂))制造一个恰当的推理引擎构思灵感--类比推理和形式推理的范式化融合(disciplines--语篇主题topic的组织纪律性 ,即一个topic本身问题描述的准确性、完备性和全面性制......
  • 京东广告生成式召回基于 NVIDIA TensorRT-LLM 的推理加速实践
    作者:京东零售陈航0000生成式推荐系统优势介绍推荐系统的主要任务是根据用户的历史行为预测其兴趣点,并向其推荐相应的商品。传统的推荐系统在处理用户请求时,会触发多个召回模块(包括热门商品召回、个性化召回、深度召回等),以召回大量候选商品。随后,系统通过相对简单的粗排模型对......
  • 【AI论文】在大语言模型中迈向系统2推理:学习如何运用元思维链进行思考
    这篇论文探讨了大型语言模型(LLMs)在处理复杂推理任务时的局限性,并提出了一种名为元思维链(Meta-CoT)的新框架来解决这些缺点(大概就是授大模型以鱼不如授大模型以渔的意思)。Meta-CoT通过明确地模拟到达特定思维链所需的潜在推理过程,扩展了传统的思维链(CoT)方法。HuggingFace链接:Pap......
  • 使用Arthur Callback Handler监控和记录Chat LLM推理
    在现代AI开发中,监控和记录模型的推理过程是保证模型性能和行为一致性的关键步骤。本文将介绍如何利用Arthur平台的回调处理程序(ArthurCallbackHandler)来自动记录已注册的聊天语言模型(LLM)推理。技术背景介绍Arthur是一个专注于模型监控和可观测性的强大平台。它帮助......
  • 大模型常识推理:提示词构建现实世界知识
    引言与背景在当今时代,人工智能(AI)技术的迅猛发展引起了全球的关注。大模型,作为人工智能领域的一个关键突破,已经成为推动科技进步的重要力量。大模型,通常指的是那些拥有千亿甚至万亿参数量的深度学习模型,它们在图像识别、自然语言处理、语音识别等领域展现了卓越的表现。然而......
  • YOLOv11全网最新创新点改进系列:“将Lion自动优化与YOLOv11完美结合,智能优化算法驱动,赋
    YOLOv11全网最新创新点改进系列:“将Lion自动优化与YOLOv11完美结合,智能优化算法驱动,赋能精准检测与高效推理,让您的应用在复杂场景下表现更卓越!”视频讲解戳这里,文档可以不看,视频内容一定要看,干货满满!祝大家少走弯路!!!所有改进代码均经过实验测试跑通!截止发稿时YOLOv11已改进......
  • 来自28亿美元估值的超级独角兽Groq的AI芯片,让LLM推理快到飞起
    公司简介成立于2016年,以快著称的美国人工智能芯片独角兽Groq,2024年8月5日官宣融资6.4亿美元(截止到当前最新一轮融资)。Groq的语言处理单元(LPU,LanguageProcessingUnit)专为AI推理和语言处理而设计,是应时而生、实现AI超快推理的核心技术。到底有多快?相较于英伟达GPU提高......
  • 【AI论文】rStar-Math: 小语言模型实现数学推理达到甚至超越o1水平
    再开一个系列来记录学习AI论文的心得。之前断断续续读过10来篇,最近也听到李想还有几位AI大咖还是公司大佬分享他们是不读AI论文的,但会听自家公司AI团队每周的论文解读会来了解最新进展。这个是有道理的,但咱一线码农没有这个福利,论文还是靠自己。^-^这篇论文的Hugging链接在rSt......
  • 思维的进化:从链式推理到元链式推理的算法探秘
    ......