降低大模型推理87%时延！华为云论文入选顶会USENIX ATC'24

时间：2024-07-19 13:51:23浏览次数：13

标签：24 ATC Cache 华为 USENIX KV CachedAttention 推理

本文分享自华为云社区《降低大模型推理87%时延！华为云论文入选顶会USENIX ATC'24》，作者：华为云头条。

近日，计算机系统领域顶会USENIX ATC 2024在美国加州圣克拉拉召开，华为云EMS团队的论文《Cost-Efficient Large Language Model Serving for Multi-turn Conversations with CachedAttention》被该顶会收录！

CachedAttention论文提出全球首个面向大模型推理的多级KV Cache缓存系统，称作AttentionStore，基于AttentionStore实现了大模型推理过程中的KV Cache复用，降低了高达87%的首Token时延（TTFT, Time to First Token）。

USENIX ATC (Annual Technical Conference) 会议创办于1992年，距今有32年的历史，是由美国高等计算系统协会 (USENIX) 组织的聚焦计算机系统领域的顶级国际会议。2024年的USENIX ATC会议收到488篇投稿，录用77篇，录用率仅15.8%。

CachedAttention论文介绍

通过多轮对话与人类互动是大型语言模型（LLM）的一个基本特征。然而，现有的LLM服务引擎执行多轮对话时，需要反复计算历史Token的Key-Value (KV) Cache，从而导致效率低下，产生高昂的推理服务成本。

为了解决这个问题，本论文提出了CachedAttention，一种新的注意力机制允许在多轮对话中重用KV Cache，显著减少重复计算开销从而提升推理性能。

CachedAttention维护一个分层的KV Cache存储系统（称作AttentionStore），利用经济高效的DRAM和SSD介质来保存请求的KV Cache。具体而言，为了减少从慢速介质上访问KV Cache的开销，CachedAttention采用了分层预加载和异步保存方法将KV Cache访问与NPU计算重叠。
其次，为了确保要访问的KV Cache总是放置在最快的存储层次，CachedAttention采用了一个调度程序感知的Fetch和Evict方法，有意识地根据推理作业调度程序的提示，在不同层中进行KV Cache的放置。
最后，为了避免由于LLM上下文窗口溢出而导致保存的KV Cache失效，CachedAttention通过解耦位置编码并有效截断KV Cache，使保存的KV Cache依然有效。

大量的实验结果表明，CachedAttention降低了高达87%的大模型推理的首Token时延 (TTFT) ，提升了Prefill阶段7.8倍的吞吐量，从而大幅降低端到端推理成本。

▲基于EMS-AttentionStore构建的CachedAttention系统架构图

CachedAttention论文信息：Bin Gao, Zhuomin He, Puru Sharma, Qingxuan Kang, Djordje Jevdjic, Junbo Deng, Xingkun Yang, Zhou Yu, Pengfei Zuo, “Cost-Efficient Large Language Model Serving for Multi-turn Conversations with CachedAttention”, in Proceedings of the 2024 USENIX Annual Technical Conference (USENIX ATC), 2024.

华为云AI-Native智算存储解决方案介绍

华为云EMS弹性内存存储服务是业界云厂商中首个在实际场景中得到使用的内存存储服务，通过Memory Pooling专利技术实现了“显存扩展”、“算力卸载”、“以存代算”三大功能来打破内存墙。

不仅如此，面向整个AI场景，华为云还形成了EMS弹性内存存储+SFS Turbo弹性文件存储+OBS对象存储的AI-Native智算存储解决方案，实现万亿模型存的下，训练任务恢复快，海量数据存的起，全面引领AI时代数据存储变革，帮助客户构建AI Native的基础设施。

EMS (003).png

▲HDC 2024上华为云发布EMS弹性内存存储服务

点击关注，第一时间了解华为云新鲜技术~

标签：24,ATC,Cache,华为,USENIX,KV,CachedAttention,推理
From： https://www.cnblogs.com/huaweiyun/p/18311345

SURE：增强不确定性估计的组合拳，快加入到你的训练指南吧 | CVPR 2024
论文重新审视了深度神经网络中的不确定性估计技术，并整合了一套技术以增强其可靠性。论文的研究表明，多种技术（包括模型正则化、分类器改造和优化策略）的综合应用显着提高了图像分类任务中不确定性预测的准确性来源：晓飞的算法工程笔记公众号论文:SURE:SUrveyREcipesforbuild......
UNR2024 游记
Day-2高考结束之后一直在摆烂。每天大概就是，打游戏，看视频，聊天，随机胡题。果然，假期是很难有动力认真干什么事情的。又把元气骑士下回来了。这太童年了。打了几把，感觉现在元气的难度低了好多了。\(\color{orange}{\text{serenity}}\)一枪\(\color{red}{\text{120}}\)，开个双......
都2024年了，还在问网络安全怎么入门，气得我当场脑血栓发作
前言本人从事网路安全工作12年，曾在2个大厂工作过，安全服务、售后服务、售前、攻防比赛、安全讲师、销售经理等职位都做过，对这个行业了解比较全面。下面就开始进入正题，如何从一个萌新一步一步进入网络安全行业。正题首先,在准备进入这个行业之前，我们要问一下我们的内心，工作千......
2024牛客暑期多校训练营2 B.MST（题解）
题意给一张\(n\)个点,\(m\)条边的无向图，\(q\)次询问，每次询问给\(k\)个结点，问这\(k\)个结点的诱导子图(也就是原图中抽出这些结点，以及原图中这些节点之间有的边)的最小生成树是多少，不连通输出-1，保证\(q\)次询问加起来问到的点的数量\(\sumk_i\leq10^5\)。思路......
20240713 报错fcntl
消费机报错：昨天晚上消费机连不上网了，今早依旧，同事重启了一下docker，就好了。抽空要学一下docker和服务器部署。消费机同步订单接口：因为昨天没连上网，我尝试刷脸消费，结果成功了。多了一条离线消费记录。也爆露出来少个离线同步订单的接口。请求的数据：{"Count":"1","D......
20240718 数据库外键报错
报错1. 1452-Cannotaddorupdateachildrow:aforeignkeyconstraintfails(bvn'.'user_user_role^,CONSTRAINT^user_user_role_user_id_e615b4e0_fk_user_user_idFOREIGNKEY(user_id’)REFERENCES^user_user(id'))翻译：不能添加或更新子行:外键约束失败(bvn&#......
20240719-CentOS7 ftp服务器搭建与xftp连接
在CentOS7上搭建ftp服务器，可以使用vsftpd守护进程。安装vsftpd：sudoyuminstall-yvsftpd启动并使vsftpd开机自启：sudosystemctlstartvsftpdsudosystemctlenablevsftpd配置vsftpd编辑配置文件/etc/vsftpd/vsftpd.conf，根据需要修改如下配置：anonymous_enable=NO#禁用......
【专题】2024年中国AIGC行业应用价值研究报告合集PDF分享（附原数据表）
原文链接:https://tecdat.cn/?p=36570原文出处：拓端数据部落公众号大模型的发展标志着AIGC时代的来临，没有大模型支撑的AI已成为旧时代产物，缺乏竞争力。技术的突破始终是AI发展的关键，而商业应用则是推动其迅速发展的加速器。AI的持久繁荣依赖于其商业化的成功。展望2024年，我们有......
vue3 watch watchEffect computed 使用差别
概论watch监听明确的数据computed监听数据并返回计算结果watchEffect重视监听过程测试代码子组件<template><divclass='box'><div>props监听测试</div>computed返回的内容的深度属性:{{configTwo.obj1&&configTwo.obj1.xxx}}<div></div......
SuperCLUE：中文大模型基准测评2024年上半年报告
SuperCLUE是一个中文通用大模型的综合性评测基准，其前身是CLUE（TheChineseLanguageUnderstandingEvaluation），自2019年成立以来，CLUE基准一直致力于提供科学、客观和中立的语言模型评测。SuperCLUE继承并发展了CLUE的测评体系，构建了一个多层次、多维度的综合性测评基准......

降低大模型推理87%时延！华为云论文入选顶会USENIX ATC'24

CachedAttention论文介绍

华为云AI-Native智算存储解决方案介绍

相关文章

赞助商

阅读排行