AI大模型推理性能优化之KV Cache

时间：2024-09-24 14:54:16浏览次数：3

标签：AI self Cache len states KV key hidden size

前言

本篇介绍KV Cache。

KV Cache（键-值缓存）是一种在大模型推理中广泛应用的优化技术，其核心思想是利用缓存 key 和 value 来避免重复计算，从而提高推理效率。代价是显存占用会增加。

核心思想

在自注意力层的计算中，对于给定的输入序列，模型会计算每个token的key和value向量。这些向量的值在序列生成过程中是不变的。因此，通过缓存这些向量，可以避免在每次生成新token时重复计算，只需计算新token的query向量，并使用缓存的key/value向量进行自注意力计算。

具体来说，decoder一次推理只输出一个token，输出token会与输入tokens 拼接在一起，然后作为下一次推理的输入，这样不断反复直到遇到终止符。

在上面的推理过程中，每 step 内，输入一个 token序列，经过Embedding层将输入token序列变为一个三维张量[b, s, h]，经过一通计算，最后经logits层将计算结果映射至词表空间，输出张量维度为[b, s, vocab_size]。

当前轮输出token与输入tokens拼接，并作为下一轮的输入tokens，反复多次。可以看出第

标签：AI,self,Cache,len,states,KV,key,hidden,size
From： https://blog.51cto.com/u_16163442/12099859

从零到AI专家&产品经理：一站式学习，掌握未来职场核心竞争力
前言随着人工智能技术的飞速发展，AI已经成为推动社会进步的重要力量。在这个数字化转型的时代，AI产品经理的需求日益增长，成为职场中的香饽饽。一、当前AI产品经理的行情分析行业需求近年来，随着AI技术的普及，各行各业都在积极探索AI的应用场景。无论是互联网巨头还是初创企业，都在加大......
AI大模型面经之BERT和GPT的区别
前言本篇介绍bert和gpt区别。BERT和GPT是自然语言处理（NLP）领域中的两种重要预训练语言模型，它们在多个方面存在显著的区别。以下是对BERT和GPT区别的详细分析一、模型基础与架构BERT：全称：BidirectionalEncoderRepresentationsfromTransformers。架构：基于Transformer的编码器部分进......
AI大模型大厂面经——LoRA面试题最全总结
前言大家的显卡都比较吃紧，LoRA家族越来越壮大，基于LoRA出现了各种各样的改进，最近比较火的一个改进版是dora，听大家反馈口碑也不错。基于PEFT的话用409024G显存也可以进行大模型的微调，所以LoRA家族这块还是很有研究和实际落地的潜力。LoRA整个系列分为两个部分：1、LoRA总述2、LoRA家族......
详解2024 openAi最新gpt o1模型分析
探索GPT的O1模型：一场人工智能的革命在人工智能领域，尤其是自然语言处理（NLP）领域，模型的不断迭代和升级为我们带来了前所未有的机遇。最近，OpenAI发布了全新的O1模型，这一创新不仅在技术上取得了重大突破，也为各行各业的应用提供了更多可能性。本文将深入探讨O1模型的核......
Google Photos 利用 AI 驱动的视频预设重新设计视频编辑器
在更新了“收藏”标签和搜索功能后，GooglePhotos现在正在推出其手机视频编辑器的重新设计。目标是让用户“比以往更容易地编辑喜欢的视频，制作成精彩片段分享。”GooglePhotos将主要的编辑工具放在“视频”标签的显眼位置。时间轴下方可以看到以下工具：静音增强：“一键增强颜......
OpenAI 学院计划：一百万美元助力开发者的新 AI 应用开发
OpenAIAcademy于2024年9月23日推出，这是一个创新性的项目，旨在全球范围内赋能开发者和使命驱动的组织，特别是在低收入和中等收入国家。其目标是让更多人能够公平地获取先进的AI资源，并通过创新来应对社会的重大挑战。目的与愿景：Academy的使命是提供公平的AI技术获取机......
必应bing推广kai户流程教学，满足企业获客需求
微软Bing广告提供了三种主要广告类型，可以满足大多数出海企业的展示和客户获取需求。搜索广告（SearchAds）包括标准搜索广告和动态搜索广告。当用户的搜索词与投放的关键词匹配时，相应的搜索广告会被触发，向用户展示精准的广告内容。受众广告（AudienceAds）投放后，广告会展示在微......
基于RHEL 9 搭建 KVM 虚拟化环境
一、准备工作1.检查硬件虚拟化支持KVM要求处理器支持硬件虚拟化技术：IntelVT-x（虚拟化技术扩展）或AMD-V（虚拟化技术扩展）。检查方法：使用以下命令检查CPU是否支持虚拟化：egrep'(vmx|svm)'/proc/cpuinfo输出含有vmx的为Intel处理器支持虚拟化输出含有svm的为A......
中国大陆用户如何使用Jetbrains内置的AI插件AI Assistant
1安装AIAssistant插件AI功能依赖AIAssistant插件：2功能解释代码、回答有关代码片段的问题、提交消息等等。在需要时更快地编码AIAssistant可以自动补全单行、函数和整个代码块，并与您的编码样式、项目上下文和命名约定保持一致。AIAssistant还可以根据您的自然语言提......
AI智能写作时代来临：如何高效提升你的文案创作能力
随着人工智能技术的飞速发展，AI智能写作已经不再是遥不可及的概念，而是逐渐成为内容创作者的得力助手。在这个信息过载的时代，如何利用AI智能写作工具高效提升文案创作能力，成为了许多创作者关注的焦点。以下将从几个方面探讨如何在AI智能写作时代，提升个人的文案创作能力。 ......

AI大模型推理性能优化之KV Cache

前言

相关文章

赞助商

阅读排行