首页 > 其他分享 >AI大模型推理性能优化之KV Cache

AI大模型推理性能优化之KV Cache

时间:2024-09-24 14:54:16浏览次数:3  
标签:AI self Cache len states KV key hidden size


前言

本篇介绍KV Cache。

KV Cache(键-值缓存)是一种在大模型推理中广泛应用的优化技术,其核心思想是利用缓存 key 和 value 来避免重复计算,从而提高推理效率。代价是显存占用会增加。

核心思想

在自注意力层的计算中,对于给定的输入序列,模型会计算每个token的key和value向量。这些向量的值在序列生成过程中是不变的。因此,通过缓存这些向量,可以避免在每次生成新token时重复计算,只需计算新token的query向量,并使用缓存的key/value向量进行自注意力计算 。

具体来说,decoder一次推理只输出一个token,输出token会与输入tokens 拼接在一起,然后作为下一次推理的输入,这样不断反复直到遇到终止符。

在上面的推理过程中,每 step 内,输入一个 token序列,经过Embedding层将输入token序列变为一个三维张量[b, s, h],经过一通计算,最后经logits层将计算结果映射至词表空间,输出张量维度为[b, s, vocab_size]。

当前轮输出token与输入tokens拼接,并作为下一轮的输入tokens,反复多次。可以看出第

标签:AI,self,Cache,len,states,KV,key,hidden,size
From: https://blog.51cto.com/u_16163442/12099859

相关文章

  • 从零到AI专家&产品经理:一站式学习,掌握未来职场核心竞争力
    前言随着人工智能技术的飞速发展,AI已经成为推动社会进步的重要力量。在这个数字化转型的时代,AI产品经理的需求日益增长,成为职场中的香饽饽。一、当前AI产品经理的行情分析行业需求近年来,随着AI技术的普及,各行各业都在积极探索AI的应用场景。无论是互联网巨头还是初创企业,都在加大......
  • AI大模型面经之BERT和GPT的区别
    前言本篇介绍bert和gpt区别。BERT和GPT是自然语言处理(NLP)领域中的两种重要预训练语言模型,它们在多个方面存在显著的区别。以下是对BERT和GPT区别的详细分析一、模型基础与架构BERT:全称:BidirectionalEncoderRepresentationsfromTransformers。架构:基于Transformer的编码器部分进......
  • AI大模型大厂面经——LoRA面试题最全总结
    前言大家的显卡都比较吃紧,LoRA家族越来越壮大,基于LoRA出现了各种各样的改进,最近比较火的一个改进版是dora,听大家反馈口碑也不错。基于PEFT的话用409024G显存也可以进行大模型的微调,所以LoRA家族这块还是很有研究和实际落地的潜力。LoRA整个系列分为两个部分:1、LoRA总述2、LoRA家族......
  • 详解2024 openAi最新gpt o1模型分析
    探索GPT的O1模型:一场人工智能的革命在人工智能领域,尤其是自然语言处理(NLP)领域,模型的不断迭代和升级为我们带来了前所未有的机遇。最近,OpenAI发布了全新的O1模型,这一创新不仅在技术上取得了重大突破,也为各行各业的应用提供了更多可能性。本文将深入探讨O1模型的核......
  • Google Photos 利用 AI 驱动的视频预设重新设计视频编辑器
    在更新了“收藏”标签和搜索功能后,GooglePhotos现在正在推出其手机视频编辑器的重新设计。目标是让用户“比以往更容易地编辑喜欢的视频,制作成精彩片段分享。”GooglePhotos将主要的编辑工具放在“视频”标签的显眼位置。时间轴下方可以看到以下工具:静音增强:“一键增强颜......
  • OpenAI 学院计划:一百万美元助力开发者的新 AI 应用开发
    OpenAIAcademy于2024年9月23日推出,这是一个创新性的项目,旨在全球范围内赋能开发者和使命驱动的组织,特别是在低收入和中等收入国家。其目标是让更多人能够公平地获取先进的AI资源,并通过创新来应对社会的重大挑战。目的与愿景:Academy的使命是提供公平的AI技术获取机......
  • 必应bing推广kai户流程教学,满足企业获客需求
    微软Bing广告提供了三种主要广告类型,可以满足大多数出海企业的展示和客户获取需求。搜索广告(SearchAds)包括标准搜索广告和动态搜索广告。当用户的搜索词与投放的关键词匹配时,相应的搜索广告会被触发,向用户展示精准的广告内容。受众广告(AudienceAds)投放后,广告会展示在微......
  • 基于RHEL 9 搭建 KVM 虚拟化环境
    一、准备工作1.检查硬件虚拟化支持KVM要求处理器支持硬件虚拟化技术:IntelVT-x(虚拟化技术扩展)或AMD-V(虚拟化技术扩展)。检查方法:使用以下命令检查CPU是否支持虚拟化:egrep'(vmx|svm)'/proc/cpuinfo输出含有vmx的为Intel处理器支持虚拟化输出含有svm的为A......
  • 中国大陆用户如何使用Jetbrains内置的AI插件AI Assistant
    1安装AIAssistant插件AI功能依赖AIAssistant插件:2功能解释代码、回答有关代码片段的问题、提交消息等等。在需要时更快地编码AIAssistant可以自动补全单行、函数和整个代码块,并与您的编码样式、项目上下文和命名约定保持一致。AIAssistant还可以根据您的自然语言提......
  • AI智能写作时代来临:如何高效提升你的文案创作能力
    随着人工智能技术的飞速发展,AI智能写作已经不再是遥不可及的概念,而是逐渐成为内容创作者的得力助手。在这个信息过载的时代,如何利用AI智能写作工具高效提升文案创作能力,成为了许多创作者关注的焦点。以下将从几个方面探讨如何在AI智能写作时代,提升个人的文案创作能力。 ......