• 2024-10-16DuoAttention: 高效的长上下文大语言模型推理方法
    在人工智能的日新月异中,长上下文大语言模型(LLMs)如同一颗闪亮的明星,吸引着研究人员的目光。然而,部署这些模型并非易事,尤其在处理长上下文时,面临着计算和内存的巨大挑战。在这一背景下,“DuoAttention”的理念应运而生,旨在通过高效的长上下文推理方法,缓解这些问题。