Hungry Hungry Hippos Towards Language Modeling with State Space Models

时间：2024-06-12 17:34:42浏览次数：25

标签：phi Towards mathbf Language text sum attention Hungry SSM

概
H3
代码

Fu D. Y., Dao T., Saab K. K., Thomas A. W., Rudra A. and Re C. Hungry hungry hippos: towards language modeling with state space models. 2022.

概

Mamba 系列第五作: H3.

H3

感觉 H3 是之前的 linear attention 和 SSM 的一个结合, 它所做的只是把 linear attention 中的部件改成了 SSM 的结构.
attention 的平方复杂度一直是一个问题, 给定 \(Q_i, K_i, V_i \in \mathbb{R}^d, i=1,\ldots, N\) (\(N\) 为序列长度), linear attention 解决这个问题的思路是:

\[O_i = \frac{ \sum_{j=1}^i \text{Sim}(Q_i, K_j) V_j }{ \sum_{j=1}^i \text{Sim} (Q_i, K_j) } \in \mathbb{R}^d, \]
其中对于一般的 softmax attention, \(\text{Sim}(q, k) = e^{q^T k}\), linear attention 则是

\[\text{Sim} (q, k) = \phi(q)^T \phi(k), \]
\(\phi\) 是某个 non-linear function.
由此一来, 我们就会有:

\[O_i = \frac{ \phi(Q_i)^T \sum_{j=1}^i \phi(K_j) V_j^T }{ \phi(Q_i)^T \sum_{j=1}^i \phi (K_j) }, \]
令

\[S_i = \sum_{j=1}^i \phi (K_j) V_j^T \in \mathbb{R}^{d \times d}, \\ z_i = \sum_{j=1}^i \phi (K_j) \in \mathbb{R}^d, \\ d_i = \phi (Q_i)^T z_i \in \mathbb{R}. \]
我们有

\[O_i = \frac{\phi(Q_i)^T S_i}{d_i}. \]
H3 就是把:

\[\phi (\mathbf{K}) \rightarrow \text{SSM}_{\text{shift}} (\mathbf{K}) \odot \mathbf{V}, \\ S_i \rightarrow \text{SSM}_{\text{diag}} ( \text{SSM}_{\text{shift}} (\mathbf{K}) \odot \mathbf{V}), \\ \]
最后我们有

\[\mathbf{O} = \mathbf{Q} \odot \text{SSM}_{\text{diag}} ( \text{SSM}_{\text{shift}} (\mathbf{K}) \odot \mathbf{V}). \]
模型结构如下:

算法如下:

注: 作者额外讨论了加速算法, 感兴趣的请回看原文.

代码

[official-code]

标签：phi,Towards,mathbf,Language,text,sum,attention,Hungry,SSM
From： https://www.cnblogs.com/MTandHJ/p/18244368

LISA: Reasoning Segmentation via Large Language Model
Motivation&Abs现有的感知系统依赖人类的指示，难以主动推理以理解人类意图。新任务：reasoningsegmentation，模型需要根据给定的复杂/具有隐含意义的文本输出相应的segmask。新的benchmark：包含1000张左右图像的数据集（image-instruction-mask）。模型：LISA，既有LLM的语言生成能力......
CBT-LLM: A Chinese Large Language Model for Cognitive Behavioral Therapy-based M
本文是LLM系列文章，针对《CBT-LLM:AChineseLargeLanguageModelforCognitiveBehavioralTherapy-basedMentalHealthQuestionAnswering》的翻译。CBT-LLM：一个基于认知行为治疗的心理健康问答的中文大语言模型摘要1引言2相关工作3方法4实验5结论和未......
Arcee’s MergeKit: A Toolkit for Merging Large Language Models
本文是LLM系列文章，针对《Arcee’sMergeKit:AToolkitforMergingLargeLanguageModels》的翻译。Arcee的MergeKit：一个用于合并大型语言模型的工具包摘要1引言2背景和相关工作3库设计：关键设计原则4MergeKit的可扩展性5MergeKit的普及性和有效性6结论和......
CoLLEGe: Concept Embedding Generation for Large Language Models
本文是LLM系列文章，针对《CoLLEGe:ConceptEmbeddingGenerationforLargeLanguageModels》的翻译。CoLLEGe：大型语言模型的概念嵌入生成摘要1引言2相关工作3CoLLEGe：概念学习与语言嵌入生成4用于训练CoLLEGe的数据集5实验6结论和讨论摘要当前的语言......
Summary:《Adversarial Machine Learning in Image Classification: A Survey Towards
Note“TaxonomyofAdversarialImages”(Machado等,2023,p.5)(pdf)扰动范围（PerturbationScope）:个体扰动（Individual-scopedperturbations）:为每个输入图像单独生成的扰动。通用扰动（Universal-scopedperturbations）:独立于任何输入样本生成的扰动，可应用于任何合......
Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning
发表时间：2024(ICLR2024)文章要点：文章提出用预训练的视觉语言模型作为zero-shot的rewardmodel（VLM-RMs）。好处在于可以通过自然语言来给定一个具体的任务，通过VLM-RMs让强化学习基于reward学习这个任务（usingpretrainedvision-languagemodels(VLMs)aszeroshotrewardmodels......
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and
Motivation&Abs端到端大规模视觉语言预训练的开销极大。为此，本文提出了BLIP2，利用现成的冻住的imageencoder以及LLM引导视觉语言预训练。模态差距：通过两阶段训练的轻量级的QueryTransformer（Q-Former）弥补。第一阶段：从冻结的imageencoder引导VL学习；第二阶段：从冻结的LLM引导视......
CLIP（Contrastive Language-Image Pre-training）
CLIP（ContrastiveLanguage-ImagePre-training）是一种多模态预训练神经网络模型，由OpenAI在2021年初发布469。CLIP的核心创新在于其能够将图像和文本映射到一个共享的向量空间中，使得模型能够理解图像和文本之间的语义关系1。CLIP模型的架构非常简洁，但在zero-shot文本-图像检索、z......
Dated Data: Tracing Knowledge Cutoffs in Large Language Models
本文是LLM系列文章，针对《DatedData:TracingKnowledgeCutoffsinLargeLanguageModels》的翻译。日期数据：追踪大型语言模型中的知识截断摘要1引言2相关工作3方法4结果5为什么模型与截止日期不一致？6结论摘要已发布的大型语言模型（LLM）通常与声称的......
Optimizing Language Augmentation for Multilingual Large Language Models: A Case
本文是LLM系列文章，针对《OptimizingLanguageAugmentationforMultilingualLargeLanguageModels:ACaseStudyonKorean》的翻译。优化多语言大型语言模型的语言增强——以朝鲜语为例摘要1引言2相关工作3丰富MLLM词汇4LIMA上的指令调整5定量评估6定......

Hungry Hungry Hippos Towards Language Modeling with State Space Models

概

H3

代码

相关文章

赞助商

阅读排行