Transformer大模型加速简介(3)-InFormer

时间：2024-11-06 22:15:42浏览次数：6

标签：Transformer 预测简介模型注意力复杂度序列 InFormer Informer

Transformer模型，即《Attention is All your Need》这一大作自从被提出以来，已经成为自然语言处理（NLP）和计算机视觉等领域的核心架构（详见 https://blog.csdn.net/burstone/article/details/143135395 ）。然而，由于其对计算和存储的高要求，对于长序列的处理存在很大的性能开销。本文介绍另外一种加速方法：Informer，它是荣获AAAI 2020 Best Paper的论文《Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting》。该文章设计了一个高效的基于Transformer的LSTF模型，命名为Informer，该模型的主要贡献有如下三点：

加速1：提出的ProbSparse机制，时间复杂度O(LlogL)，内存复杂度O(LlogL)，其中L为序列长度。比典型的transformer中attention的O(L^2)的复杂度大大降低；并在序列依赖对齐方面具有相当的性能。
加速2：提出的Self-Attention Distilling，总间复杂度降低到O((2 - ε)L*log L)，易于处理长序列。
加速3：提出生成式解码器（generative style decoder）来线上预测，而不是一步一步的预测，大大提高了长序列预测的推理速度。

具体地，该模型通过以下几种方式来加速长序列时间序列预测（LSTF）：

ProbSparse自注意力机制：
Informer模型提出了ProbSparse自注意力机制，这种机制通过概率方法选择最重要的一部分注意力权重进行计算，而忽略那些对结果影响较小的权重。这种方法能够显著降低计算复杂度，同时保持较高的模型性能。具体如下：

a. 计算Query和Key的点积：首先计算每个Query（Q）和所有Key（K）的点积，得到注意力得分。

b. 稀疏度衡量：通过概率方法选择最重要的一部分注意力权重进行计算，忽略那些对结果影响较小的权重。

c. Softmax函数：对筛选后的注意力得分应用Softmax函数，得到最终的注意力权重。

d. 加权求和：使用注意力权重对Value（V）进行加权求和，得到最终的输出。

下面，举例来解释Informer模型中的ProbSparse自注意机制如何加速长序列时间序列预测（LSTF）：

假设有一个电力消耗数据集，需要预测未来168小时的电力消耗情况，给定过去72小时的电力消耗数据。若输入序列长度为96（例如，96小时的电力消耗数据）：

随机选取25个关键时间点（k）。
计算每个时间点（q）与这25个关键时间点的内积，得到25个得分。
对每个时间点，选取得分最高的与均值的差异。
从96个时间点中选出差异前25大的时间点。
其他时间点使用值向量的平均值代替。

因而，通过这种方式，Informer模型能够有效地处理长序列时间序列数据，同时保持较高的预测性能和较低的计算复杂度。

自注意力蒸馏操作：
Informer模型在J-Stacking Layers中控制attention scores的Self-Attention Distilling操作权限，并将总空间复杂度降低到O((2 - ε)L*log L)。这种操作通过减半级联层输入来突出主导注意力，有效处理极长输入序列。
生成式解码器：
Informer模型提出了一个生成式解码器，与概念上简单的逐步解码（step-by-step）不同，生成式解码器可以在一个前向操作中预测长序列输出，而不是逐步预测。这种方法极大地提高了长序列预测的推理速度。
编码器-解码器架构的改进：
Informer模型通过改进传统的编码器-解码器架构，解决了原始Transformer在处理长序列时的固有限制，包括二次时间复杂度和高内存使用问题。
多组件嵌入定义：
Informer模型利用三组件方法定义其嵌入，包括从卷积网络获得的编码自回归特征、从谐波函数派生的窗口相对位置嵌入，以及从日历特征获得的绝对位置嵌入。

通过上述这些方法，Informer模型不仅提高了长序列时间序列预测的效率，还保持了模型的预测能力，使其在实际应用中，因其在处理长序列时间序列预测问题中的高效性能，被应用于很有众多的领域：（1）金融方面：预测股票价格和市场趋势。（2）气象方面：天气变化预测，如温度、降水量等。（3）交通流量：预测不同时间段的交通流量。

标签：Transformer,预测,简介,模型,注意力,复杂度,序列,InFormer,Informer
From： https://blog.csdn.net/burstone/article/details/143496311

javascript模块 (Module) 简介
https://blog.csdn.net/chehec2010/article/details/119804381 随着ES6的出现，js模块已经成为正式的标准了。曾经为了解决js模块问题而发展起来的民间秘籍，requireJs(AMD)、SeaJs(CMD)、Node(CommonJs)，已经或者不久的将来会成为历史。了解历史也是很重要的，因为正式标准就是......
Selenium简介
Selenium是一个广泛应用的自动化测试工具，专门用于Web应用的测试。它提供了多种功能和灵活的操作方式，使测试人员可以通过编程方式模拟用户与Web浏览器的交互。以下是一些Selenium的基础介绍材料：1.什么是Selenium？Selenium是一个开源的Web自动化测试框架，可以通过编......
基于LLM Graph Transformer的知识图谱构建技术研究：LangChain框架下转换机制实践
文本到图谱的转换是一个具有技术挑战性的研究领域，其核心任务是将非结构化文本数据转换为结构化的图谱表示。这种技术虽然由来已久，但随着大型语言模型(LLMs)的发展，其应用范围得到了显著扩展，并逐渐成为主流技术方案之一。上图展示了信息抽取过程中文本到知识图谱的转换。图左侧展......
Ollama简介，以及中文使用指南和AMD图形显卡驱动下载
Ollama是一个开源的大型语言模型（LLM）服务工具，它旨在简化在本地运行大语言模型的过程，降低使用大语言模型的门槛。Ollama使得开发者、研究人员和爱好者能够在本地环境快速实验、管理和部署最新的大语言模型，包括但不限于如Qwen2、Llama3、Phi3、Gemma2等开源的大型语言模型。Oll......
LPC1100 系列_1.简介与入门
1.简介与入门1.1LPC1100系列概述LPC1100系列是NXP推出的一款基于ARMCortex-M0内核的低功耗、高性能单片机。该系列单片机适用于各种嵌入式应用，包括传感器网络、工业控制、消费电子和医疗设备等。LPC1100系列的主要特点包括：低功耗：具有多种低功耗模式，适用于电池......
【深度学习滑坡制图|论文解读4】基于融合CNN-Transformer网络和深度迁移学习的遥感影
【深度学习滑坡制图|论文解读4】基于融合CNN-Transformer网络和深度迁移学习的遥感影像滑坡制图方法【深度学习滑坡制图|论文解读4】基于融合CNN-Transformer网络和深度迁移学习的遥感影像滑坡制图方法文章目录【深度学习滑坡制图|论文解读4】基于融合CNN-Transformer......
ONLYOFFICE办公软件的简介与体验
官网链接ONLYOFFICE-企业在线办公应用软件|ONLYOFFICE引言在数字化时代，办公软件已成为我们日常工作和生活中不可或缺的一部分。随着技术的发展和工作方式的变化，传统的办公软件逐渐显露出其局限性，不再能满足我们对效率和便捷性的日益增长的需求。面对这一挑战，ONLYOFFICE......
专业术语简介【一】：没有银弹、加盐、毛刺、冒烟测试、热备
〇、前言了解行业术语是一个程序猿的基本素养，只有更深入的了解才能与其他人畅快沟通，下面来简单汇总下，会持续更新。欢迎评论区补充，博主会逐个加入后续文章。一、“没有银弹”从字面意思来看就是，没有银色的子弹。当然不可能这么简单。其实，它出自计算机科学家布鲁克斯《没有银弹......
Transformer中为什么是layer norm不是batch norm
讨论一下为什么transformer中用layernorm前序知识：常见的归一化层的工作原理常见的norm之前已经讲过各个常见的归一化层了，不了解的可以去看看这篇文章。首先咱们得了解在NLP中，如果输入的几个句子不是等长的，需要使用Padding技术或者Truncation技术来使句子等长。因此对......
2.路径操作装饰器方法参数简介
1.get请求2.post请求3.put请求4.delete请求5.＠app.pos()中参数的功能应用 ......

Transformer大模型加速简介(3)-InFormer

相关文章

赞助商

阅读排行