首页 > 其他分享 >Transformer大模型加速简介(3)-InFormer

Transformer大模型加速简介(3)-InFormer

时间:2024-11-06 22:15:42浏览次数:6  
标签:Transformer 预测 简介 模型 注意力 复杂度 序列 InFormer Informer

Transformer模型,即《Attention is All your Need》这一大作自从被提出以来,已经成为自然语言处理(NLP)和计算机视觉等领域的核心架构(详见 https://blog.csdn.net/burstone/article/details/143135395 )。然而,由于其对计算和存储的高要求,对于长序列的处理存在很大的性能开销。本文介绍另外一种加速方法:Informer,它是荣获AAAI 2020 Best Paper的论文《Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting》。该文章设计了一个高效的基于Transformer的LSTF模型,命名为Informer,该模型的主要贡献有如下三点:

  1. 加速1:提出的ProbSparse机制,时间复杂度O(LlogL),内存复杂度O(LlogL),其中L为序列长度。比典型的transformer中attention的O(L^2)的复杂度大大降低;并在序列依赖对齐方面具有相当的性能。
  2. 加速2:提出的Self-Attention Distilling,总间复杂度降低到O((2 - ε)L*log L),易于处理长序列。
  3. 加速3:提出生成式解码器(generative style decoder)来线上预测,而不是一步一步的预测,大大提高了长序列预测的推理速度。

具体地,该模型通过以下几种方式来加速长序列时间序列预测(LSTF):

  1. ProbSparse自注意力机制:
    Informer模型提出了ProbSparse自注意力机制,这种机制通过概率方法选择最重要的一部分注意力权重进行计算,而忽略那些对结果影响较小的权重。这种方法能够显著降低计算复杂度,同时保持较高的模型性能。具体如下:

a. 计算Query和Key的点积:首先计算每个Query(Q)和所有Key(K)的点积,得到注意力得分。

b. 稀疏度衡量:通过概率方法选择最重要的一部分注意力权重进行计算,忽略那些对结果影响较小的权重。

c. Softmax函数:对筛选后的注意力得分应用Softmax函数,得到最终的注意力权重。

d. 加权求和:使用注意力权重对Value(V)进行加权求和,得到最终的输出。

下面,举例来解释Informer模型中的ProbSparse自注意机制如何加速长序列时间序列预测(LSTF):

假设有一个电力消耗数据集,需要预测未来168小时的电力消耗情况,给定过去72小时的电力消耗数据。若输入序列长度为96(例如,96小时的电力消耗数据):

  1. 随机选取25个关键时间点(k)。
  2. 计算每个时间点(q)与这25个关键时间点的内积,得到25个得分。
  3. 对每个时间点,选取得分最高的与均值的差异。
  4. 从96个时间点中选出差异前25大的时间点。
  5. 其他时间点使用值向量的平均值代替。

因而,通过这种方式,Informer模型能够有效地处理长序列时间序列数据,同时保持较高的预测性能和较低的计算复杂度。

  1. 自注意力蒸馏操作:
    Informer模型在J-Stacking Layers中控制attention scores的Self-Attention Distilling操作权限,并将总空间复杂度降低到O((2 - ε)L*log L)。这种操作通过减半级联层输入来突出主导注意力,有效处理极长输入序列。

  2. 生成式解码器:
    Informer模型提出了一个生成式解码器,与概念上简单的逐步解码(step-by-step)不同,生成式解码器可以在一个前向操作中预测长序列输出,而不是逐步预测。这种方法极大地提高了长序列预测的推理速度。

  3. 编码器-解码器架构的改进:
    Informer模型通过改进传统的编码器-解码器架构,解决了原始Transformer在处理长序列时的固有限制,包括二次时间复杂度和高内存使用问题。

  4. 多组件嵌入定义:
    Informer模型利用三组件方法定义其嵌入,包括从卷积网络获得的编码自回归特征、从谐波函数派生的窗口相对位置嵌入,以及从日历特征获得的绝对位置嵌入。

通过上述这些方法,Informer模型不仅提高了长序列时间序列预测的效率,还保持了模型的预测能力,使其在实际应用中,因其在处理长序列时间序列预测问题中的高效性能,被应用于很有众多的领域:(1)金融方面:预测股票价格和市场趋势。(2)气象方面:天气变化预测,如温度、降水量等。(3)交通流量:预测不同时间段的交通流量。

标签:Transformer,预测,简介,模型,注意力,复杂度,序列,InFormer,Informer
From: https://blog.csdn.net/burstone/article/details/143496311

相关文章

  • javascript模块 (Module) 简介
    https://blog.csdn.net/chehec2010/article/details/119804381   随着ES6的出现,js模块已经成为正式的标准了。曾经为了解决js模块问题而发展起来的民间秘籍,requireJs(AMD)、SeaJs(CMD)、Node(CommonJs),已经或者不久的将来会成为历史。了解历史也是很重要的,因为正式标准就是......
  • Selenium简介
    Selenium是一个广泛应用的自动化测试工具,专门用于Web应用的测试。它提供了多种功能和灵活的操作方式,使测试人员可以通过编程方式模拟用户与Web浏览器的交互。以下是一些Selenium的基础介绍材料:1.什么是Selenium?Selenium是一个开源的Web自动化测试框架,可以通过编......
  • 基于LLM Graph Transformer的知识图谱构建技术研究:LangChain框架下转换机制实践
    文本到图谱的转换是一个具有技术挑战性的研究领域,其核心任务是将非结构化文本数据转换为结构化的图谱表示。这种技术虽然由来已久,但随着大型语言模型(LLMs)的发展,其应用范围得到了显著扩展,并逐渐成为主流技术方案之一。上图展示了信息抽取过程中文本到知识图谱的转换。图左侧展......
  • Ollama简介,以及中文使用指南和AMD图形显卡驱动下载
    Ollama是一个开源的大型语言模型(LLM)服务工具,它旨在简化在本地运行大语言模型的过程,降低使用大语言模型的门槛。Ollama使得开发者、研究人员和爱好者能够在本地环境快速实验、管理和部署最新的大语言模型,包括但不限于如Qwen2、Llama3、Phi3、Gemma2等开源的大型语言模型。Oll......
  • LPC1100 系列_1.简介与入门
    1.简介与入门1.1LPC1100系列概述LPC1100系列是NXP推出的一款基于ARMCortex-M0内核的低功耗、高性能单片机。该系列单片机适用于各种嵌入式应用,包括传感器网络、工业控制、消费电子和医疗设备等。LPC1100系列的主要特点包括:低功耗:具有多种低功耗模式,适用于电池......
  • 【深度学习滑坡制图|论文解读4】基于融合CNN-Transformer网络和深度迁移学习的遥感影
    【深度学习滑坡制图|论文解读4】基于融合CNN-Transformer网络和深度迁移学习的遥感影像滑坡制图方法【深度学习滑坡制图|论文解读4】基于融合CNN-Transformer网络和深度迁移学习的遥感影像滑坡制图方法文章目录【深度学习滑坡制图|论文解读4】基于融合CNN-Transformer......
  • ONLYOFFICE办公软件的简介与体验
    官网链接ONLYOFFICE-企业在线办公应用软件|ONLYOFFICE引言在数字化时代,办公软件已成为我们日常工作和生活中不可或缺的一部分。随着技术的发展和工作方式的变化,传统的办公软件逐渐显露出其局限性,不再能满足我们对效率和便捷性的日益增长的需求。面对这一挑战,ONLYOFFICE......
  • 专业术语简介【一】:没有银弹、加盐、毛刺、冒烟测试、热备
    〇、前言了解行业术语是一个程序猿的基本素养,只有更深入的了解才能与其他人畅快沟通,下面来简单汇总下,会持续更新。欢迎评论区补充,博主会逐个加入后续文章。一、“没有银弹”从字面意思来看就是,没有银色的子弹。当然不可能这么简单。其实,它出自计算机科学家布鲁克斯《没有银弹......
  • Transformer中为什么是layer norm不是batch norm
    讨论一下为什么transformer中用layernorm前序知识:常见的归一化层的工作原理 常见的norm之前已经讲过各个常见的归一化层了,不了解的可以去看看这篇文章。首先咱们得了解在NLP中,如果输入的几个句子不是等长的,需要使用Padding技术或者Truncation技术来使句子等长。因此对......
  • 2.路径操作装饰器方法参数简介
    1.get请求2.post请求3.put请求4.delete请求5.@app.pos()中参数的功能应用 ......