Transformers 发展一览

时间：2023-04-28 21:47:20浏览次数：43

标签：Transformer 发展一览矩阵先验 Transformers 机制注意力

动动发财的小手，点个赞吧！

Transformers 研究概览

1. 介绍

近年来，深度学习的研究步伐显着加快，因此越来越难以跟上所有最新发展。尽管如此，有一个特定的研究方向因其在自然语言处理、计算机视觉和音频处理等多个领域取得的成功而备受关注。这在很大程度上归功于其高度适应性的架构。该模型称为 Transformer，它利用了该领域的一系列机制和技术（即注意力机制）。

2. 分类

迄今为止，基于 vanilla Transformer 探索了一系列全面的模型，大致可分为三类：

网络结构修改
预训练方法
应用

上面的每个类别都包含其他几个子类别，我将在接下来的部分中对其进行彻底研究。图 2. 说明了研究人员修改 Transformers 的类别。

3. 注意力

自注意力在 Transformer 中起着基本作用，尽管它在实践中有两个主要缺点。

复杂性：对于长序列，该模块成为瓶颈，因为其计算复杂度为 O(T²·D)。
结构先验：它不解决输入的结构偏差，需要将额外的机制注入训练数据，稍后它可以学习（即学习输入序列的顺序信息）。

因此，研究人员探索了各种技术来克服这些缺点。

稀疏注意力：该技术试图通过考虑输入的一小部分而不是整个输入序列来降低注意力机制的计算时间和内存要求，从而生成与完整矩阵相反的稀疏矩阵。
线性化注意力：使用内核特征映射解开注意力矩阵，该方法试图以相反的顺序计算注意力，以将资源需求降低到线性复杂度。
原型和内存压缩：这一行修改试图减少查询和键值对，以实现更小的注意力矩阵，从而减少时间和计算复杂度。
Low-rank self-attention：通过使用参数化或用低秩近似替换它来显式地建模自注意力矩阵的低秩属性，试图提高 transformer 的性能。
先验注意力：利用其他来源的先验注意力分布，这种方法将其他注意力分布与从输入中获得的注意力分布相结合。
改进的多头机构：有多种方法可以修改和提高多头机构的性能，可以归入该研究方向。

4. 总结

总之，Transformer 的分类学和注意力机制的各种进步显着扩展了基于 Transformer 的模型的能力和效率。稀疏注意力技术，例如基于位置和基于内容的稀疏注意力，以及线性化注意力，已经解决了传统密集注意力的计算局限性。查询原型和内存压缩方法引入了创新的方法来提高注意力机制的效率。低秩自注意力启用了参数化和近似技术，以实现更有效的注意力计算。结合先验，例如局部性建模、较低的模块先验和多任务适配器，已经在改善注意力机制方面显示出可喜的结果。最后，对多头机制的修改，例如头部行为建模、限制跨度、精细聚合和其他变体，显示出进一步提高基于 Transformer 的模型性能的潜力。

注意机制的这些进步为未来在自然语言处理、计算机视觉和机器翻译等各个领域的研究和应用提供了令人兴奋的前景。通过利用这些创新技术，基于变压器的模型可以继续突破性能和效率的界限，为高级机器学习应用开辟新的可能性。

本文由mdnice多平台发布

标签：Transformer,发展,一览,矩阵,先验,Transformers,机制,注意力
From： https://www.cnblogs.com/swindler/p/17363215.html

eBPF的发展演进---从石器时代到成为神（五）
6.走向未来未来BPF将如何发展呢？它已经具备图灵机的雏形，拥有巨大的计算能力潜能。它目前的计算能力仍然受到约束，但是已经足够改变现有应用开发的基础，必将引发应用的蓬勃发展，会衍生出开发工具、测试方法等等的发展，使业务逻辑的开发与BPF的开发统一在一个开发模型当中，甚至引发新的开发......
美颜SDK的未来发展：AI时代下的自然美颜
美颜SDK作为一种广泛应用于各种视图、娱乐、拍摄场景的美颜技术，在近十年来得到了“狂飙式”的发展，从最开始的“傻瓜相机”一键美颜，到后来的视频直播实时美颜，期间我们经历了太多的迭代。目前，“过度美颜、暴力美颜”的时代已经过去，更加自然、无痕、还原自然美的美颜SDK才是未来的主流......
国产BI进入发展繁荣期，瓴羊Quick BI连续四年入选魔力象限ABI报告
最近，瓴羊QuickBI连续第四次获得了国际权威信息技术研究和分析公司Gartner的认可，成功入选了Gartner魔力象限ABI报告，并跃升至挑战者象限，引发国内BI界关注。我们知道，Gartner作为行业权威，对于IT行业各平台、各应用有着一整套客观专业的评价体系，同时每年都会针对各分支领域发布魔力象限......
什么是文件传输，介绍文件传输的发展进程
什么是文件传输，介绍文件传输的发展进程首先，我们先来认识一下文件传输的定义，了解文件传输的概念，才能够真正了解文件传输软件的发展历程。文件传输（filetransfer），是指将一个文件或其中的一部分从一个计算机系统传到另一个计算机系统。它可能把文件传输至另一计算机中去存储，或访问......
行业报告 | 机器人行业发展概览
原创|文BFT机器人01摘要工业机器人智能化发展趋势:1）“5G+大数据+A”成为工业机器人发展的重要方向，5G上云为工业机器人提供高速网络支持，大数据与AI加速提升机器算力与智能化水平2）人机协作水平不断提升，充分释放机器人与人协作的效率优势;3）智能化、模块化发展方向使得机器人将从预编......
03-计算机的发展
03-计算机的发展各种语言机器语言面向机器汇编语言面向机器高级语言面向问题FORTRAN科学计算和工程计算PASCAL结构化程序设计C++面向对象Java适应网络环境软件发展的特点开发周期长制作成本昂贵（一个复杂软件4000w行，一人一年开发1w行，需要1000人/年）工资昂贵......
大规模 Transformer 模型 8 比特矩阵乘简介 - 基于 Hugging Face Transformers、Accel
引言语言模型一直在变大。截至撰写本文时，PaLM有5400亿参数，OPT、GPT-3和BLOOM有大约1760亿参数，而且我们仍在继续朝着更大的模型发展。下图总结了最近的一些语言模型的尺寸。由于这些模型很大，因此它们很难在一般的设备上运行。举个例子，仅推理BLOOM-176B模型，你就需要8......
如何生成文本: 通过 Transformers 用不同的解码方法生成文本
简介近年来，随着以OpenAIGPT2模型为代表的基于数百万网页数据训练的大型Transformer语言模型的兴起，开放域语言生成领域吸引了越来越多的关注。开放域中的条件语言生成效果令人印象深刻，典型的例子有:GPT2在独角兽话题上的精彩续写，XLNet以及使用CTRL模型生成受控文本等......
程序员职业发展参考
工程师的五个级别苏联物理学家朗道，给出了自认为物理学家的五个等级，并被称为朗道等级。朗道等级最核心的思想是：人和人的差距，能力和能力的差距，是数量级（通常是10的N次方）的差别，而不是通常人们想象的差一点点。仿照朗道的方法，吴军老师给出了工程师的五个级别的划分：第五级：能独立解决......
大数据架构（二）大数据发展史
1.传统数仓发展史传统数据仓库的发展史这里不展开架构细讲，只需快速过一遍即可。了解这个历史发展过程即可。1.1传统数仓历史1.1.15个时代传统数仓发展史可以称为5个时代的经典论证战。按照两位数据仓库大师Ralphkilmball、BillInnmon在数据仓库建设理念上碰撞阶段来作......

Transformers 发展一览

1. 介绍

2. 分类

3. 注意力

4. 总结

相关文章

赞助商

阅读排行