Reformer 模型 - 突破语言建模的极限

时间：2023-12-27 23:01:53浏览次数：41

标签：mathbf Reformer text 建模极限 config 注意力向量

Reformer 如何在不到 8GB 的内存上训练 50 万个词元

Kitaev、Kaiser 等人于 20202 年引入的 Reformer 模型是迄今为止长序列建模领域内存效率最高的 transformer 模型之一。

最近，人们对长序列建模的兴趣激增，仅今年一年，就涌现出了大量的工作，如 Beltagy 等人的工作 (2020) 、Roy 等人的工作 (2020) 、Tay 等人的工作以及 Wang 等人的工作等等。长序列建模背后的动机是，NLP 中的许多任务 (例如 摘要、问答 ) 要求模型处理更长的序列，这些序列长度超出了 BERT 等模型的处理能力。在需要模型处理长输入序列的任务中，长序列模型无需对输入序列进行裁剪以避免内存溢出，因此已被证明优于标准的 BERT 类模型 ( 见 Beltagy 等人 2020 年的工作)。

Reformer 能够一次处理多达 50 万个词元，从而突破了长序列建模的极限 (具体可参见本笔记本)。相形之下，传统的 bert-base-uncased 模型最长仅支持 512 个词元。在 Reformer 中，标准 transformer 架构的每个部分都经过重新设计，以最小化内存需求，并避免显著降低性能。

内存的改进来自于 Reformer 作者向 transformer 世界引入的 4 大特性:

Reformer 自注意力层 - 如何在不受限于本地上下文的情况下高效地实现自注意力机制？
分块前馈层 - 如何更好地对大型前馈层的时间和内存进行权衡？
可逆残差层 - 如何聪明地设计残差架构以大幅减少训练中的内存消耗？
轴向位置编码 (Axial Positional Encodings) - 如何使位置编码可用于超长输入序列？

本文的目的是深入阐述 Reformer 的上述四大特性。虽然这四个特性目前是用在 Reformer 上的，但其方法是通用的。因此，读者不应被此束缚，而应该多思考在哪些情况下可以把这四个特性中的某一个或某几个应用于其他的 transformer 模型，以解决其问题。

下文四个部分之间的联系很松散，因此可以单独阅读。

Reformer 已集成入

标签：mathbf,Reformer,text,建模,极限,config,注意力,向量
From： https://www.cnblogs.com/huggingface/p/17931611.html

正项级数比较审敛法@衍生方法@极限审敛法
文章目录依赖已知敛散性级数的正项级数审敛法比较判别法朴素比较法极限形式证明极限审敛法证明应用朴素比较法实例极限形式比较法求解极限审敛法例依赖已知敛散性级数的正项级数审敛法这部分讨论的级数都是正项级数以下审敛法都只对正项级数适用,因此交错级数不适用比较判别法朴......
NX2306 工程图/建模环境-注释
【写在每个笔记前面：个人学习记录，如有错误，烦请指正，不胜感激。】1、制图环境添加注释方法a、【注释】方法b、【GC工具箱】→【技术要求库】从此处增加注释，可以有模版直接引用。 2、建模环境添加注释（PMI：ProductManufacturingInformation产品加工信息......
通过数据建模及可视化工具建立指标体系
（一）数据分析的几个关键点：1、了解业务；2、了解数据；3、可视化；4、反哺业务（二）指标体系和标准体系指标体系和指标，指标描述点的问题，比如营业收入，年龄、公司员工数，指标体系表示事物整体状态，有结构、有层次，比如公司经营指标体系，比如国民经济指标体系指标体系的作用：描述现状、促进更好发展标准......
1-4时间序列数据建模流程范例
0.配置importtorchprint('torch.__version__=',torch.__version__)"""torch.__version__=2.1.0+cpu"""importos#mac系统上pytorch和matplotlib在jupyter中同时跑需要更改环境变量#os.environ["KMP_DUPLICATE_LIB_OK"]=&q......
Autodesk 3ds Max 2024：专业3D建模软件，开启数字创意新篇章
Autodesk3dsMax2024是一款全球知名的3D建模软件，广泛应用于影视、游戏、建筑等领域。这款软件由Autodesk公司开发，拥有强大的功能和工具，为用户提供了全面的3D建模解决方案。点击获取Autodesk3dsMax2024Autodesk3dsMax2024的界面友好且易于操作，用户可以快速上手。软件提......
软件需求与分析课堂测试十一 —综合案例建模分析
软件需求与分析课堂测试十一—综合案例建模分析（100分）销售订货管理系统是ERP的源头，如何管控销售订单下达、评审、跟进，不光是从软件上做约束管理，同时要从工作流程规定上做规范。【开发目的】规范公司订单下达、评审业务流程，提高客户订单准时交货率。【适用范围】适用于公司订......
使用数合建模及可视化工具完成第一个数据分析作品
好多朋友问到数据分析是什么，数据建模是什么，可视化又是什么。今天基于上述平台一起完成我们刚入门数据分析师的第一个作业，主要面向我们初级数据分析师哦小白的第一个数据可视化作业（上）https://www.bilibili.com/video/BV11Q4y1g7PL/小白的第一个数据可视化作业（下）https://www.bilibili......
基于异构图卷积网络的网络威胁情报建模
基于异构图卷积网络的网络威胁情报建模基本信息题目：CyberThreatIntelligenceModelingBasedonHeterogeneousGraphConvolutionalNetwork来源：USENIXAssociation摘要网络威胁情报（CTI）作为威胁信息的集合，已在工业中广泛用于防御普遍存在的网络攻击。CTI通常被表示......
P1129 [ZJOI2007] 矩阵游戏建模部分
link题解没一个说为什么能用最小割的...（当然可能是只有我不知道）设交换后行、列数相同的第\(x\)行和第\(y\)列（\(x,y\)为原始位置），发现它们的交点现在位于\((i,i)\)，原来位于\((x,y)\)。因为无论怎么交换位置，原来的交点仍是交点。所以可以得出一个构造方案：先选定\(n\)个点......
1-3文本数据建模流程范例
0.配置importos#mac系统上pytorch和matplotlib在jupyter中同时跑需要更改环境变量#os.environ["KMP_DUPLICATE_LIB_OK"]="TRUE"!pipinstalltorchmetricsimporttorchimporttorchvisionimporttorchkerasimporttorchmetricsimportgensimprint('torc......

Reformer 模型 - 突破语言建模的极限

Reformer 如何在不到 8GB 的内存上训练 50 万个词元

相关文章

赞助商

阅读排行