首页 > 其他分享 >transformer 从零

transformer 从零

时间:2024-09-28 10:50:29浏览次数:1  
标签:婴儿 transformer trm 0.1 BN 向量

transformer 从零

trm在做什么事情?

类比“翻译”,输入、黑盒处理、输出。

image-20240713141830769

对其细化,黑盒中编码作为解码的输入,二者的结果作为终局输出的输入。继续细化成下图:

image-20240713142608453

位置编码

下图为rnn下的时间线展开,

image-20240713144033519

借由三角函数性质公式:

image-20240713144157547

得到:

image-20240713144235343

即,若当pos=“我”,k=“爱”时,pos+k的“你”位置的向量被前二者线性组合,也就是说,位置向量中蕴含了相对位置的信息。

多头注意力

基本的注意力机制

image-20240713144601029

给出上图(颜色深浅表示不同注意力分配),另外现在给出一句话“婴儿在干嘛”,人类会更关注左侧而非右侧文字

trm中如何实现

image-20240713145039377

结合本式,以上图(婴儿)为例,当问出“婴儿在干嘛”后,应该更关注哪些区域。简化信息,提炼“婴儿”一词作为输入,并划分四个区域作为key。

image-20240713150529424

【点乘】是向量在向量上的投影长度,为标量,可反映“相似度”,越相似则值越大;此处判断query(婴儿)点乘key1(左上/...)谁更大,若四者计算结果V1~V4呈现“0.7,0.1,0.1,0.1”则判定为“左上”

在trm中,仅有单词向量,如何获取QKV?

image-20240713150515578 image-20240713150758400

实际代码使用矩阵以方便并行(同时输进“thinking”和“machine”更快):

image-20240713151058730

并且考虑使用两套(多套)参数,如图:

image-20240713151358687

操作理由:打到不同“空间”,保证trm注意、捕捉到更多的信息。最后,各组流经不同“空间”各出一个z值,z0到z7八个(“头”)结果值一起输出,再取矩阵即为多头注意力的输出。

残差和layerNorm

image-20240713152341962

什么是残差?

image-20240713153234033 image-20240713153247890

为什么不用传统的BN?

BN在NLP任务中(大多)表现效果差,BN对样本总是仅对其某一维度上做分析(只比较体重/只比较身高...);

image-20240713154510195

优点是BN解决了内部协变量偏移(存疑)、缓解了梯度饱和问题且加快其收敛;

缺点batch_size较小的时候效果差,比如全班100人,batch为10人,BN则会以本10人的均值、方差来模拟全100人的均值、方差;其次就是BN在RNN中的问题:

image-20240713154938811

前馈神经网络

标签:婴儿,transformer,trm,0.1,BN,向量
From: https://www.cnblogs.com/yansz001216/p/18437111

相关文章

  • [机器视觉][轻量化网络]GhostFormer: Efficiently amalgamated CNNtransformer archit
    目的与成果:     本文旨在提出一个轻量化的模型,在减少模型参数量的同时,保持一定的精度,  实验表明,该模型在PascalVOC数据集上的计算成本不到YOLOv7的一半,仅损失约3%[email protected],在MSCOCO数据集上的损失为9.7%[email protected],与GhostNet相比提高了0.95。本文的主要思想: ......
  • transformers中的generate函数解读
    转载:https://zhuanlan.zhihu.com/p/654878538这里仅当学习记录,请看原文,排版更丰富转载补充:https://www.likecs.com/show-308663700.html 这个非常的清晰明了,也建议前往学习今天社群中的小伙伴面试遇到了一个问题,如何保证生成式语言模型在同样的输入情况下可以保证同样的输出......
  • 基于YOLOv8目标检测与chef-transformer(T5)从图像创建食谱
    前言在本文中,将演示如何使用从Roboflow获得的开源产品数据来训练我的YOLOv8模型,然后将其与从HuggingFace获得的chef-transformer(T5)模型集成。应用程序的主要目标是将检测到的对象参数化地发送到语言模型,并在NLP和CV之间建立关系。YOLOv8目标检测YOLOv8是由ultralytics......
  • 一个基于Transformer模型的中文问答系统926.1
    这个代码实现了一个基于Transformer模型的中文问答系统。以下是代码的主要功能和可能的完善方向:主要功能数据处理:代码首先定义了处理中文文本的函数,包括分词、构建词汇表、将句子转换为张量等。数据加载:从.jsonl或.json文件中加载问题和答案数据,并进行数据增强。模型定......
  • EfficientViT(2023CVPR):具有级联组注意力的内存高效视觉Transformer!
    EfficientViT:MemoryEfficientVisionTransformerwithCascadedGroupAttentionEfficientViT:具有级联组注意力的内存高效视觉Transformer万文长字,请耐心观看~论文地址:https://arxiv.org/abs/2305.07027代码地址:Cream/EfficientViTatmain·microsoft/Cream......
  • CAS-ViT:用于高效移动应用的卷积加法自注意力视觉Transformer
    近年来,VisionTransformer(ViT)在计算机视觉领域取得了巨大突破。然而ViT模型通常计算复杂度高,难以在资源受限的移动设备上部署。为了解决这个问题,研究人员提出了ConvolutionalAdditiveSelf-attentionVisionTransformers(CAS-ViT),这是一种轻量级的ViT变体,旨在在效率和性......
  • TPAMI 2024 | SMART: 基于语法校准的多方面关系Transformer用于变化描述生成
    题目:SMART:Syntax-CalibratedMulti-AspectRelationTransformerforChangeCaptioningSMART:基于语法校准的多方面关系Transformer用于变化描述生成作者:YunbinTu;LiangLi;LiSu;Zheng-JunZha;QingmingHuang摘要变化描述生成旨在描述两幅相似图像之间的语......
  • 模型压缩:CNN和Transformer通用,修剪后精度几乎无损,速度提升40%
    前言随着目标检测的蓬勃发展,近年来提出了几种深度卷积神经网络模型,例如R-CNN、SSD和YOLO等。然而,随着网络变得越来越复杂,这些模型的规模不断增加,这使得在现实生活中将这些模型部署到嵌入式设备上变得越来越困难。因此,开发一种高效快速的物体检测模型以在不影响目标检测质量的情况下......
  • 套娃!双路+双向!TCN-Transformer+BiLSTM多变量时间序列预测(Matlab)
    套娃!双路+双向!TCN-Transformer+BiLSTM多变量时间序列预测(Matlab)目录套娃!双路+双向!TCN-Transformer+BiLSTM多变量时间序列预测(Matlab)效果一览基本介绍程序设计参考资料效果一览基本介绍1.Matlab实现双路+双向!TCN-Transformer+BiLSTM多变量时间序列预测(Mat......
  • 中秋献礼!2024年中科院一区极光优化算法+分解对比!VMD-PLO-Transformer-LSTM多变量时间
    中秋献礼!2024年中科院一区极光优化算法+分解对比!VMD-PLO-Transformer-LSTM多变量时间序列光伏功率预测目录中秋献礼!2024年中科院一区极光优化算法+分解对比!VMD-PLO-Transformer-LSTM多变量时间序列光伏功率预测效果一览基本介绍程序设计参考资料效果一览基本介绍1.中秋献礼!2024年......