首页 > 其他分享 >TASK 3 Datawhale AI 夏令营

TASK 3 Datawhale AI 夏令营

时间:2024-07-20 16:18:51浏览次数:11  
标签:TASK AI torch Datawhale 单词 解码器 位置 position 注意力

\(transformer\) 解决任务

1.特点

摒弃了循环结构,通过自注意力机制衡量上下文单词的重要程度
说人话就是联系前后单词对于该单词的影响来完成本单词的翻译

2.运行逻辑

在运行前,由于摒弃了循环结构,我们需要在词语中嵌入位置编码来构建单词的向量表示,模型利用每个词语的位置与维度构建单独位置的位置编码(由于与位置相关可以利用位置编码反推距离信息)
计算位置编码代码:

position = torch.arange(0, max_len, dtype=torch.float).unsqueeze(1)
div_term = torch.exp(torch.arange(0, d_model, 2).float() * (-math.log(10000.0) / d_model))
pe[:, 0::2] = torch.sin(position * div_term)
pe[:, 1::2] = torch.cos(position * div_term)
#其中0与1表示两个维度 position计算位置

\(transformer\)主要组件分为编码器,解码器和注意力层,主要构架如图所示
可以看出,在编码器中,\(transformer\)通过两个子层的叠加达到了对中文部分的编码

在第一层注意力层中,代码依赖三个元素\(Key,Query,Value\)计算权重,通过权重来反应上下文单词的重要程度

\[Z=Attention(Q,K,V)=Softmax(\frac{QK^{T}}{\sqrt{d}})V \]

做\(\sqrt{d}\)的处理是基于防止放大的匹配分数导致梯度爆炸的问题

在前馈层中,通过接收自注意力层的输入,通过\(Relu\)函数做非线性变换,实验表明,该线性变换非常重要

在对模型的训练中,通过残差链接与层归一化来稳定输出,解决庞大的数据量导致的训练困难的问题,残差链接通过映射函数控制两个输出之间的关系:

\[x^{l+1}=f(x^l)+x^l \]

由图可以看出,解码器流程与编码器类似,但更为复杂,主要由于解码器的序列未知,所以,在解码器中,在自注意力子层增加了注意力掩码,来掩盖后续的文本,以防后续文本干扰训练

标签:TASK,AI,torch,Datawhale,单词,解码器,位置,position,注意力
From: https://www.cnblogs.com/RealMadrid/p/18313282

相关文章

  • Society-Links-Taiwan朋友们的链接列表
    王彦仁https://wangyenjen.github.io/部落格,簡報名稱網址經歷侯欣緯競程筆記部落格2022國手賴昭勳slides入營考比賽策略2022國手吳柏燁部落格CSESsolution20222!李政遠部落格wikiNHDK講師UMDCS李旺陽slides20152!王淇部落格202......
  • 【HZHY-AI300G智能盒试用连载体验】安装Neuron工业协议网关软件
    目录下载和安装软件运行本文首发于:【HZHY-AI300G智能盒试用连载体验】+智能工业互联网网关-北京合众恒跃科技有限公司-电子技术论坛-广受欢迎的专业电子论坛!为了能够将RS485等接口设备转换为MQTT设备,我使用了Neuron工业协议网关软件。Neuron是EMQ(杭州映云科技有......
  • OpenAI突发新模型GPT-4o mini,GPT-3.5退役!
    OpenAI突发新模型,全面取代老去的GPT-3.5——GPT-4omini!免费用户已可使用GPT-4omini模型。GPT-4omini,能力接近原版GPT-4,价格却要便宜一个数量级:GPT-4omini:每百万输入tokens,15美分(约1.09元人民币)GPT3.5:每百万输出tokens,60美分(约4.36元人民币)对应的API也已经开......
  • 吴恩达新书《How to build a career in AI》书摘
    Threekeystepsofcareergrowtharelearningfoundationalskills,workingonprojectsandfindingajob.Asyougothrougheachstep,youshouldalsobuildasupportivecommunity.Havingfriendsandallieswhocanhelpyou-andwhoyoustrivetohelp-......
  • 联通为工业及制造业提供AI与信息技术结合的一站式通信解决方案
    联通智慧智能制造解决方案:引领工业革命新篇章在第四次工业革命的浪潮中,人工智能(AI)、物联网(IoT)和大数据等前沿技术正以前所未有的速度改变着制造业的面貌。中国联通,作为国内领先的综合信息服务提供商,深刻理解这一行业变革的核心需求,精心打造了联通智慧智能制造解决方案,旨在通过AI......
  • 用AirScript脚本给女/男朋友发送每日早安邮件(极简版本)
     先看效果 工具金山文档/WPS提供了每日定时的AirScript脚本服务,非常方便~ 话不多说,我们以金山文档为例,只有简单的五个步骤,非常容易~教程开始步骤1我们打开金山文档新建一个智能表格步骤2按下图填写,注意是ABC这三列是否开启邮箱地址是否发送提醒是你的目的邮箱......
  • java项目(knife4j使用,静态资源未放在static资源包下,公共字段自动填充,Spring Cache与Spr
    Knife4j(生成接口文档)使用swagger你只需要按照它的规范去定义接口及接口相关的信息,就可以做到生成接口文档,以及在线接口调试页面。官网:https://swagger.io/Knife4j是为JavaMVC框架集成Swagger生成Api文档的增强解决方案。使用方式1、导入knife4j的maven坐标<dependency>......
  • 最强AI语音克隆和文本配音工具!与真人无异,CosyVoice下载介绍
    CosyVoice是一个大规模预训练语言模型,深度融合文本理解和语音生成的一项新型语音合成技术,能够精准解析并诠释各类文本内容,将其转化为宛如真人般的自然语音CosyVoice采用了总共超15万小时的数据训练,依托先进的大模型技术进行特征提取,从而完成声音的复刻,用户无需训练过程,仅需提供时......
  • 基于香橙派AIpro和昇腾AI计算芯片的目标检测应用(详细教程)
    目录前言1.介绍开发板2.应用场景3.安装操作系统3.1下载工具3.2 烧录系统3.3 系统装载4.配置操作系统4.1 登录系统账户4.2配置网络连接4.3查看设备网络4.4配置远程连接5.部署目标检测应用5.1准备运行环境5.2 模型二次训练​5.3热成像温度检测5.4转......
  • ​硅纪元视角 | 阿里云GPU云服务升级:AI大模型推理性能翻倍
    在数字化浪潮的推动下,人工智能(AI)正成为塑造未来的关键力量。硅纪元视角栏目紧跟AI科技的最新发展,捕捉行业动态;提供深入的新闻解读,助您洞悉技术背后的逻辑;汇聚行业专家的见解,分享独到的视角和思考;精选对您有价值的信息,帮助您在AI时代中把握机遇。1分钟速览新闻  阿......