TASK 3 Datawhale AI 夏令营

时间：2024-07-20 16:18:51浏览次数：22

标签：TASK AI torch Datawhale 单词解码器位置 position 注意力

\(transformer\) 解决任务

1.特点

摒弃了循环结构，通过自注意力机制衡量上下文单词的重要程度
说人话就是联系前后单词对于该单词的影响来完成本单词的翻译

2.运行逻辑

在运行前，由于摒弃了循环结构，我们需要在词语中嵌入位置编码来构建单词的向量表示，模型利用每个词语的位置与维度构建单独位置的位置编码(由于与位置相关可以利用位置编码反推距离信息)
计算位置编码代码：

position = torch.arange(0, max_len, dtype=torch.float).unsqueeze(1)
div_term = torch.exp(torch.arange(0, d_model, 2).float() * (-math.log(10000.0) / d_model))
pe[:, 0::2] = torch.sin(position * div_term)
pe[:, 1::2] = torch.cos(position * div_term)
#其中0与1表示两个维度 position计算位置

\(transformer\)主要组件分为编码器，解码器和注意力层，主要构架如图所示
可以看出，在编码器中，\(transformer\)通过两个子层的叠加达到了对中文部分的编码

在第一层注意力层中，代码依赖三个元素\(Key,Query,Value\)计算权重，通过权重来反应上下文单词的重要程度

\[Z=Attention(Q,K,V)=Softmax(\frac{QK^{T}}{\sqrt{d}})V \]

做\(\sqrt{d}\)的处理是基于防止放大的匹配分数导致梯度爆炸的问题

在前馈层中，通过接收自注意力层的输入，通过\(Relu\)函数做非线性变换，实验表明，该线性变换非常重要

在对模型的训练中，通过残差链接与层归一化来稳定输出，解决庞大的数据量导致的训练困难的问题，残差链接通过映射函数控制两个输出之间的关系：

\[x^{l+1}=f(x^l)+x^l \]

由图可以看出，解码器流程与编码器类似，但更为复杂，主要由于解码器的序列未知，所以，在解码器中，在自注意力子层增加了注意力掩码，来掩盖后续的文本，以防后续文本干扰训练

标签：TASK,AI,torch,Datawhale,单词,解码器,位置,position,注意力
From： https://www.cnblogs.com/RealMadrid/p/18313282

Society-Links-Taiwan朋友们的链接列表
王彦仁https://wangyenjen.github.io/部落格,簡報名稱網址經歷侯欣緯競程筆記部落格2022國手賴昭勳slides入營考比賽策略2022國手吳柏燁部落格CSESsolution20222!李政遠部落格wikiNHDK講師UMDCS李旺陽slides20152!王淇部落格202......
【HZHY-AI300G智能盒试用连载体验】安装Neuron工业协议网关软件
目录下载和安装软件运行本文首发于：【HZHY-AI300G智能盒试用连载体验】+智能工业互联网网关-北京合众恒跃科技有限公司-电子技术论坛-广受欢迎的专业电子论坛!为了能够将RS485等接口设备转换为MQTT设备，我使用了Neuron工业协议网关软件。Neuron是EMQ（杭州映云科技有......
OpenAI突发新模型GPT-4o mini，GPT-3.5退役!
OpenAI突发新模型，全面取代老去的GPT-3.5——GPT-4omini！免费用户已可使用GPT-4omini模型。GPT-4omini，能力接近原版GPT-4，价格却要便宜一个数量级：GPT-4omini:每百万输入tokens，15美分（约1.09元人民币）GPT3.5:每百万输出tokens，60美分（约4.36元人民币）对应的API也已经开......
吴恩达新书《How to build a career in AI》书摘
Threekeystepsofcareergrowtharelearningfoundationalskills,workingonprojectsandfindingajob.Asyougothrougheachstep,youshouldalsobuildasupportivecommunity.Havingfriendsandallieswhocanhelpyou-andwhoyoustrivetohelp-......
联通为工业及制造业提供AI与信息技术结合的一站式通信解决方案
联通智慧智能制造解决方案：引领工业革命新篇章在第四次工业革命的浪潮中，人工智能（AI）、物联网（IoT）和大数据等前沿技术正以前所未有的速度改变着制造业的面貌。中国联通，作为国内领先的综合信息服务提供商，深刻理解这一行业变革的核心需求，精心打造了联通智慧智能制造解决方案，旨在通过AI......
用AirScript脚本给女/男朋友发送每日早安邮件（极简版本）
先看效果工具金山文档/WPS提供了每日定时的AirScript脚本服务，非常方便～话不多说，我们以金山文档为例，只有简单的五个步骤，非常容易～教程开始步骤1我们打开金山文档新建一个智能表格步骤2按下图填写，注意是ABC这三列是否开启邮箱地址是否发送提醒是你的目的邮箱......
java项目（knife4j使用，静态资源未放在static资源包下，公共字段自动填充，Spring Cache与Spr
Knife4j（生成接口文档）使用swagger你只需要按照它的规范去定义接口及接口相关的信息，就可以做到生成接口文档，以及在线接口调试页面。官网:https://swagger.io/Knife4j是为JavaMVC框架集成Swagger生成Api文档的增强解决方案。使用方式1、导入knife4j的maven坐标<dependency>......
最强AI语音克隆和文本配音工具！与真人无异，CosyVoice下载介绍
CosyVoice是一个大规模预训练语言模型，深度融合文本理解和语音生成的一项新型语音合成技术，能够精准解析并诠释各类文本内容，将其转化为宛如真人般的自然语音CosyVoice采用了总共超15万小时的数据训练，依托先进的大模型技术进行特征提取，从而完成声音的复刻，用户无需训练过程，仅需提供时......
基于香橙派AIpro和昇腾AI计算芯片的目标检测应用(详细教程)
目录前言1.介绍开发板2.应用场景3.安装操作系统3.1下载工具3.2 烧录系统3.3 系统装载4.配置操作系统4.1 登录系统账户4.2配置网络连接4.3查看设备网络4.4配置远程连接5.部署目标检测应用5.1准备运行环境5.2 模型二次训练5.3热成像温度检测5.4转......
硅纪元视角 | 阿里云GPU云服务升级：AI大模型推理性能翻倍
在数字化浪潮的推动下，人工智能（AI）正成为塑造未来的关键力量。硅纪元视角栏目紧跟AI科技的最新发展，捕捉行业动态；提供深入的新闻解读，助您洞悉技术背后的逻辑；汇聚行业专家的见解，分享独到的视角和思考；精选对您有价值的信息，帮助您在AI时代中把握机遇。1分钟速览新闻阿......

TASK 3 Datawhale AI 夏令营

1.特点

2.运行逻辑

相关文章

赞助商

阅读排行