首页 > 其他分享 >深度学习-nlp-NLP之sequence2sequence--73

深度学习-nlp-NLP之sequence2sequence--73

时间:2024-04-12 20:34:11浏览次数:14  
标签:nlp 编码器 RNN NLP -- 解码器 输出 节点 向量

目录

参考:https://zhuanlan.zhihu.com/p/38816145
sequence2sequence模型发展到今天,根据不同任务有着不同的变体。了解了最基本的框架之后,再看别的模型就没有太大问题了。

1. sequence2sequence任务 特点

  1. 输入输出时不定长的。比如说想要构建一个聊天机器人,你的对话和他的回复长度都是不定的。
  2. 输入输出元素之间是具有顺序关系的。不同的顺序,得到的结果应该是不同的,比如“不开心”和“开心不”这两个短语的意思是不同的。

模型主要由两个部分组成,一个编码器(encoder)和一个解码器(decoder)。
编码器和解码器一般都是由RNN类网络构成,常用LSTM。
这里之所以说一般使用RNN类网络构成序列模型,这是因为使用CNN也可以构建序列到序列模型。使用CNN构造序列模型参考论文:Attention Is All You Need, Convolutional Sequence to Sequence Learning 。之所以使用CNN来做序列模型,是为了能够进行高度的并行化,不像RNN需要等待上一个节点运算后传到下一个节点才能进行输出,并且也更容易训练。

2. 编码器与解码器

通信领域,编码器(Encoder)指的是将信号进行编制,转换成容易传输的形式。
这里,主要指的是将句子编码成一个能够映射出句子大致内容的固定长度的向量。注意是固定长度的向量


投入到的每个RNN展开的节点,我们将会得到一个输出层输出和一个隐含层输出,我们最终需要使用到的是最后一个输入节点的隐含层输出。这里面最后一个隐含节点的输出蕴含了前面所有节点的输入内容。

解码器(Decoder),这里就是将由编码器得到的固定长度的向量再还原成对应的序列数据,一般使用和编码器同样的结构,也是一个RNN类的网络。
实际操作过程会将由编码器得到的定长向量传递给解码器,解码器节点会使用这个向量作为隐藏层输入和一个开始标志位作为当前位置的输入。得到的输出向量能够映射成为我们想要的输出结果,并且会将映射输出的向量传递给下一个展开的RNN节点。

举例:
输入为 :
Are you free tomorrow ?
我们所需要的对应输出为:
Yes, what's up?
编码器将are you free tomorrow这几个单词的输入都丢到编码器LSTM中去,得到了包含输入内容的向量。
再将这个向量丢到一个解码器中去,一步步展开得到yes what's up 这几个词,遇到标志位停止输出。

总结:
序列到序列模型看似非常完美,但是实际使用的过程中仍然会遇到一些问题。比如说句子长度过长,会产生梯度消失的问题。
由于使用的是最后的一个隐含层输出的定长向量,那么对于越靠近末端的单词,“记忆”得会越深刻,而远远离的单词则会被逐渐稀释掉。,
面对这些问题,也有对应的一些解决方案比如加入attention,将句子倒向输入等。

标签:nlp,编码器,RNN,NLP,--,解码器,输出,节点,向量
From: https://www.cnblogs.com/cavalier-chen/p/18132036

相关文章

  • Typora
    B站链接:https://www.bilibili.com/video/BV1h84y1Y7nn/?spm_id_from=333.337.search-card.all.click&vd_source=cf0172a6515f56192437f04c84741745视图-大纲勾选上文件-偏好设置-通用-打开指定目录,每次打开typora时都会自动打开对应的文件夹,图像-复制到指定路径,这样图片在本地......
  • wayland xmodmap 键盘按键映射失效,转 evremap。wps fcitx5 输入法失效
    waylandxmodmap键盘按键映射失效,转evremap。wpsfcitx5输入法失效date:2024-04-12Plasma升级时自动的把x11换成了wayland,导致xmodmap的映射失效了下面确认确实是wayland$echo"$XDG_SESSION_TYPE"wayland$env|grep-E-i'x11|xorg|wayland'XDG_SESSION......
  • atcoder beginer 347 (abc347) D E 题解
     D就是二进制下,哪些位置有重合(两个1),哪些位置没有重合(1个1,1个0),剩下的都是0。xor的结果<2^60,就是小于60位(二进制下)。注意要有要求两个数需要是2^60,于是要有大小的判断,因为有的a,b会2^60,但是按照题目要求,这个情况不行。比如xor的结果,60位都是1,然后a、b各有60个1,那么需要有30个1......
  • 2019年蓝桥杯省赛-修改数组(并查集)
    0.题目时间限制:1.0s内存限制:256.0MB本题总分:20分【问题描述】给定一个长度为N的数组A=[A1,A2,···AN],数组中有可能有重复出现的整数。现在小明要按以下方法将其修改为没有重复整数的数组。小明会依次修改A2,A3,···,AN。当修改Ai时,小明会检查......
  • 第一章 人工神经网络基础
    1.1人工智能与传统机器学习学习心得:传统机器学习(ML):需要专业的主题专家人工提取特征,并通过一个编写良好的算法来破译给定的特征,从而判断这幅图像中的内容。输入-->人工提取特征-->特征-->具有浅层结构的分类器-->输出当存在欺骗性的图片出现时可能会失效,我们需要创建能够精细......
  • 常见的排序算法——冒泡排序(二)
    本文记述了冒泡排序微小改动的基本思想和一份参考实现代码,并在说明了算法的性能后用随机数据进行了验证。◆思想更少的比较可以节省一定的时间,此改动可以减少更小范围的比较。(把水平陈列的数组逆时针旋转90°后,有助于理解后续的内容。)将包含顶层以下的所有元素作为待排序范围......
  • 汽车信息与交易平台原型设计
    一、实验题目:原型设计二、实验目的:掌握产品原型设计方法和相应工具使用。三、实验要求(1)对比分析墨刀、Axure、Mockplus等原型设计工具的各自的适用领域及优缺点(至少3条)。(2)利用网络资源自学Mockplus或墨刀等原型设计工具,并利用原型工具自拟主题进行原型设计。主题可以是高校二......
  • 二叉树简介
    本篇目录树的相关概念树的种类二叉树的概念和性质二叉树的广度优先遍历二叉树的深度优先遍历树的相关概念数据结构大致上分为线性结构和非线性结构,线性结构指的是元素之间存在着“一对一”的线性关系的数据结构;非线性结构的逻辑特征是一个结点元素可能对应多个直接前驱......
  • 制造工艺流程仿真 —— 工艺仿真软件巡礼
    原文地址:https://www.sohu.com/a/572121705_649545以下只给出原文的部分摘抄,详细内容参见原文。铸造工艺仿真软件ProCAST、MAGMASOFT、AnyCasting、NOVACAST、JSCAST、FLOW-3DCAST等,注塑工艺仿真软件Moldflow、Moldex3D、3DTIMON等,锻造工艺仿真软件DEFORM、FORGE、QForm......
  • p8269-usaco22open-visits-s-ti-jie
    题意一共有$n$头奶牛,每一头奶牛都有自己想拜访的奶牛,用$a_i$表示牛$i$想拜访的牛。对于每一头牛$i$,如果它想拜访的牛在家,就会离开家并拜访它,还会增加$v_i$的欢乐值,最后求欢乐值的最大值。思路我们可以将这个问题看作一个一个图,且每一个节点的出度都是$1$。我们可以......