transformer 的发展历史

时间：2023-02-01 23:35:53浏览次数：70

标签：NLP transformer Word2Vec NNLM 模型历史发展向量

最近看了很多关于transformer的教程，做一个阶段性的总结。也是写博客的试水文章啦~ 今天也要加油呀！

参考资料：

b站up去钓鱼的程序猿的课程：https://www.bilibili.com/video/BV11v4y137sN/?spm_id_from=333.788&vd_source=98ed4f76b2f858b6bc7c03d166f126b5
知乎文章：https://zhuanlan.zhihu.com/p/49271699
李宏毅老师的相关课程连接：https://www.bilibili.com/video/BV1Xp4y1b7ih/?spm_id_from=333.788.top_right_bar_window_custom_collection.content.click&vd_source=98ed4f76b2f858b6bc7c03d166f126b5
Datawhale开源github：https://github.com/datawhalechina/learn-nlp-with-transformers

transformer 的发展历史

问题引入

图像领域常使用Pre-train + Frozen/ Finetune 的组合方式来加快模型训练完成数据量不足的任务。ImageNet

这种解决问题的方式能否在NLP领域可行？ → 可行

模型发展

几个代表性的模型：（统计语言模型 → NNLM → Word2Vec → ELMO → GPT → Transformer → Bert）

我们先忽略语音问题，文本的NLP问题处理的是词向量，最早起的NLP领域的预训练就是 word embedding

NLP处理的问题是什么？→ 语言模型

（仅考虑文本问题）：文本 → 文本/分类（预测、翻译、情感辨识.....）

1. 统计语言模型（基于统计学方法的语言模型）：

和机器学习到深度学习经过的历程类似，起初也是用统计数学的方法来处理问题：

使用条件概率的链式法则来进行：

链式法则

把一句话看为是一个序列，后面词出现的概率都建立在前面词出现的条件基础上。

理解这个公式最合适的文本问题是预测：

填空：eg：“狗狗是人类最好的___“

？可以做翻译等任务吗

PS：对于统计语言模型的改进 → n元统计语言模型：

忽略预测词前面的一些词：（马尔科夫链）

马尔科夫链

P(朋友|狗狗，是，人类，最好的) 简化为 P(狗狗|最好的，人类)......

2. NNLM 神经网络语言模型

从统计学模型往神经网络改进。

NNLM是两层感知机的简单结构。副产品是词向量。

NNLM

感知机的公式：wx+b

输入的最初是one hot 编码的词向量。完成填空任务后，我们得到一个训练得不错的W，这个W*x，就是一个word embedding的形式。

这样我们得到了具有更多信息的词向量编码，并且可以控制大小。

3. Word2Vec

得到NNLM的启发后，NLP领域开始把创造好的word embedding编码作为一个重要的任务。

Word2Vec就是为了得到更好的词向量提出，NNLM只考虑前文，对此做了改进。

Word2Vec

CBOW：上下文预测单词
Skip-gram：词预测上下文

Word2Vec不在乎预测的准确性，而是想要得到更多信息的词向量编码。

4. ELMO

Word2Vec在处理多义词时遇到困难。？

ELMO

双向的lstm（？理解LSTM）

为什么同样考虑上下文ELMO有更好的表现？ → lstm是动态记忆的，而非Word2Vec的静态输入上下文。（比较直觉式的解释）

缺点：

lstm长期依赖消失

lstm无法并行计算

5. GPT ATTENTION transformer ...

这些模型后面展开说。

标签：NLP,transformer,Word2Vec,NNLM,模型,历史,发展,向量
From： https://www.cnblogs.com/moonlight1209/p/17084393.html

[网络同步] < 网络同步在游戏历史中的发展变化> 阅读笔记
最近阅读：网络同步在游戏历史中的发展变化 https://mp.weixin.qq.com/s/9Nghv8O9HXJFVf6L1m9wpg 学到不少，大致对游戏网络有了大方向的了解，做个记录。 1.帧同步......
软件测试发展路线
(软件测试发展路线)以下内容来源于《全栈性能测试修炼宝典JMeter实战》，仅供学习参考。1业务路线常见的业务路线职位有：QA经理业务专家产品经理产品总监行业咨询顾......
mvc_jsp演变历史和MVC详解
MVC：开发模式1.jsp演变历史1.早期只有servlet,只能使用response输出标签数据,非常麻烦2.后来又jsp，简化了Servlet的开发,如果过度使用jsp,在jsp中即写大......
部署技术发展史
部署技术发展史......
历史订单记录保存时间
美团，未提示时间（无论V11.9版本、V12.6）美团-买药，近90天（V11.9版本提示，V12.6未提示）美团-外卖，近1年（V12.6版本提示，V11.9未提示）美团外卖，近1年（V7.99）美团外卖-买药，未提示时间（至......
vue.js客服系统实时聊天项目开发（十四）点击加载展示历史消息列表
当访客一进去聊天界面以后，需要获取一下历史消息展示到界面，并且需要能分页的原理展示在顶部有一个加载更多记录的按钮，点击就能按分页获取数据//展示......
操作系统的发展与分类
操作系统的发展与分类1、手工操作阶段2、批处理阶段单道批处理系统多道批处理系统(操作系统开始出现)3、分时操作系统4、实时操作系统5、其他的几种操作系......
R语言生态学：进化树推断物种分化历史：分类单元数与时间关系、支系图可视化
全文链接：http://tecdat.cn/?p=31434原文出处：拓端数据部落公众号我们围绕进化树技术进行一些咨询，分析生物类群在时间上的多样性是如何变化的。我们将用到分类单元数-时间......
深圳MES系统如何助力注塑企业实现数字化发展
家用电器、电子产品、日用品、医疗保健、汽车零部件、新能源以及建筑、玩具等行业对注塑制品需求量日益增长。注塑企业提供的各式各样注塑产品已深入到经济生活的各个领域，......
Linux 记录和查看登录日和操作志|查看登录历史
零、查看最近登录ip以及历史命令执行日期 [root@izbp~]#last [root@izbp~]#last-10 //表示只显示10行[root@izbp~]#last-n5-a-i //显示5行且主机IP......

transformer 的发展历史

transformer 的发展历史

问题引入

模型发展

NLP处理的问题是什么？→ 语言模型

1. 统计语言模型（基于统计学方法的语言模型）：

2. NNLM 神经网络语言模型

3. Word2Vec

4. ELMO

5. GPT ATTENTION transformer ...

相关文章

赞助商

阅读排行