网站首页
编程语言
数据库
系统相关
其他分享
编程问答
3Blue1Brown
2024-10-26
直观解释注意力机制,Transformer的核心 | Chapter 6 | Deep Learning | 3Blue1Brown
目录前言1.前情提要:词嵌入2.注意力是什么?Mole是什么?Tower又是什么?3.注意力模式:“一个毛茸茸的蓝色生物漫步于葱郁的森林”,名词与形容词,查询与键4.掩码:看前不看后5.上下文窗口大小6.值矩阵7.参数有多少8.交叉注意力9.多头注意力10.输出矩阵11.加深网络12.结语
2024-10-26
直观解释大语言模型如何储存事实 | Chapter 7 | Deep Learning | 3Blue1Brown
目录前言1.大语言模型中的事实储存在哪里?2.快速回顾一下Transformer3.针对示例所做的假设4.多层感知器内部机理5.参数统计6.叠加7.下期预告相关资料结语前言3Blue1Brown视频笔记,仅供自己参考这几个章节主要解析GPT背后的Transformer,本章主要是剖析Tra