3Blue1Brown

2024-10-26直观解释注意力机制，Transformer的核心 | Chapter 6 | Deep Learning | 3Blue1Brown
目录前言1.前情提要：词嵌入2.注意力是什么？Mole是什么？Tower又是什么？3.注意力模式：“一个毛茸茸的蓝色生物漫步于葱郁的森林”，名词与形容词，查询与键4.掩码：看前不看后5.上下文窗口大小6.值矩阵7.参数有多少8.交叉注意力9.多头注意力10.输出矩阵11.加深网络12.结语
2024-10-26直观解释大语言模型如何储存事实 | Chapter 7 | Deep Learning | 3Blue1Brown
目录前言1.大语言模型中的事实储存在哪里？2.快速回顾一下Transformer3.针对示例所做的假设4.多层感知器内部机理5.参数统计6.叠加7.下期预告相关资料结语前言3Blue1Brown视频笔记，仅供自己参考这几个章节主要解析GPT背后的Transformer，本章主要是剖析Tra