张亮

2024-11-14浅学AI笔记03：一个Transformer自注意力机制的故事
ChatGPT、百度文心一言等同类的大模型，都使用了Transformer架构，Transformer最大的特点是其有一个“自注意力机制”，搬个定义说的是：允许模型在处理每个输入元素时，能够考虑其与序列中所有其他元素之间的相关性，从而动态调整其权重。白话来说，就是模型要先理解输入句子的含义，才能