Self Attention:由Dot-Product(向量点乘)说起

https://lulaoshi.info/deep-learning/attention/transformer-attention.html#self-attention-从向量点乘说起

Transformer[1]论文提出了一种Self-Attention(自注意力机制), Self-Attention的最核心的公式为：
\(\large \begin{align*} \\ & Attention(Q,K,V)=Softmax( \frac{QK^⊤}{\sqrt{d_k}} )V \\ & where, Q : Query,\ K : key,\ V : Value \\ \\ \end{align*} \\ \)

单看这个公式，其实并不能很好地理解Attention到底在做什么，
本文从Transformer所使用的Self-Attention，介绍Attention背后的原理。

Self-Attention：从向量点乘说起

我们先从:\(\large Softmax(XX ^⊤)X\)这样一个公式开始。

首先需要复习\(\large Dot\ Product\)(向量点乘)的概念。对于两个\(\large 行向量x和y\)：
\(\large \begin{align*} \\ x &=[& x_0 &, & x_1 & , & \cdots &, & x_n &] \\ y &=[& y_0 &, & y_1 & , & \cdots &, & y_n &] \\ x \cdot y &= & x_0 \cdot y_0 & + & x_1 \cdot y_1 & + & \cdots & + & x_n \cdot y_n &\ \\ \end{align*} \\ \)

Self-Attention：

在这个基础上，再进一步：

标签：Transformer,cdot,Series,Self,Attention,矩阵,large,向量
From： https://www.cnblogs.com/abaelhe/p/18364823

使用 Hugging Face Transformers 创建文本生成模型
文本生成是自然语言处理中的一个重要任务，在聊天机器人、自动写作等领域有着广泛的应用。HuggingFaceTransformers是一个流行的Python库，它提供了大量预训练的模型以及API来实现各种自然语言处理任务。本文将详细介绍如何使用HuggingFaceTransformers库来创建一个简......
颠覆传统北大新型MoM架构挑战Transformer模型，显著提升计算效率
挑战传统的Transformer模型设计在深度学习和自然语言处理领域，Transformer模型已经成为一种标准的架构，广泛应用于各种任务中。传统的Transformer模型依赖于一个固定的、按深度排序的层次结构，每一层的输出都作为下一层的输入。这种设计虽然简单有效，但也存在参数冗余和计算效率低......
大模型微调实战演练：使用代码剖析 Transformers Pipelines工作原理
在自然语言处理（NLP）领域，Transformers模型已经成为了主流技术之一。无论是文本分类、情感分析，还是机器翻译，Transformers都展现了强大的性能。今天，我们来详细解析一下TransformersPipelines的运行原理，帮助大家更好地理解其内部机制。一、基本流程TransformersPipeline......
SciTech-BigDataAIML-LLM-Transformer Series-统计模型和大量数据 + MI移动互联+IoT万
词汇MI(MobileInternet):移动互联网IoT(InternetofThings):万物互联网WE(WordEmbedding):词嵌入PE(PositionalEncoding):位置编码统计模型和大数据的保障和源头是"MI"和"IoT"。1真正"改革生产生活习惯"的是"国家政策"与"政府"。新经济的产生是以“改革生产生活......
SciTech-BigDataAIML-LLM-Transformer Series-Positional Encoding: 位置编码: 统计模
词汇WE(WordEmbedding):词嵌入PE(PositionalEncoding):位置编码统计模型和大数据的本源是由"MI(移动互联网)"和"IoT(万物互联)"决定的1真正改驱“改革生产生活习惯”的是“国家政策”与“政府”。新经济的产生是以“改革生产生活习惯”为前提.生产生活的习惯改变:行政......
Polars简明基础教程七：Series 和 DataFrame 以及它们之间的转换_A
在听完这次讲座之后，您将能够：初步认识Series和DataFrame的一些特性。在Series和DataFrame列之间进行转换。在Python的lists（列表）、dicts（字典）与Series和DataFrames之间来回转换。Series在Polars中，Series是一个非常重要的数据结构，它类似于NumPy的数组或Pa......
Polars简明基础教程八：Series 和 DataFrame 以及它们之间的转换_B
在Series和DataFrame列之间进行转换我们先使用方括号从DataFrame的列中创建一个Series( df["age"] .head(3))请注意，Series有一个名称（age）和一个数据类型（64位浮点数）。我们还可以使用to_series从单列的DataFrame中创建一个Series（我们将在本课程的下一节中......
基于Transformer的锂电池剩余寿命预测 [电池容量提取+锂电池寿命预测] Matlab代码
基于Transformer的锂电池剩余寿命预测[电池容量提取+锂电池寿命预测]Matlab代码无需更改代码，双击main直接运行！！！1、内含“电池容量提取”和“锂电池寿命预测”两个部分完整代码和NASA的电池数据2、提取NASA数据集的电池容量，此处以以历史容量作为输入，采用迭代预测的方法对......
Transformer模型在自然语言处理中有哪些具体的应用场景？
关注我，持续分享逻辑思维&管理思维&面试题；可提供大厂面试辅导、及定制化求职/在职/管理/架构辅导；推荐专栏《10天学会使用asp.net编程AI大模型》，目前已完成所有内容。一顿烧烤不到的费用，让人能紧跟时代的浪潮。从普通网站，到公众号、小程序，再到AI大模型网站。干货满满。学成后可......
SO-Net: Self-Organizing Network for Point Cloud Analysis
Abstract本文提出了SO-Net，是一种创新的深度学习架构，为处理无序点云数据设计。SO-Net利用自组织映射（SOM）技术来捕捉点云的空间分布，并实现排列不变的特征提取。这种分层特征提取方法能够从局部到全局提取特征，还能够通过点到节点的k最近邻搜索系统地调整网络的receptivefield，从......

SciTech-BigDataAIML-LLM-Transformer Series-Self-Attention：由Dot-Product(向量点乘)说起

Self Attention:由Dot-Product(向量点乘)说起

Self-Attention：从向量点乘说起

Self-Attention：

相关文章

赞助商

阅读排行