首页 > 其他分享 >SciTech-BigDataAIML-LLM-Transformer Series-Self-Attention:由Dot-Product(向量点乘)说起

SciTech-BigDataAIML-LLM-Transformer Series-Self-Attention:由Dot-Product(向量点乘)说起

时间:2024-08-17 19:18:55浏览次数:10  
标签:Transformer cdot Series Self Attention 矩阵 large 向量

Self Attention:由Dot-Product(向量点乘)说起

https://lulaoshi.info/deep-learning/attention/transformer-attention.html#self-attention-从向量点乘说起

Transformer[1]论文提出了一种Self-Attention(自注意力机制), Self-Attention的最核心的公式为:
\(\large \begin{align*} \\ & Attention(Q,K,V)=Softmax( \frac{QK^⊤}{\sqrt{d_k}} )V \\ & where, Q : Query,\ K : key,\ V : Value \\ \\ \end{align*} \\ \)

单看这个公式,其实并不能很好地理解Attention到底在做什么,
本文从Transformer所使用的Self-Attention,介绍Attention背后的原理。

Self-Attention:从向量点乘说起

我们先从:\(\large Softmax(XX ^⊤)X\)这样一个公式开始。

首先需要复习\(\large Dot\ Product\)(向量点乘)的概念。对于两个\(\large 行向量x和y\):
\(\large \begin{align*} \\ x &=[& x_0 &, & x_1 & , & \cdots &, & x_n &] \\ y &=[& y_0 &, & y_1 & , & \cdots &, & y_n &] \\ x \cdot y &= & x_0 \cdot y_0 & + & x_1 \cdot y_1 & + & \cdots & + & x_n \cdot y_n &\ \\ \end{align*} \\ \)

Self-Attention:

在这个基础上,再进一步:

标签:Transformer,cdot,Series,Self,Attention,矩阵,large,向量
From: https://www.cnblogs.com/abaelhe/p/18364823

相关文章

  • 使用 Hugging Face Transformers 创建文本生成模型
    文本生成是自然语言处理中的一个重要任务,在聊天机器人、自动写作等领域有着广泛的应用。HuggingFaceTransformers是一个流行的Python库,它提供了大量预训练的模型以及API来实现各种自然语言处理任务。本文将详细介绍如何使用HuggingFaceTransformers库来创建一个简......
  • 颠覆传统 北大新型MoM架构挑战Transformer模型,显著提升计算效率
    挑战传统的Transformer模型设计在深度学习和自然语言处理领域,Transformer模型已经成为一种标准的架构,广泛应用于各种任务中。传统的Transformer模型依赖于一个固定的、按深度排序的层次结构,每一层的输出都作为下一层的输入。这种设计虽然简单有效,但也存在参数冗余和计算效率低......
  • 大模型微调实战演练:使用代码剖析 Transformers Pipelines工作原理
    在自然语言处理(NLP)领域,Transformers模型已经成为了主流技术之一。无论是文本分类、情感分析,还是机器翻译,Transformers都展现了强大的性能。今天,我们来详细解析一下TransformersPipelines的运行原理,帮助大家更好地理解其内部机制。一、基本流程TransformersPipeline......
  • SciTech-BigDataAIML-LLM-Transformer Series-统计模型和大量数据 + MI移动互联+IoT万
    词汇MI(MobileInternet):移动互联网IoT(InternetofThings):万物互联网WE(WordEmbedding):词嵌入PE(PositionalEncoding):位置编码统计模型和大数据的保障和源头是"MI"和"IoT"。1真正"改革生产生活习惯"的是"国家政策"与"政府"。新经济的产生是以“改革生产生活......
  • SciTech-BigDataAIML-LLM-Transformer Series-Positional Encoding: 位置编码: 统计模
    词汇WE(WordEmbedding):词嵌入PE(PositionalEncoding):位置编码统计模型和大数据的本源是由"MI(移动互联网)"和"IoT(万物互联)"决定的1真正改驱“改革生产生活习惯”的是“国家政策”与“政府”。新经济的产生是以“改革生产生活习惯”为前提.生产生活的习惯改变:行政......
  • Polars简明基础教程七:Series 和 DataFrame 以及它们之间的转换_A
    在听完这次讲座之后,您将能够:初步认识Series和DataFrame的一些特性。在Series和DataFrame列之间进行转换。在Python的lists(列表)、dicts(字典)与Series和DataFrames之间来回转换。Series在Polars中,Series是一个非常重要的数据结构,它类似于NumPy的数组或Pa......
  • Polars简明基础教程八:Series 和 DataFrame 以及它们之间的转换_B
    在Series和DataFrame列之间进行转换我们先使用方括号从DataFrame的列中创建一个Series(    df["age"]    .head(3))请注意,Series有一个名称(age)和一个数据类型(64位浮点数)。我们还可以使用to_series从单列的DataFrame中创建一个Series(我们将在本课程的下一节中......
  • 基于Transformer的锂电池剩余寿命预测 [电池容量提取+锂电池寿命预测] Matlab代码
    基于Transformer的锂电池剩余寿命预测[电池容量提取+锂电池寿命预测]Matlab代码 无需更改代码,双击main直接运行!!!1、内含“电池容量提取”和“锂电池寿命预测”两个部分完整代码和NASA的电池数据2、提取NASA数据集的电池容量,此处以以历史容量作为输入,采用迭代预测的方法对......
  • Transformer模型在自然语言处理中有哪些具体的应用场景?
    关注我,持续分享逻辑思维&管理思维&面试题;可提供大厂面试辅导、及定制化求职/在职/管理/架构辅导;推荐专栏《10天学会使用asp.net编程AI大模型》,目前已完成所有内容。一顿烧烤不到的费用,让人能紧跟时代的浪潮。从普通网站,到公众号、小程序,再到AI大模型网站。干货满满。学成后可......
  • SO-Net: Self-Organizing Network for Point Cloud Analysis
    Abstract本文提出了SO-Net,是一种创新的深度学习架构,为处理无序点云数据设计。SO-Net利用自组织映射(SOM)技术来捕捉点云的空间分布,并实现排列不变的特征提取。这种分层特征提取方法能够从局部到全局提取特征,还能够通过点到节点的k最近邻搜索系统地调整网络的receptivefield,从......