softmax

2024-12-31线性化注意力综述：突破Softmax二次复杂度瓶颈的高效计算方案
大型语言模型在各个领域都展现出了卓越的性能，但其核心组件之一——softmax注意力机制在计算资源消耗方面存在显著局限性。本文将深入探讨如何通过替代方案实现线性时间复杂度，从而突破这一计算瓶颈。注意力机制基础理论本文假设读者已经熟悉ChatGPT、Claude等模型及其底层的tran
2024-12-15基于Huffman树的层次化Softmax：面向大规模神经网络的高效概率计算方法
1、理论基础算法本质与背景层次化（Hierarchial）Softmax算法是在深度学习领域中解决大规模词嵌入训练效率问题的重要突破。该算法通过引入Huffman树结构，有效地将传统Softmax的计算复杂度从线性降至对数级别，从而在处理大规模词汇表时表现出显著的优势。在传统的神经网络词嵌
2024-12-10基于Huffman树的层次化Softmax：面向大规模神经网络的高效概率计算方法
理论基础算法本质与背景层次化（Hierarchial）Softmax算法是在深度学习领域中解决大规模词嵌入训练效率问题的重要突破。该算法通过引入Huffman树结构，有效地将传统Softmax的计算复杂度从线性降至对数级别，从而在处理大规模词汇表时表现出显著的优势。在传统的神经网络词嵌入模型中，So
2024-11-30基于查表法实现 Softmax 函数
1简介在深度学习领域，Softmax函数是一种广泛应用的激活函数，尤其在多分类问题中表现突出。它能够将原始的得分转换为概率分布，使每个类别的概率值都处于0到1之间且总和为1。Softmax内含有大量的指数运算，这使得它在嵌入式端（例如RV1106）上计算较慢。针对量化模型，模型的输出一
2024-11-30基于 Eigen 实现 Softmax 函数
1简介Eigen是一个高效、易于使用的C++模板库，广泛应用于线性代数计算。本文将介绍如何使用Eigen实现Softmax函数，这是一种常用的归一化函数，在深度学习中具有重要应用。通过Eigen的矩阵运算和向量运算，我们可以快速、准确地实现Softmax函数，提高深度学习模型的训练和推理
2024-11-27注意力机制及Transformer概述
1. \textbf{1.}1. 注意力机制1️⃣生物学中的注意力提示类型含义基础非自主提示(
2024-11-25线性分类器全解析：Logistic 回归、Softmax 回归、感知器和支持向量机
引言在机器学习中，线性分类器是一种经典而高效的分类方法，能够在特征空间中寻找一条（或一个超平面）来区分不同类别的数据点。它是现代机器学习模型的基石，同时为许多复杂模型（如神经网络）奠定了理论基础。本文将详细解析四种常见的线性分类器——Logistic回归、Softmax回归、感知
2024-12-01【人工智能基础05】决策树模型
文章目录一.基础内容1.决策树基本原理1.1.定义1.2.表示成条件概率2.决策树的训练算法2.1.划分选择的算法信息增益（ID3算法）信息增益比（C4.5算法）基尼指数（CART算法）举例说明：计算各个类别的信息增益2.2.叶子节点的选择2.3.剪枝预剪枝后剪枝2.4.决策树训练算法分
2024-12-01通过自定义feignclient 的LoadBalancerFeignClient实现灵活的负载均衡策略
通过自定义feignclient的LoadBalancerFeignClient或IRule能实现完全自定义的负载均衡策略，本文主要是通过实现自定义的LoadBalancerFeignClient而达到自定义的负载均衡策略示例代码实现如下：packagecn.zuowenjun.demo;importcom.netflix.loadbalancer.Server;importfeign
2024-11-28JWT认证相关解读，以及开源项目中认证默认密钥未修改造成的登录认证绕过
今天研究发现一个token的复用漏洞，涉及到JWT认证，为什么会出现这样的代码问题，我花了点时间看了下github开源项目，找到了原因。JWT认证原理JWT的使用场景JWT是一种认证技术，类似于cookie，但是JWT令牌是存储在客户端，也就是我们的浏览器中，服务端只对我们发送请求携带的token进行检
2024-10-18Softmax函数计算详解
Softmax函数计算详解Softmax函数的组成部分：输入示例输出概率分布参考Softmax函数的组成部分：σ(z⃗
2024-10-15Transformer 的缩放因子为什么需要开平方根
目录一、防止过大的注意力分数导致softmax函数饱和二、维度校正三、保持方差稳定在Transformer模型中，缩放因子（scalingfactor）特别设计用于调整注意力分数（attentionscores），它通常是键向量维度的平方根。这一做法主要是出于以下几个原因：一、防止过大的注意力分数导致
2024-10-04【AI学习】Mamba学习（二）：线性注意力
上一篇《Mamba学习（一）：总体架构》提到，Transformer模型的主要缺点是：自注意力机制的计算量会随着上下文长度的增加呈平方级增长。所以，许多次二次时间架构（指一个函数或算法的增长速度小于二次函数，但大于线性函数），如线性注意力、门控卷积和循环模型，以及结构化状态空间模型(SSM)被
2024-09-16（CS231n课程笔记）深度学习之损失函数详解（SVM loss，Softmax，熵，交叉熵，KL散度）
学完了线性分类，我们要开始对预测结果进行评估，进而优化权重w，提高预测精度，这就要用到损失函数。损失函数（LossFunction）是机器学习模型中的一个关键概念，用于衡量模型的预测结果与真实标签之间的差距。损失函数的目标是通过提供一个差距的度量，帮助模型进行优化，最终减少预测误差。
2024-09-05增强 softmax 函数的稳定性
概述oftmax函数的表达式$\text{Softmax}(x_i)=\frac{e^{x_i}}{\sum_{j}e^{x_j}}$，但在计算机的运算上有一定的缺陷。这个缺陷就是溢出问题。softmax函数的实现中要进行指数函数的运算，但是此时指数函数的值很容易变得非常大。比如，e^{10}的值会超过20000，e^{100}会变成一
2024-09-01Datawhale X 李宏毅苹果书 AI夏令营深度学习进阶笔记02
目录一、学习资料二、学习笔记（一）自适应学习率（adaptivelearningrate）1、什么是+为什么要用2、三种自适应学习率方法（1）AdaGrad（AdaptiveGradient）（2）RMSprop（RootMeanSquaredpropagation）（3）Adam（Adaptivemomentestimation）（二）学习率调度（learningratescheduling）1、为什么
2024-08-25TensorFlow实现Softmax回归
原理模型相比线性回归，Softmax只多一个分类的操作，即预测结果由连续值变为离散值，为了实现这样的结果，我们可以使最后一层具有多个神经元，而输入不变，其结构如图所示：为了实现分类，我们使用一个Softmax操作，Softmax函数能够将未规范化的预测变换为非负数并且总和为1，同时让模型保持可
2024-08-236-SoftMax回归
https://blog.csdn.net/qq_43799400/article/details/131202148写代码遇到问题1、使用data.DataLoader时如果使用多进程num_workers,会报错其原因可能是https://blog.csdn.net/KaelCui/article/details/1061841582、loss的backward注意backward只能对标量，而不是对张量。
2024-08-19[Base] Agent Attention
1.BaseInfoTitleAgentAttention:OntheIntegrationofSoftmaxandLinearAttentionAdresshttps://arxiv.org/pdf/2312.08874Journal/Time202312ECCV2024Author清华自动化系Codehttps://github.com/LeapLabTHU/Agent-AttentionTableAttention2.CreativeQ&AQ：Swin