transformer

2025-01-23谷歌泰坦：Transformer之后的AI时代？
介绍2017年，谷歌发布了一篇具有革命性意义的论文，题为《AttentionisAllYouNeed》（注意力是你所需要的一切）。这篇论文引发了我们今天所经历的AI革命，并引入了Transformer模型。Transformer已经成为如今几乎所有顶级大型语言模型（LLM）的核心架构。Transformer的优势与成本Transfor
2025-01-23深入探索LLM架构，使用pytorch实现Transformer
深入探究架构并利用从RNN到Transformer的NLP模型构建实际应用本系列文章1.LLM大模型架构专栏||从NLP基础谈起2.LLM大模型架构专栏||自然语言处理（NLP）之建模3.LLM大模型架构之词嵌入（Part1）4.LLM大模型架构之词嵌入（Part2）5.LLM大模型架构之词嵌入(Part3)6.LLM架构从基础
2025-01-23记忆层增强的 Transformer 架构：通过可训练键值存储提升 LLM 性能的创新方法
大语言模型（LLM）通过其参数储存了大量信息，这些信息主要以密集层中线性矩阵变换的权重形式存在。然而，参数规模的扩大必然导致计算成本和能源消耗的显著增加。这种参数存储方式是否可以通过更高效的键值查找机制来优化？尽管此前已有多项相关研究，但在当前AI架构规模下的实践尚属首次
2025-01-22Transformer 学习与解读
LLM学习笔记注意力机制sequencetosequence（seq2seq）输入N个向量，输出任意可能数量的向量（由机器决定）；如果输出N个向量的任务就叫做SequenceLabeling李沐课程讲义：https://zh-v2.d2l.ai/chapter_attention-mechanisms/self-attention-and-positional-encoding.html在注意力机制
2025-01-22文档图像矫正任务的前沿进展：引入Transformer框架、极坐标的思路
在《文档数字化采集与智能处理：图像弯曲矫正技术概述》一文中，我们介绍了文档图像矫正技术的发展沿革与代表性方案。随着文档智能处理的需求逐步升级，文档图像去畸变技术也在不断探索新的可能性。今天，我们将讨论近年来文档图像矫正任务的前沿进展，分享一些我们正在关注的方向，欢迎与我
2025-01-21【超详细】深度学习三杰：CNN、RNN、GNN 全面对比与应用场景详解
以下是一篇尽可能全面而详尽的博客，围绕卷积神经网络（CNN）、循环神经网络（RNN）、图神经网络（GNN）三大常见深度学习模型进行对比。希望兼顾深度与易读性，同时通过适当的关键词优化来吸引更多流量。深度学习三杰：CNN、RNN、GNN全面对比与应用场景详解导语：在深度学习领域，神经网络种
2025-01-20深度解析从 RNN 到 Transformer：构建 NLP 应用的架构演进之路
深度解析从RNN到Transformer：构建NLP应用的架构演进之路
2025-01-20挖到宝了[特殊字符]几乎把大模型讲得透透的，大模型入门必读
《基于ChatGPT、GPT-4等Transformer架构的自然语言处理》是一本全面介绍Transformer模型及其在自然语言理解（NLU）中应用的书籍。NLU作为自然语言处理（NLP）的一个重要分支，在数字经济中扮演着核心角色。本书详细阐述了Transformer模型的四个关键阶段：预训练、有监督微调、奖励建模
2025-01-19自注意力模块
欧几里得变换器中自注意力的一般形式双曲几何中的自注意力机制详细解释在双曲空间中的线性变换。为什么要进行线性变换？在双曲空间中进行线性变换主要是为了适应数据的层次结构和树状结构，这对于许多现实世界的数据来说是非常重要的。此外，双曲空间中的线性变换也有
2025-01-19【AI大模型】BERT GPT ELMo模型的对比
目录
2025-01-18识别可用的卷积神经网络
1、ResNet（残差网络）：ResNet通过引入残差学习框架解决了深度网络训练中的退化问题。它通过添加跳跃连接（skipconnections）来提高网络的深度，从而提高性能。2、DenseNet（密集连接网络）：DenseNet通过将每一层与前面所有层连接起来，实现了特征的重用和传递。这种结构可以减少参数数量，提高训练
2025-01-18Transformer 面试常考题快问快答
本人是某双一流大学硕士生，也最近刚好准备参加2024年秋招，在找大模型算法岗实习中，遇到了很多有意思的面试，所以将这些面试题记录下来，并分享给那些和我一样在为一份满意的offer努力着的小伙伴们！！！Transformer面试题快问快答1.Transformer为何使用多头注意力机制？原因：多头注
2025-01-17强推未发表！3D图！Transformer-LSTM+NSGAII工艺参数优化、工程设计优化！
目录效果一览基本介绍程序设计参考资料效果一览基本介绍1.Transformer-LSTM+NSGAII多目标优化算法，工艺参数优化、工程设计优化！（Matlab完整源码和数据）Transformer-LSTM模型的架构：输入层：多个变量作为输入，形成一个多维输入张量。Transformer编码器：该编码器由多个T
2025-01-17Transformer 可视化分析 + 大模型推理策略：非常新颖的题材，发展也是一步一个脚印，没有那种一蹴而就的浮躁感
Transformer可视化分析+大模型推理策略：非常新颖的题材，发展也是一步一个脚印，没有那种一蹴而就的浮躁感背景介绍为什么Transformer理解单个词语意思+理解词语顺序+理解上下文，就能摆脱模式识别，灵活的读懂意思？Transformer分为四部分：文字编码、自注意力机制、神经网
2025-01-16市面上唯一一本全面解析Transformer的书《Transformer、BERT、GPT 大语言模型原理深度解析》从入门到精通，真是太太太全面了！
Transformer,BERT,andGPT:IncludingChatGPTandPromptEngineering,出版于2023年11月，作者是奥斯瓦尔德·坎佩萨托（OswaldCampesato）奥斯瓦尔德·坎佩萨托(OswaldCampesato)：专门研究深度学习、Java、Android和TensorFlow。他是25本书的作者/合著者，其中包括TensorF
2025-01-16大模型书籍推荐：Transformer自然语言处理: 构建语言应用，附409页pdf免费下载
今天给大家推荐一本Transformer大模型书籍《Transformer自然语言处理:构建语言应用》Transformers已经被用来编写真实的新闻故事，改进谷歌搜索查询，甚至创造出讲笑话的聊天机器人。在本指南中，作者LewisTunstall、LeandrovonWerra和ThomasWolf(拥抱Transformers的创始
2025-01-16Datawhale组队学习打卡-Fun-transformer-Task1引言
文章目录写在前面Embedding：词汇到向量空间的映射**引入Embedding的意义****1.Embedding的定义****2.高维稀疏表示的特点****3.区别****1.什么是Embedding****2.Embedding的作用****3.一些常见的Embedding方法****4.代码示例****5.一些拓展**Seq2SeqSeq2Seq
2025-01-15大模型好书推荐 | Transformer 和扩散模型的生成式 AI 实用指南（文末免费下载PDF）
《Transformer和扩散模型的生成式AI实用指南》是一本关于生成式人工智能的技术指南，特别关注了Transformer和扩散模型在AI领域的应用。这本大模型书籍已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】这本书的内容主要分为以下
2025-01-14小众降维！POD-Transformer多变量回归预测（Matlab）
目录效果一览基本介绍程序设计参考资料效果一览基本介绍1.Matlab实现POD-Transformer多变量回归预测，本征正交分解数据降维融合Transformer多变量回归预测，使用SVD进行POD分解（本征正交分解）；2.运行环境Matlab2023b；3.输入多个特征，输出单个变量，多变量回归预测
2025-01-14ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision（ViLT 无卷积或区域监督的语言视觉转换
ViLT:Vision-and-LanguageTransformerWithoutConvolutionorRegionSupervision（ViLT无卷积或区域监督的语言视觉转换器）1.摘要大概内容就是视觉与语言预训练（VLP）在各种视觉与语言联合下游任务重表现很牛逼，但是目前他们大部分都以来图像特征提取过程（比如区域监督和卷积结
2025-01-14地平线Vision Mamba：超越ViT，最具潜力的下一代通用视觉主干网络
•VisionMamba论文链接：https://arxiv.org/abs/2401.09417•项目主页：https://github.com/hustvl/Vim简介本文的工作VisionMamba[1]发表在ICML2024。研究的问题是如何设计新型神经网络来实现高效的视觉表示学习。该任务要求神经网络模型能够在处理高分辨率图像时既保持
2025-01-14《使用 Vision Transformer 进行图像分类》
《使用VisionTransformer进行图像分类》作者：KhalidSalama创建日期：2021/01/18最后修改时间：2021/01/18描述：实现用于图像分类的VisionTransformer（ViT）模型。（i）此示例使用Keras3 在Colab中查看 • GitHub源介绍此示例实现了AlexeyDosovitskiy等人的
2025-01-13手撕Transformer -- Day9 -- TransformerTrain
手撕Transformer–Day9–TransformerTrainTransformer网络结构图目录手撕Transformer--Day9--TransformerTrainTransformer网络结构图TransformerTrain代码Part1库函数Part2实现一个DeEnDataset数据集，作为一个类Part3batch处理，Tensor+PaddingPart4测试
2025-01-12大语言模型入门指南：一篇掌握学习计划和路线，给自己三个月然后惊艳所有人
课题介绍一、方向介绍在不到四年时间里，Transformer模型以其强大的性能迅速在NLP社区崭露头角，进而，基于Transformer这一标准架构的BERT、T5，乃至当下热门的GPT模型已经逐渐成为各个领域中的不可或缺的模型架构。深入理解Transformer模型背后的底层原理，以及Transformer相关的
2025-01-12（14-2）基于Latent Diffusion Transformer的文生视频系统：系统配置
6.3 系统配置在“configs”目录中，保存了本项目中涉及的不同数据集和任务提供配置文件。这些配置文件定义了模型的训练、验证和测试过程中的关键参数和设置，包括网络结构、优化器参数、学习率调度、数据预处理方式等。目录中每个子文件夹或文件的命名（如ffs、sky、t2x、taich