首页 > 其他分享 >【NLP高频面题 - LLM架构篇】LLM对Transformer都有哪些优化?

【NLP高频面题 - LLM架构篇】LLM对Transformer都有哪些优化?

时间:2024-11-28 13:54:38浏览次数:3  
标签:NLP Transformer 高频 宝典 面试 LLM 要会 面题

【NLP高频面题 - LLM架构篇】LLM对Transformer都有哪些优化?

⚠︎ 重要性:★★★

标签:NLP,Transformer,高频,宝典,面试,LLM,要会,面题
From: https://www.cnblogs.com/fasterai/p/18574150

相关文章

  • 深度学习笔记——DiT(Diffusion Transformer)
    本文详细介绍Transformer架构图像生成方面的应用,将Diffusion和Transformer结合起来的模型:DiT。目前DiT已经成为了AIGC时代的新宠儿,视频和图像生成不可缺少的一部分。文章目录论文定义架构与传统(U-Net)扩散模型区别架构噪声调度策略与传统扩散的相同输入图像/条件......
  • 【人人都能学得会的NLP - 文本分类篇 01】使用ML方法做文本分类任务
    【人人都能学得会的NLP-文本分类篇01】使用ML方法做文本分类任务NLPGithub项目:NLP项目实践:fasterai/nlp-project-practice介绍:该仓库围绕着NLP任务模型的设计、训练、优化、部署和应用,分享大模型算法工程师的日常工作和实战经验AI藏经阁:https://gitee.com/faste......
  • 深度学习笔记——常见的Transformer位置编码
    本文详细介绍3种常见的Transformer位置编码——正弦/余弦位置编码(sin/cos)、基于频率的二维位置编码(2DFrequencyEmbeddings)、旋转式位置编码(RoPE)文章目录Transformer中常见的编码方式正弦/余弦位置编码(SinusoidalPositionalEncoding)基于频率的二维位置编码(2DFr......
  • 【大模型实战篇】利用TensorRT LLM部署及推理大模型实战(bloom560m、chatglm-6b等大模
    1. TensorRT-LLM基础介绍        TensorRT-LLM是NVIDIA用于做LLM(LargeLanguageModel)的可扩展推理方案。基于TensorRT深度学习编译框架来构建、编译并执行计算图,并借鉴了许多FastTransformer中高效的Kernels实现,然后利用NCCL完成设备之间的通讯。Tenso......
  • LLM Defenses Are Not Robustto Multi-Turn Human Jailbreaks Yet
    ......
  • 注意力机制及Transformer概述
    1. \textbf{1.}1. 注意力机制1️⃣生物学中的注意力提示类型含义基础非自主提示(......
  • LLMs Learn Task Heuristics from Demonstrations: A Heuristic-Driven Prompting St
    1.概述关于基于COT的Prompt构造有很多的研究,例如:CoT(Weietal.,2022),Automate-CoT(Shumetal.,2023),Auto-CoT(Zhangetal.,2023),Iter-CoT(Sunetal.,2023),Active-CoT(Diaoetal.,2023)。本篇文章尝试给出了一种解释:LLM基于有监督的ICL(in-contextlearni......
  • transformer口语化解析
    Transformer是一种基于自注意力机制的深度神经网络模型,常用于处理序列到序列的任务,例如机器翻译、文本摘要、问答系统等。它由Encoder和Decoder两个主要部分组成,每个部分包含多个相同的Block。Transformer结构图Transformer结构importtorchimporttorch.nn......
  • 自动驾驶之心全套首个基于Transformer的分割检测 视觉大模型视频课程
    网课学习的好处有哪些1、学生学习自主性强:资料地址https://pan.baidu.com/s/1GIsMJ9BGgjgbJCrsVNDi6A?pwd=2q49当学生在面对电脑时,会有一种自己未来掌握在自己手中的感觉,所有的操作完全由自己掌控,真正发挥学习的主观能动性。2、学生非限性学习:网络学习的学生不受年龄的限制,同......
  • Ollma本地部署Qwen2.5 14B(不使用docker)
    部署机器硬件情况:内存:32GB显卡:3060 为什么不使用docker:1.网上教程大多以docker为主2.安装docker的时间太长,在等待的时候顺便尝试一下不用docker的部署1.安装Ollama下载地址:Ollama下载好之后默认安装即可。Ollama常用命令【跟docker差不多,初次安装的话这边可以......