首页 > 其他分享 >大模型面试题:LLAMA中的FFN层作用是什么?

大模型面试题:LLAMA中的FFN层作用是什么?

时间:2024-11-02 08:51:45浏览次数:3  
标签:面试题 https 模型 Transformer FFN MLP LLAMA Memory

获取更多面试真题的集合,请移步至 https://i.afbcs.cn/naPbNY

总结上网上看到的一些分析,毕竟当时Transformer提出来的时候,可能也没考虑到会被研究的这么细。

  • 模型结构本身
    [ Attention is Not All You Need: Pure Attention Loses Rank Doubly Exponentially with Depth] 论文中做了实验,对于单纯的self-attentation而不考虑实验残差和MLP的话,我们堆叠了n层,整个模型的秩会很快坍缩,也即所有表征趋于一个vector,而加上了MLP和残差的话会好很多,因此MLP这个东西是必要的。

  • 增加表达能力
    升维之后的线性变换通常伴随着一个非线性激活函数。非线性激活函数的引入打破了线性模型的限制,使得模型可以对数据进行更复杂的变换。降维操作将升维后的结果映射回原始维度,从而将这些非线性特征组合到最终的输出中。这种操作增强了模型的表达能力,使其能够表示更加复杂的函数关系。

  • 存储知识
    使用了激活函数,如门控类的函数的话,就可以从key-value的角度来看待FFN了,FFN本身占据了Transformer的很大的参数量,对于FFN来说,第一层线性变换是 Key Memory,第二层线性变换是 Value Memory。可以参考论文[Transformer Feed-Forward Layers Are Key-Value Memories]和[End-To-End Memory Networks].

总结:FFN的作用是增加表达能力、模型结构上去掉FFN会导致秩坍缩更快、存储知识

参考: [1] https://www.zhihu.com/question/622085869/answer/3518358912 [2] https://www.zhihu.com/question/665731716

标签:面试题,https,模型,Transformer,FFN,MLP,LLAMA,Memory
From: https://blog.csdn.net/hguo11/article/details/143445510

相关文章

  • Java面试题中高级进阶(JVM篇Java垃圾回收)
    前言本来想着给自己放松一下,刷刷博客,突然被几道面试题难倒!说说Java对象创建过程?知道类的生命周期吗?简述Java的对象结构?如何判断对象可以被回收?JVM的永久代中会发生垃圾回收么?你知道哪些垃圾收集算法?似乎有点模糊了,那就大概看一下面试题吧。好记性不如烂键盘***12万字的java面......
  • 挑战Java面试题复习第5天,无人扶我青云志
    挑战第5天java反射ListSetMap区别Object常用方法java反射定义:运行时动态获取类信息和调用方法的特性。应用场景:JDBC数据库连接。框架如Hibernate和Struts等。实现方式:通过四种方法获取Class对象:Class.forName(“类的路径”)类名.class对象名.getClass......
  • C#/.Net面试题及答案
    1. 对ASP.NETCorekestrel的理解   ASP.NETCore是一个跨平台的开源框架,用于构建现代的,基于云的,互联网连接的应用程序。ASP.NETCoreKestrel是一个跨平台的、开源的、高性能的、轻量级的Web服务器,专门用于托管ASP.NETCore应用程序。它完全在.NET上构建,且可以运行在Windo......
  • 网络安全工程师面试题汇总
    以下为信息安全各个方向涉及的面试题,星数越多代表问题出现的几率越大,没有填答案是希望大家如果不懂能自己动手找到答案,祝各位都能找到满意的工作~注:做这个List的目标不是很全,因为无论如何都不可能覆盖所有的面试问题,更多的还是希望由点达面,查漏补缺。TODOLIST渗透测试W......
  • 100 道 Linux 常见面试题,慢慢读~_linux基础面试题
    1Linux概述1.1什么是LinuxLinux是一套免费使用和自由传播的类Unix操作系统,是一个基于POSIX和Unix的多用户、多任务、支持多线程和多CPU的操作系统。它能运行主要的Unix工具软件、应用程序和网络协议。它支持32位和64位硬件。Linux继承了Unix以网络......
  • JAVA 二叉树面试题
    @目录摘要代码Node节点main函数问题1:递归——求二叉树的最大深度问题2:求二叉树的最小深度问题3:求二叉树中节点的个数问题4:求二叉树中叶子节点的个数问题5:求二叉树中第k层节点的个数,不是求第k层叶子节点个数问题6:判断两棵树是否相同问题7:给定一个二叉树,检查它是否是镜像对称的。问......
  • 树莓派5安装ollama+open-webui
    新购置了个PI5,就想着折腾些什么。除了给它装codesys之外,想到(尤其是看到官配的冷却风扇)是不是能跑个AI什么的。捜了一下,除了TensorFlowLite、PyTorchMobile还有做视觉的OPENCV和YOLO。除此之外,一个熟悉的词汇又冒了出来。ollama。记得有段时间看到很多短视频推送,想着就找下资料看......
  • 大模型算法面试题总结
    更多面试题总结,请移步至​https://i.afbcs.cn/naPbNY​1.什么是大型语言模型(LLMs)以及它们的工作原理是什么?大型语言模型(LLMs)是设计用来理解、处理和生成类似人类文本的高级人工智能系统。例子包括GPT(生成预训练变换器)、BERT(来自变换器的双向编码器表示)、Claude和Llama。这些......
  • Java面试题中高级进阶(JVM篇Java内存)
    前言本来想着给自己放松一下,刷刷博客,突然被几道面试题难倒!说说Java内存结构?说说对象分配规则?描述一下JVM加载class文件的原理机制?似乎有点模糊了,那就大概看一下面试题吧。好记性不如烂键盘***12万字的java面试题整理***Java内存结构方法区和堆是所有线程共享的内存区域;而j......
  • Java常见面试题之事务
    博主介绍上海交大毕业,大厂资深Java后端工程师《Java全套学习资料》作者专注于系统架构设计和高并发解决方案和面试辅导阿里云开发社区乘风者计划专家博主@author[vx]vip1024p(备注java)ACID特性A:原子性,Atomictiy,事务是最小的执行单位,不允许分割,事务的原子性确......