首页 > 其他分享 >100道大模型面试八股文

100道大模型面试八股文

时间:2024-06-06 22:34:47浏览次数:11  
标签:什么 八股文 一文 LLMs 模型 面试 LLM 100 搞懂

算法暑期实习机会快结束了,校招大考即将来袭。

当前就业环境已不再是那个双向奔赴时代了。求职者在变多,岗位在变少,要求还更高了。

最近,我们陆续整理了很多大厂的面试题,帮助球友解惑答疑和职业规划,分享了面试中的那些弯弯绕绕。

分享100道大模型面试八股文,喜欢记得点赞、收藏、关注:

  1. 你了解ReAct吗,它有什么优点?

  2. 解释一下langchain Agent的概念

  3. langchain 有哪些替代方案?

  4. langchain token计数有什么问题?如何解决?

  5. LLM预训练阶段有哪几个关键步骤?

  6. RLHF模型为什么会表现比SFT更好?

  7. 参数高效的微调(PEFT)有哪些方法?

  8. LORA微调相比于微调适配器或前缀微调有什么优势?

  9. 你了解过什么是稀疏微调吗?

  10. 训练后量化(PTQ)和量化感知训练(QAT)有什么区别?

  11. LLMs中,量化权重和量化激活的区别是什么?

  12. AWQ量化的步骤是什么?

  13. 介绍一下GPipe推理框架

  14. 矩阵乘法如何做数量并行?

  15. 请简述TPPO算法流程,它跟TRPO的区别是什么?

  16. 什么是检索增强生成(RAG)?

  17. 目前主流的中文向量模型有哪些?

  18. 为什么LLM的知识更新很困难?

  19. RAG和微调的区别是什么?

  20. 大模型一般评测方法及其准是什么?

  21. 什么是Kv cache技术,它具体是如何实现的?

  22. DeepSpeed推理对算子融合做了哪些优化?

  23. 简述一下FlashAttention的原理

  24. MHA、GQA、MQA三种注意力机制的区别是什么?

  25. 请介绍一下微软的ZeRO优化器

  26. Paged Attention的原理是什么,解决了LLM中的什么问题?

  27. 什么是投机采样技术,请举例说明?

  28. 简述GPT和BERT的区别

  29. 讲一下GPT系列模型的是如何演进的?

  30. 为什么现在的大模型大多是decoder-only的架构?

  31. 讲一下生成式语言模型的工作机理

  32. 哪些因素会导致LLM中的偏见?

  33. LLM中的因果语言建模与掩码语言建模有什么区别?

  34. 如何减轻LLM中的“幻觉”现象?

  35. 解释ChatGPT的“零样本”和“少样本”学习的概念

  36. 你了解大型语言模型中的哪些分词技术?

  37. 如何评估大语言模型(LLMs)的性能?

  38. 如何缓解LLMs复读机问题?

  39. 请简述下Transformer基本原理

  40. 为什么Transformer的架构需要多头注意力机制?

  41. 为什么transformers需要位置编码?

  42. transformer中,同一个词可以有不同的注意力权重吗?

  43. Wordpiece与BPE之间的区别是什么?

  44. 有哪些常见的优化LLMs输出的技术?

  45. GPT-3拥有的1750亿参数,是怎么算出来的?

  46. 温度系数和top-p、top-k参数有什么区别?

  47. 为什么transformer块使用LayerNorm而不是BatchNorm?

  48. 介绍一下post layer norm和pre layer norm的区别

  49. 什么是思维链(CoT)提示?

  50. 你觉得什么样的任务或领域适合用思维链提示?

  51. 目前主流的开源模型体系有哪些?

  52. prefix LM和causal LM区别是什么?

  53. 涌现能力是啥原因?

  54. 大模型LLM的架构介绍?

  55. 什么是LLMs复读机问题?

  56. 为什么会出现LLMs复读机问题?

  57. 如何缓解LLMs复读机问题?

  58. llama输入句子长度理论上可以无限长吗?

  59. 什么情况下用Bert模型,什么情况下用LLama、ChatGLM类大模型,咋选?

  60. 各个专长领域是否需要各自的大模型来服务?

  61. 如何让大模型处理更长的文本?

  62. 为什么大模型推理时显存涨的那么多还一直占着?

  63. 大模型在gpu和cpu上推理速度如何?

  64. 推理速度上,int8和fp16比起来怎么样?

  65. 大模型有推理能力吗?

  66. 大模型生成时的参数怎么设置?

  67. 有哪些省内存的大语言模型训练/微调/推理方法?

  68. 如何让大模型输出台规化

  69. 应用模式变更

  70. 大模型怎么评测?

  71. 大模型的honest原则是如何实现的?

  72. 模型如何判断回答的知识是训练过的已知的知识,怎么训练这种能力?

  73. 奖励模型需要和基础模型一致吗?

  74. RLHF在实践过程中存在哪些不足?

  75. 如何解决人工产生的偏好数据集成本较高,很难量产问题?

  76. 如何解决三个阶段的训练(SFT->RM->PPO)过程较长,更新迭代较慢问题?

  77. 如何解决PPO的训练过程中同时存在4个模型(2训练,2推理),对计算资源的要求较高问题?

  78. 如何给LLM注入领域知识?

  79. 如果想要快速检验各种模型,该怎么办?

  80. 预训练数据Token重复是否影响模型性能?

  81. 什么是位置编码?

  82. 什么是绝对位置编码?

  83. 什么是相对位置编码?

  84. 旋转位置编码RoPE思路是什么?

  85. 旋转位置编码RoPE有什么优点?

  86. 什么是长度外推问题?

  87. 长度外推问题的解决方法有哪些?

  88. ALiBi(Attention with Linear Biases)思路是什么?

  89. ALiBi(Attention with Linear Biases)的偏置矩阵是什么?有什么作用?

  90. ALiBi(Attention with Linear Biases)有什么优点?

  91. Layer Norm的计算公式写一下?

  92. RMS Norm的计算公式写一下?

  93. RMS Norm相比于Layer Norm有什么特点?

  94. Deep Norm思路?

  95. 写一下Deep Norm代码实现?

  96. Deep Norm有什么优点?

  97. LN在LLMs中的不同位置有什么区别么?如果有,能介绍一下区别么?

  98. LLMs各模型分别用了哪种Layer normalization?

  99. 介绍一下FFN块计算公式?

  100. 介绍一下GeLU计算公式?

  101. 介绍一下Swish计算公式?

  102. 介绍一下使用GLU线性门控单元的FFN块计算公式?

  103. 介绍一下使用GeLU的GLU块计算公式?

  104. 介绍一下使用Swish的GLU块计算公式?

面试精选

标签:什么,八股文,一文,LLMs,模型,面试,LLM,100,搞懂
From: https://blog.csdn.net/2401_84033492/article/details/139511186

相关文章

  • 整理好了!2024年最常见 20 道 Kafka面试题(九)
    上一篇地址:整理好了!2024年最常见20道Kafka面试题(八)-CSDN博客十七、Kafka的消费者如何进行故障恢复?Kafka的消费者故障恢复主要涉及以下几个方面:消费者组(ConsumerGroup):Kafka通过消费者组来实现故障恢复。当消费者组中的一个消费者发生故障时,其他消费者可以继续读取消息,从......
  • 整理好了!2024年最常见 20 道 Kafka面试题(八)
    上一篇地址:整理好了!2024年最常见20道Kafka面试题(七)-CSDN博客十五、Kafka与传统MQ消息系统之间有什么区别?Kafka与传统的消息队列(MQ)系统有多个显著的区别,这些区别主要体现在以下几个方面:数据模型:Kafka:Kafka是一个分布式流处理平台,它使用发布-订阅模式来处理数据流。它......
  • 整理好了!2024年最常见 20 道 Kafka面试题(七)
    上一篇地址:整理好了!2024年最常见20道Kafka面试题(六)-CSDN博客十三、Kafka中数据传输的事务定义有哪几种?Kafka中数据传输的事务定义有三种:最多一次:在这种模式下,消息最多只会被传输一次,但也存在消息不被传输的可能性。这种情况通常发生在网络不稳定或系统崩溃等异常情况下......
  • 整理好了!2024年最常见 20 道 Kafka面试题(六)
    上一篇地址:整理好了!2024年最常见20道Kafka面试题(五)-CSDN博客十一、Kafka中的ISR(In-SyncReplicas)是什么?在ApacheKafka中,ISR是"In-SyncReplicas"的缩写,它代表与领导者(Leader)保持同步的追随者(Follower)集合。ISR是Kafka保证数据一致性和高可用性的关键概念之一。以......
  • 整理好了!2024年最常见 20 道 Kafka面试题(五)
    上一篇地址:整理好了!2024年最常见20道Kafka面试题(四)-CSDN博客九、Kafka是如何维护消费状态跟踪的?ApacheKafka是一个分布式流处理平台,它能够高效率地处理和存储大量的数据流。在Kafka中,消费状态跟踪是确保消息被正确处理且不被重复处理的关键机制。以下是Kafka维护消......
  • 面试必会 --> SSM篇
    01-什么是SpringIOC和DI?IOC:控制翻转,它把传统上由程序代码直接操控的对象的调用权交给容器,通过容器来实现对象组件的装配和管理。所谓的“控制反转”概念就是对组件对象控制权的转移,从程序代码本身转移到了外部容器。DI:依赖注入,在我们创建对象的过程中,把对象依......
  • 高德面试:为什么Map不能插入null?
    在Java中,Map是属于java.util包下的一个接口(interface),所以说“为什么Map不能插入null?”这个问题本身问的不严谨。Map部分类关系图如下:所以,这里面试官其实想问的是:为什么ConcurrentHashMap不能插入null?1.HashMap和ConcurrentHashMap的区别HashMap和ConcurrentHash......
  • MBR10100FCT-ASEMI肖特基二极管MBR10100FCT
    编辑:llMBR10100FCT-ASEMI肖特基二极管MBR10100FCT型号:MBR10100FCT品牌:ASEMI封装:TO-220F最大平均正向电流(IF):10A最大循环峰值反向电压(VRRM):100V最大正向电压(VF):0.80V工作温度:-65°C~175°C反向恢复时间:5ns芯片个数:2芯片尺寸:50mil引脚数量:3正向浪涌电流(IFMS):150A包装方式:5......
  • C#开源实用的工具类库,集成超过1000多种扩展方法
    https://www.cnblogs.com/Can-daydayup/p/18230586今天大姚给大家分享一个C#开源(MITLicense)、免费、实用且强大的工具类库,集成超过1000多种扩展方法增强.NETFramework和.NETCore的使用效率:Z.ExtensionMethods。直接项目引入类库使用在你的对应项目中NuGet包管理器中搜索......
  • CF1007B 题解
    CF1007B思路显然题目要求计数\(u\midA,v\midB,w\midC\)。\(O(n\sqrtn)\)预处理出每个数的所有因数,记为集合\(p_i\)。容斥,记集合\(a,b,c,ab,ac,bc,all\)为\(p_A,p_B,p_C,p_A\capp_B,p_A\capp_A,p_B\capp_C,p_A\capp_B\capp_C\)。可以用bitset维护交集。首先加......