首页 > 其他分享 >100道大模型面试八股文

100道大模型面试八股文

时间:2024-07-29 22:28:36浏览次数:9  
标签:八股文 区别 LLMs 模型 面试 LLM 100 什么 Norm

算法暑期实习机会快结束了,校招大考即将来袭。

当前就业环境已不再是那个双向奔赴时代了。求职者在变多,岗位在变少,要求还更高了。

最近,我们陆续整理了很多大厂的面试题,帮助球友解惑答疑和职业规划,分享了面试中的那些弯弯绕绕。

资料合集:


  1. 你了解ReAct吗,它有什么优点?

  2. 解释一下langchain Agent的概念

  3. langchain 有哪些替代方案?

  4. langchain token计数有什么问题?如何解决?

  5. LLM预训练阶段有哪几个关键步骤?

  6. RLHF模型为什么会表现比SFT更好?

  7. 参数高效的微调(PEFT)有哪些方法?

  8. LORA微调相比于微调适配器或前缀微调有什么优势?

  9. 你了解过什么是稀疏微调吗?

  10. 训练后量化(PTQ)和量化感知训练(QAT)有什么区别?

  11. LLMs中,量化权重和量化激活的区别是什么?

  12. AWQ量化的步骤是什么?

  13. 介绍一下GPipe推理框架

  14. 矩阵乘法如何做数量并行?

  15. 请简述TPPO算法流程,它跟TRPO的区别是什么?

  16. 什么是检索增强生成(RAG)?

  17. 目前主流的中文向量模型有哪些?

  18. 为什么LLM的知识更新很困难?

  19. RAG和微调的区别是什么?

  20. 大模型一般评测方法及其准是什么?

  21. 什么是Kv cache技术,它具体是如何实现的?

  22. DeepSpeed推理对算子融合做了哪些优化?

  23. 简述一下FlashAttention的原理

  24. MHA、GQA、MQA三种注意力机制的区别是什么?

  25. 请介绍一下微软的ZeRO优化器

  26. Paged Attention的原理是什么,解决了LLM中的什么问题?

  27. 什么是投机采样技术,请举例说明?

  28. 简述GPT和BERT的区别

  29. 讲一下GPT系列模型的是如何演进的?

  30. 为什么现在的大模型大多是decoder-only的架构?

  31. 讲一下生成式语言模型的工作机理

  32. 哪些因素会导致LLM中的偏见?

  33. LLM中的因果语言建模与掩码语言建模有什么区别?

  34. 如何减轻LLM中的“幻觉”现象?

  35. 解释ChatGPT的“零样本”和“少样本”学习的概念

  36. 你了解大型语言模型中的哪些分词技术?

  37. 如何评估大语言模型(LLMs)的性能?

  38. 如何缓解LLMs复读机问题?

  39. 请简述下Transformer基本原理

  40. 为什么Transformer的架构需要多头注意力机制?

  41. 为什么transformers需要位置编码?

  42. transformer中,同一个词可以有不同的注意力权重吗?

  43. Wordpiece与BPE之间的区别是什么?

  44. 有哪些常见的优化LLMs输出的技术?

  45. GPT-3拥有的1750亿参数,是怎么算出来的?

  46. 温度系数和top-p、top-k参数有什么区别?

  47. 为什么transformer块使用LayerNorm而不是BatchNorm?

  48. 介绍一下post layer norm和pre layer norm的区别

  49. 什么是思维链(CoT)提示?

  50. 你觉得什么样的任务或领域适合用思维链提示?

  51. 目前主流的开源模型体系有哪些?

  52. prefix LM和causal LM区别是什么?

  53. 涌现能力是啥原因?

  54. 大模型LLM的架构介绍?

  55. 什么是LLMs复读机问题?

  56. 为什么会出现LLMs复读机问题?

  57. 如何缓解LLMs复读机问题?

  58. llama输入句子长度理论上可以无限长吗?

  59. 什么情况下用Bert模型,什么情况下用LLama、ChatGLM类大模型,咋选?

  60. 各个专长领域是否需要各自的大模型来服务?

  61. 如何让大模型处理更长的文本?

  62. 为什么大模型推理时显存涨的那么多还一直占着?

  63. 大模型在gpu和cpu上推理速度如何?

  64. 推理速度上,int8和fp16比起来怎么样?

  65. 大模型有推理能力吗?

  66. 大模型生成时的参数怎么设置?

  67. 有哪些省内存的大语言模型训练/微调/推理方法?

  68. 如何让大模型输出台规化

  69. 应用模式变更

  70. 大模型怎么评测?

  71. 大模型的honest原则是如何实现的?

  72. 模型如何判断回答的知识是训练过的已知的知识,怎么训练这种能力?

  73. 奖励模型需要和基础模型一致吗?

  74. RLHF在实践过程中存在哪些不足?

  75. 如何解决人工产生的偏好数据集成本较高,很难量产问题?

  76. 如何解决三个阶段的训练(SFT->RM->PPO)过程较长,更新迭代较慢问题?

  77. 如何解决PPO的训练过程中同时存在4个模型(2训练,2推理),对计算资源的要求较高问题?

  78. 如何给LLM注入领域知识?

  79. 如果想要快速检验各种模型,该怎么办?

  80. 预训练数据Token重复是否影响模型性能?

  81. 什么是位置编码?

  82. 什么是绝对位置编码?

  83. 什么是相对位置编码?

  84. 旋转位置编码RoPE思路是什么?

  85. 旋转位置编码RoPE有什么优点?

  86. 什么是长度外推问题?

  87. 长度外推问题的解决方法有哪些?

  88. ALiBi(Attention with Linear Biases)思路是什么?

  89. ALiBi(Attention with Linear Biases)的偏置矩阵是什么?有什么作用?

  90. ALiBi(Attention with Linear Biases)有什么优点?

  91. Layer Norm的计算公式写一下?

  92. RMS Norm的计算公式写一下?

  93. RMS Norm相比于Layer Norm有什么特点?

  94. Deep Norm思路?

  95. 写一下Deep Norm代码实现?

  96. Deep Norm有什么优点?

  97. LN在LLMs中的不同位置有什么区别么?如果有,能介绍一下区别么?

  98. LLMs各模型分别用了哪种Layer normalization?

  99. 介绍一下FFN块计算公式?

  100. 介绍一下GeLU计算公式?

  101. 介绍一下Swish计算公式?

  102. 介绍一下使用GLU线性门控单元的FFN块计算公式?

  103. 介绍一下使用GeLU的GLU块计算公式?

  104. 介绍一下使用Swish的GLU块计算公式?

(完)

成功求职并不是一件难事,关键在于你是否做好了充分的准备。通过学习和掌握AI技术的相关知识和技能,了解面试中可能出现的问题和技巧,你就能够在面试中展现出自己的专业素养和实力,赢得面试官的青睐和认可。因此,让我们一起努力,用知识和技能武装自己,迎接AI时代的挑战和机遇吧!
有需要的朋友可以扫描下方二维码,免费获取更多相关资料!请添加图片描述
最后,祝愿所有转行、求职的同学都能够在AI产品面试中取得优异的成绩,找到心仪的工作!加油!

大模型基础面

在这里插入图片描述

大模型进阶面

在这里插入图片描述

大模型微调面

在这里插入图片描述

大模型langchain面

在这里插入图片描述

大模型推理面

在这里插入图片描述

更多面试题分享

在这里插入图片描述

标签:八股文,区别,LLMs,模型,面试,LLM,100,什么,Norm
From: https://blog.csdn.net/2401_85373691/article/details/140636497

相关文章

  • 前端面试资料之大厂真题篇(五)
    资料来源:rss1.cn在CSS中,可以使用多种方法隐藏页面元素,每种方法都有不同的效果和应用场景。以下是几种常用的隐藏页面元素的方法及其区别:隐藏元素的方式1.display:none;效果:完全隐藏元素,元素不占据任何空间。应用场景:当你希望元素完全从页面布局中移除时使用。区别:元素......
  • 前端面试资料之大厂真题篇(四)
    谈谈javascript中内存泄漏的几种情况?资料来源:rss1.cnJavaScript中的内存泄漏指的是程序运行过程中,已不再需要的内存未能及时释放,导致内存占用不断增加。内存泄漏会导致应用程序的性能下降,甚至使程序崩溃。以下是几种常见的内存泄漏情况及其解决方法:1.意外的全局变量情......
  • 大模型算法岗常见面试题100道(值得收藏)
    大模型应该是目前当之无愧的最有影响力的AI技术,它正在革新各个行业,包括自然语言处理、机器翻译、内容创作和客户服务等等,正在成为未来商业环境的重要组成部分。截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来......
  • 【Golang 面试 - 进阶题】每日 3 题(三)
    ✍个人博客:Pandaconda-CSDN博客......
  • 【Golang 面试 - 进阶题】每日 3 题(四)
     ✍个人博客:Pandaconda-CSDN博客......
  • 【前端 · 面试 】HTTP 总结(十一)—— HTTPS 概述
    最近我在做前端面试题总结系列,感兴趣的朋友可以添加关注,欢迎指正、交流。争取每个知识点能够多总结一些,至少要做到在面试时,针对每个知识点都可以侃起来,不至于哑火。HTTPS前言通过前面内容的学习,相信大家对HTTP的概念、特点、请求方法及缓存等的......
  • Java面试题(容器)
    目录1、Java容器都有哪些?2、 Collection和Collections有什么区别3、List、Set、Map之间的区别是什么?4、 HashMap和Hashtable有什么区别?5、如何决定使用HashMap还是TreeMap?6、 说一下HashMap的实现原理?7、 ArrayList和LinkedList的区别是什么?8、 ......
  • AP5174内置PWM调节LED灯亮度输入5-100V车灯驱动IC方案
    产品描述AP5174是一款效率高,稳定可靠的LED灯恒流驱动控制芯片,内置高精度比较器,固定关断时间控制电路,恒流驱动电路等,特别适合大功率LED恒流驱动。AP5174采用ESOP8封装,散热片内置接SW脚,通过调节外置电流检测的电阻值来设置流过LED灯的电流,支持外加电压线性调光,最大......
  • CSDN最新JAVA面试题集
    第一章-Java基础篇1、你是怎样理解OOP面向对象   难度系数:⭐面向对象是利于语言对现实事物进行抽象。面向对象具有以下特征:继承:继承是从已有类得到继承信息创建新类的过程封装:封装是把数据和操作数据的方法绑定起来,对数据的访问只能通过已定义的接口多态性:多态性是指允......
  • Java面试题大全(四)
    91.Java开发设计七大原则在Java编程中,有一些基本的设计原则和模式,被广泛接受为最佳实践。以下是七个主要的Java开发原则:单一职责原则(SRP)一个类应该只有一个引起它变化的原因。开放-封闭原则(OCP)类应该是可扩展的,但是不可修改。李氏替换原则(LSP)子类型必须能够替换掉它们......