首页 > 其他分享 >大模型面试题库精华:100道经典问题解析

大模型面试题库精华:100道经典问题解析

时间:2024-08-15 11:57:06浏览次数:13  
标签:如何 LLMs 什么 面试 LLM 题库 100 模型 Norm

↓推荐关注↓

算法暑期实习机会快结束了,校招大考即将来袭。

当前就业环境已不再是那个双向奔赴时代了。求职者在变多,岗位在变少,要求还更高了。

最近,我们陆续整理了很多大厂的面试题,帮助网友解惑答疑和职业规划,分享了面试中的那些弯弯绕绕。

喜欢本文记得收藏、关注、点赞,更多实战和面试交流,文末加入我们获取


  1. 你了解ReAct吗,它有什么优点?

  2. 解释一下langchain Agent的概念

  3. langchain 有哪些替代方案?

  4. langchain token计数有什么问题?如何解决?

  5. LLM预训练阶段有哪几个关键步骤?

  6. RLHF模型为什么会表现比SFT更好?

  7. 参数高效的微调(PEFT)有哪些方法?

  8. LORA微调相比于微调适配器或前缀微调有什么优势?

  9. 你了解过什么是稀疏微调吗?

  10. 训练后量化(PTQ)和量化感知训练(QAT)有什么区别?

  11. LLMs中,量化权重和量化激活的区别是什么?

  12. AWQ量化的步骤是什么?

  13. 介绍一下GPipe推理框架

  14. 矩阵乘法如何做数量并行?

  15. 请简述TPPO算法流程,它跟TRPO的区别是什么?

  16. 什么是检索增强生成(RAG)?

  17. 目前主流的中文向量模型有哪些?

  18. 为什么LLM的知识更新很困难?

  19. RAG和微调的区别是什么?

  20. 大模型一般评测方法及其准是什么?

  21. 什么是Kv cache技术,它具体是如何实现的?

  22. DeepSpeed推理对算子融合做了哪些优化?

  23. 简述一下FlashAttention的原理

  24. MHA、GQA、MQA三种注意力机制的区别是什么?

  25. 请介绍一下微软的ZeRO优化器

  26. Paged Attention的原理是什么,解决了LLM中的什么问题?

  27. 什么是投机采样技术,请举例说明?

  28. 简述GPT和BERT的区别

  29. 讲一下GPT系列模型的是如何演进的?

  30. 为什么现在的大模型大多是decoder-only的架构?

  31. 讲一下生成式语言模型的工作机理

  32. 哪些因素会导致LLM中的偏见?

  33. LLM中的因果语言建模与掩码语言建模有什么区别?

  34. 如何减轻LLM中的“幻觉”现象?

  35. 解释ChatGPT的“零样本”和“少样本”学习的概念

  36. 你了解大型语言模型中的哪些分词技术?

  37. 如何评估大语言模型(LLMs)的性能?

  38. 如何缓解LLMs复读机问题?

  39. 请简述下Transformer基本原理

  40. 为什么Transformer的架构需要多头注意力机制?

  41. 为什么transformers需要位置编码?

  42. transformer中,同一个词可以有不同的注意力权重吗?

  43. Wordpiece与BPE之间的区别是什么?

  44. 有哪些常见的优化LLMs输出的技术?

  45. GPT-3拥有的1750亿参数,是怎么算出来的?

  46. 温度系数和top-p、top-k参数有什么区别?

  47. 为什么transformer块使用LayerNorm而不是BatchNorm?

  48. 介绍一下post layer norm和pre layer norm的区别

  49. 什么是思维链(CoT)提示?

  50. 你觉得什么样的任务或领域适合用思维链提示?

  51. 目前主流的开源模型体系有哪些?

  52. prefix LM和causal LM区别是什么?

  53. 涌现能力是啥原因?

  54. 大模型LLM的架构介绍?

  55. 什么是LLMs复读机问题?

  56. 为什么会出现LLMs复读机问题?

  57. 如何缓解LLMs复读机问题?

  58. llama输入句子长度理论上可以无限长吗?

  59. 什么情况下用Bert模型,什么情况下用LLama、ChatGLM类大模型,咋选?

  60. 各个专长领域是否需要各自的大模型来服务?

  61. 如何让大模型处理更长的文本?

  62. 为什么大模型推理时显存涨的那么多还一直占着?

  63. 大模型在gpu和cpu上推理速度如何?

  64. 推理速度上,int8和fp16比起来怎么样?

  65. 大模型有推理能力吗?

  66. 大模型生成时的参数怎么设置?

  67. 有哪些省内存的大语言模型训练/微调/推理方法?

  68. 如何让大模型输出台规化

  69. 应用模式变更

  70. 大模型怎么评测?

  71. 大模型的honest原则是如何实现的?

  72. 模型如何判断回答的知识是训练过的已知的知识,怎么训练这种能力?

  73. 奖励模型需要和基础模型一致吗?

  74. RLHF在实践过程中存在哪些不足?

  75. 如何解决人工产生的偏好数据集成本较高,很难量产问题?

  76. 如何解决三个阶段的训练(SFT->RM->PPO)过程较长,更新迭代较慢问题?

  77. 如何解决PPO的训练过程中同时存在4个模型(2训练,2推理),对计算资源的要求较高问题?

  78. 如何给LLM注入领域知识?

  79. 如果想要快速检验各种模型,该怎么办?

  80. 预训练数据Token重复是否影响模型性能?

  81. 什么是位置编码?

  82. 什么是绝对位置编码?

  83. 什么是相对位置编码?

  84. 旋转位置编码RoPE思路是什么?

  85. 旋转位置编码RoPE有什么优点?

  86. 什么是长度外推问题?

  87. 长度外推问题的解决方法有哪些?

  88. ALiBi(Attention with Linear Biases)思路是什么?

  89. ALiBi(Attention with Linear Biases)的偏置矩阵是什么?有什么作用?

  90. ALiBi(Attention with Linear Biases)有什么优点?

  91. Layer Norm的计算公式写一下?

  92. RMS Norm的计算公式写一下?

  93. RMS Norm相比于Layer Norm有什么特点?

  94. Deep Norm思路?

  95. 写一下Deep Norm代码实现?

  96. Deep Norm有什么优点?

  97. LN在LLMs中的不同位置有什么区别么?如果有,能介绍一下区别么?

  98. LLMs各模型分别用了哪种Layer normalization?

  99. 介绍一下FFN块计算公式?

  100. 介绍一下GeLU计算公式?

  101. 介绍一下Swish计算公式?

  102. 介绍一下使用GLU线性门控单元的FFN块计算公式?

  103. 介绍一下使用GeLU的GLU块计算公式?

  104. 介绍一下使用Swish的GLU块计算公式?

(完)

附上技术清单

在这里,我们想要强调的是:成功求职并不是一件难事,关键在于你是否做好了充分的准备。通过学习和掌握AI技术的相关知识和技能,了解面试中可能出现的问题和技巧,你就能够在面试中展现出自己的专业素养和实力,赢得面试官的青睐和认可。因此,让我们一起努力,用知识和技能武装自己,迎接AI时代的挑战和机遇吧!
有需要的朋友可以扫描下方二维码,免费获取更多相关资料!
在这里插入图片描述

大模型&AI产品经理如何学习

求大家的点赞和收藏,我花2万买的大模型学习资料免费共享给你们,来看看有哪些东西。

1.学习路线图

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

2.视频教程

网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。

在这里插入图片描述

在这里插入图片描述

(都打包成一块的了,不能一一展开,总共300多集)

因篇幅有限,仅展示部分资料,需要点击下方图片前往获取

3.技术文档和电子书

这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。
在这里插入图片描述

4.LLM面试题和面经合集

这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。
在这里插入图片描述

标签:如何,LLMs,什么,面试,LLM,题库,100,模型,Norm
From: https://blog.csdn.net/2401_85375151/article/details/141218858

相关文章

  • Android笔试面试题AI答之Kotlin(6)
    文章目录24.以下代码执行的结果是什么?25.解释一下下述Kotlin代码有什么问题?26.如何在Kotlin中创建常量?示例注意事项总结27.Koltin可以互换使用IntArray和Kotlin中的Array吗?IntArrayArray<Int>互换使用从IntArray到Array<Int>从Array<Int>到IntArra......
  • spring cloud面试题
    什么是SpringCloud?SpringCloud是一个微服务框架,‌它提供了全套的分布式系统解决方案。使用SpringCloud有什么优势将单体服务拆分所带来的问题:-服务实例太多怎么办-服务调用关系太杂乱怎么办-服务访问出错了怎么办-配置信息散落在各个服务中怎么办-服务调用链路......
  • 自动化测试常考的面试题+答案
    目录1、apache和nginx的区别?2、平常用什么工具测接口的?3、没有接口文档,如何做接口测试?4、在手工接口测试或者自动化接口测试的过程中,上下游接口有数据依赖如何处理?5、依赖于第三方数据的接口如何进行测试?6、你平常做接口测试的过程中发现过哪些bug?7、如何分析一个bug......
  • PAT-1006 换个格式输出整数 python实现
    1.题目本题较为简单,只需要获取数字的各位数再分别按要求拼接到一起即可。2.代码如下  """输入:23423输出:BBSSS1234SS123"""#本题较为简单,只需要获取数字的各位数再分别按要求拼接到一起即可n=int(input())#获取输入的数字r......
  • Binance 如何使用 Quickwit 构建 100PB 日志服务(Quickwit 博客)
    三年前,我们开源了Quickwit,一个面向大规模数据集的分布式搜索引擎。我们的目标很宏大:创建一种全新的全文搜索引擎,其成本效率比Elasticsearch高十倍,配置和管理显著更简单,并且能够扩展到PB级别的数据。https://quickwit.io/blog/quickwit-first-release虽然我们知道Quickw......
  • 轻松解析高频面试题: 线程设置数量多少合适?带你面试乱杀
    目录一、前言二、线程数和CPU利用率的小测试三、插入io操作四、线程数和CPU利用率总结五、线程数规划的公式 六、真实程序中的线程数一、前言相信很多小伙伴在刷面试题的时候都看到过一个线程数设置的理论:CPU密集型的程序-核心数+1I/O密集型的程序-核心数......
  • MySQL-2:数据库基础知识(50%-100%)
    目录前言一、SQL语言基础1.SQL语言简介2.SQL分类3.SELECT语句的使用4.INSERT语句的使用5.UPDATE语句的使用6.DELETE语句的使用二、基本查询1.WHERE子句的使用2.ORDERBY子句的使用3.GROUPBY和HAVING子句使用4.LIMIT子句的使用总结前言前一半MySQL-1:数据库......
  • 【面试】分别解释一下C++、Java、Python程序的执行过程
    面试模拟场景面试官:你能分别解释一下C++、Java、Python程序的执行过程吗?参考回答示例1.C++程序的执行过程1.1编译过程:源代码编写:开发者编写C++源代码,文件扩展名为.cpp。预编译(Preprocessing):预编译是编译的第一步,使用预处理器(如cpp)对源代码进行处理。这一步主......
  • 自媒体IP-起号实战班:教你如何靠打造设计个人IP,年赚到100万!
    摘要:本文旨在探讨个人品牌在自媒体平台上的构建与运营策略,以实现持续增长的个人价值和专业影响力。关键词:个人品牌,自媒体,内容运营,客户获取,转化率1.个人品牌构建的全流程方法论本节将介绍一套系统化的个人品牌构建流程,旨在帮助设计师通过自媒体平台实现个人价值的最大化......
  • 自媒体IP-起号实战班:教你如何靠打造设计个人IP,年赚到100万!
    标题:个性化IP战略在设计领域的应用与实践**摘要:**本文旨在探讨在设计行业中如何通过构建个性化IP(IntellectualProperty)来增强设计师的市场竞争力和商业价值。通过一系列实操策略与方法的介绍,本文为设计师提供了一套系统化的个人品牌构建流程。**关键词:**个性化IP,设计行业......