LLM面试题汇总

时间：2024-09-09 15:02:21浏览次数：10

标签：面试题 shot 汇总矩阵 Transformer Llama2 LLM GPT

LLM相关

LLM基础

zero shot、one shot、three shot是什么

zero shot: 零样本学习。对于模型没有见过的图像，通过已有的图像和特征相关联，从而判别新的图片

few shot: 少样本学习。通过判断测试样本与训练样本的相似性，来推测测试样本属于什么类
bf16和fp16有什么区别

LLM微调

Adpter Tuning
Prefix Tuning
LoRA原理

LoRA（Low-Rank Adaptation of Large Language Models）是一种用于高效微调大语言模型的方法。它的核心思想是在预训练模型权重矩阵上额外引入两个低秩矩阵，在微调过程中通过更新低秩矩阵从而实现在目标任务或领域的迁移，有效地减少了需要更新的参数量，并且降低了微调的计算和存储成本。训练完成后只需要将两个低秩矩阵的乘积加回到原始权重矩阵中从而得到更新后的模型。
QLoRA原理

LLM应用

Transformer

解释self attention 和 cross attention
为什么要除以 \(\sqrt{d}\)

\(Attn(Q,K,V)=softmax(\frac{QK^{T}}{\sqrt{d}})\)

当\(d_{k}\)变大导致\(QK^{T}\)的方差变大，导致元素之间的差异变大，会造成softmax函数退化成argmax
BERT和Transformer的区别
手写Transformer

GPT相关

GPT架构（GPT和Transformer的区别）

Llama相关

Llama2架构
Llama2 transformer block 里做了哪些改变
为什么Llama2中使用了RMSNorm 而不用 LayerNorm
为什么用RoPE不用绝对位置编码，RoPE能表示绝对位置信息吗
为什么现在主流都用Decoder-only而不是Encoder-decoder

标签：面试题,shot,汇总,矩阵,Transformer,Llama2,LLM,GPT
From： https://www.cnblogs.com/scy157609962/p/18403858

redis常用知识汇总（包括 jedis 和 springboot 整合 redis）
介绍Redis是一个开源的内存数据库，它支持多种数据结构，并且常用于高速缓存、会话管理、消息队列等场景。Redis的全称是RemoteDictionaryServer，是一种key-value（键值对）存储系统，能够以极高的性能处理大量数据的读写操作。Redis的主要特点：基于内存：数据存储在内存中，具有极高的......
mybatis plus 常用知识汇总（保姆级教程！~）
介绍：MyBatis-Plus是基于MyBatis框架的一个增强工具，主要目的是简化MyBatis的开发过程，提供更加简洁、方便的CRUD操作。它是在保留MyBatis强大功能的基础上，通过封装和优化一些常见操作来提高开发效率。MyBatis-Plus提供了许多开箱即用的功能，包括自动CRUD代码生成......
redis常用知识汇总（包括 jedis 和 springboot 整合 redis）
介绍Redis是一个开源的内存数据库，它支持多种数据结构，并且常用于高速缓存、会话管理、消息队列等场景。Redis的全称是RemoteDictionaryServer，是一种key-value（键值对）存储系统，能够以极高的性能处理大量数据的读写操作。Redis的主要特点：基于内存：数据存储在内存中，具有......
Vue3学习汇总（路由篇）
1.单一页面设计常用存在导航栏和内容区，导航栏路由分配，内容区呈现组件内容；<template><divclass="app"><h2class="title">vue路由测试</h2><divclass="navigate"><RouterLinkto="/h......
2025秋招计算机视觉面试题（十二) -理清深度学习优化函数发展脉络
问题深度学习中有很多优化函数，常见的那些你还记得它的定义以及优缺点吗？背景知识深度学习网络训练中，有很多可供选择的优化函数如SGD、Adam等等，到底用哪个好呢？其实这个问题没有确切的答案，优化函数是需要配合损失函数使用的，说白了，优化函数也是一种超参数，是需要尝试的，哪个效......
训练框架技术序列一：Megtron-LLM架构源码
本文章涉及的Megatron-llm的XMind思维导图源文件和PDF文件，可在网盘下载：https://pan.baidu.com/s/1xRZD-IP95y7-4Fn0C_VJMg提取码:qxff一、引言Megatron-Core是一个基于PyTorch的开源库，专为在NVIDIAGPU上高效训练大型语言模型（LLMs）而设计。它提供了一系列GPU优化的训......
【LLM大模型】转行大模型：趋势、必要性及可行路径
在当今这个数字化快速发展的时代，人工智能（AI）尤其是大规模预训练模型（大模型），已经成为推动科技进步和产业变革的重要力量。对于各行各业的技术从业者而言，转行大模型不仅是适应行业趋势的需要，更是自我提升与职业发展的必经之路。转行大模型的必要性市场需求的增长：随着人工智能......
Transformer、RNN和SSM的相似性探究：揭示看似不相关的LLM架构之间的联系
通过探索看似不相关的大语言模型(LLM)架构之间的潜在联系,我们可能为促进不同模型间的思想交流和提高整体效率开辟新的途径。尽管Mamba等线性循环神经网络(RNN)和状态空间模型(SSM)近来备受关注,Transformer架构仍然是LLM的主要支柱。这种格局可能即将发生变化:像Jamba、Samba和G......
C#整合Ollama实现本地LLMs调用
前言近两年AIGC发展的非常迅速，从刚开始的只有ChatGPT到现在的很百家争鸣。从开始的大参数模型，再到后来的小参数模型，从一开始单一的文本模型到现在的多模态模型等等。随着一起进步的不仅仅是模型的多样化，还有模型的使用方式。大模型使用的门槛越来越低，甚至现在每个人都可......
LLM 成本优化
优化LLM成本对于可持续、大规模部署并最大化商业价值至关重要。大型语言模型(LLM)的财务压力LLM的快速采用和对这些模型的日益依赖带来了一个重大挑战：不断上升的运营成本。对于每天进行数十亿次预测的组织（例如一级金融机构）而言，财务负担可能非常巨大——每天高达2000......

LLM面试题汇总

LLM相关

LLM基础

LLM微调

LLM应用

Transformer

GPT相关

Llama相关

相关文章

赞助商

阅读排行