【面经】超全版本AIGC算法工程师面经

时间：2024-06-23 16:58:29浏览次数：42

标签：NLP 超全公式模型面经 AIGC 问题详细手写

AIGC算法工程师面经

1. 个人项目介绍
2.深度学习基础
- 2.1 公式理解类
- 2.2 模型训练通识
3. 细分算法

本篇为来自各大厂从业者等业内人士做的免费面经总结，希望能为想进入或者即将入行这一领域的小伙伴提供一些有益的参考和指导！超强干货！建议点赞收藏！
在这里插入图片描述

1. 个人项目介绍

对于所有的相关经历，都是跟面试官聊技术的切入点，大家一定要进行详细的准备，具体的注意点如下：（举例，提供参考方向）

1.1 如何介绍

从数据规模、特征、指标、目前使用的模型方法、项目难点详细介绍。

1.2 加分点

自己的思考、学习、成长

一定要明确地说出自己做的项目亮点！ 一定要仔细地思考，业务考虑得够广，技术考虑得够深。

1.3 注意事项

不要只描述业务，用到了这个岗位对应到的哪些技术，从自己的能力、自己设计的方案出发。

用到的技术一定要详细准备。

2.深度学习基础

2.1 公式理解类

在实际面试中，这类问题很大概率需要手写，或者需要很清晰地讲出公式含义及原理，这个过程中可能会遭到反复拷打，甚至手撕代码。

手写softmax公式，手写BN公式，softmax层的label是什么
手写交叉熵公式，分类为什么用交叉熵不用平方差
手写知识蒸馏公式
手写NER损失函数
为什么逻辑回归用sigmoid激活函数？多分类逻辑回归是否也是sigmoid？
手推lr梯度, 交叉熵损失为什么有log项？为什么取负
（更多面试问题和解答的详细链接一）
（更多面试问题和解答的详细链接二）

2.2 模型训练通识

模型训练通识类题目，此类宽泛的问题类似于命题作文，看似简单且答案明确，但实际考量的空间非常大；
单纯地背完八股面试官往往是不满意的，一般的反应是再问更细节的内容或者直接反馈觉得你还说的不够。

这种时候最好要结合一些自身的实践经验，或者将题目与答案说得更深一些。

介绍一下L1、L2正则化 L1 为啥能得到稀疏
激活函数的优缺点：sigmoid、tanh、relu、gel
如何处理数据不平衡问题
训练中学习率调整策略是怎样的
介绍一些神经网络初始化的一些方法
有哪些归一化方案

3. 细分算法

3.1 NLP问题

NLP系列问题还是需要结合项目经历，尽量把自己项目中涉及到的技术讲透彻。

训练时词表大小过大，输出层过大的优化方法
如何优化Muti-Head的计算？
注意力机制有哪些种类，本身原理上起了什么作用
CNN、RNN、Transformer分别怎么编码文本
embedding方式有哪些
（更多NLP问题和解答的详细链接二）
（更多NLP问题和解答的详细链接二）

3.2 Transformer细节问题

为什么transformer用Layer Norm？有什么用？
transformer为什么要用三个不一样的QKV？
Bert中为什么要在开头加个[CLS]?
Bert中有哪些地方用到了mask?
Bert为什么要使用warmup的学习率trick

（更多Transformer问题和解答的详细链接一）

3.3 大模型问题

大模型系列目前涉及到的岗位和内容应用实际是非常多的，所以除了简单的问题罗列，这里做了一个大致的学习路线分类。
目前针对大模型的单个岗位会结合场景去靠，除了文本，还需要考虑图像embedding、数值、逻辑推理类型的数据用于指令微调时更深度的用法。
此外具体对应到的哪些技术，要从自己的能力、自己设计的方案出发；场景中用到的技术一定要详细准备。

介绍一下常见大模型结构：gpt、bart、t5等
in-context learning和传统finetune的区别
prompt-tuning和prefix-tuning的区别，各自的优缺点
解释一下大模型的位置编码（rope等）
介绍一下gpt的训练流程
MoE的原理

……

在这里插入图片描述

标签：NLP,超全,公式,模型,面经,AIGC,问题,详细,手写
From： https://blog.csdn.net/syu_acm/article/details/139902016

Hadoop+Hive超全笔记一站式搞定！！
Hadoophadoop集群的组成hadoop常用端口HDFS常用shell命令HDFS的原理、机制块和副本edits和fsimage文件HDFS的三大机制HDFS数据上传、写入原理(写流程)【重点】HDFS数据读取(读流程)【重点】原数据存储流程【重点】安全模式归档机制(小文件)垃圾桶机制MapReduce底层原......
AIGC技术的发展现状与未来
随着人工智能（AI）技术的迅猛发展，AI生成内容（AI-GeneratedContent，AIGC）成为了一项颠覆性的技术，它能够自动生成文本、图像、音频和视频等多种内容。本文将探讨AIGC技术的发展现状及未来趋势，展示这一领域的巨大潜力和应用前景。一、AIGC技术的发展现状1.1文本生成目前，AIGC在......
【AIGC新职业】之：什么是AIGC？其对创意设计行业有什么重要意义？
【AIGC是什么】AIGC，全称ArtificialIntelligenceGeneratedContent，即人工智能生成内容。这是一种基于生成对抗网络、大型预训练模型等人工智能的技术方法，通过已有数据的学习和识别，以适当的泛化能力生成相关内容的技术。AIGC技术的核心思想是利用人工智能算法生成具有一定......
064篇 - 新兴趋势（Emerging Trends）【AIGC提示词工程】
大家好，我是元壤教育的张涛，一名知识博主，专注于生成式人工智能（AIGC）各领域的研究与实践。我喜欢用简单的方法，帮助大家轻松掌握AIGC应用技术。我的愿景是通过我的文章和教程，帮助1000万人学好AIGC，用好AIGC。随着自然语言处理（NLP）和机器学习的快速发展，提示词工程在增强语言模型......
AIGC工具的使用测评
一、引言随着人工智能技术的飞速发展，AIGC（ArtificialIntelligenceGeneratedContent）工具作为生成式人工智能的重要应用之一，受到了广泛关注。本次测评旨在详细评估AIGC工具的功能、性能、使用体验及其在实际应用中的效果，以期为相关领域的专业人士和公众提供有价值的参考。二、AI......
远光全栈AIGC数字创新平台入选“大模型行业应用十大典范案例”
6月4日至7日，由数字产业创新研究中心主办的2024中国数字企业峰会举行，远光软件自主研发的《全栈AIGC数字创新平台YG-JTGPT》凭借其卓越的AIGC技术创新实力与创新推广应用，成功入选“大模型行业应用十大典范案例”榜单。本届峰会以“AI+数据x向未来”为主题，聚焦AI+融合创新......
【一文开启StableDiffusion】最火AIGC绘画工具SD阿里云部署指南（含踩坑经验）
Midjonery使用简单，效果出色，不过需要付费。本文将介绍完全开源的另一款产品StableDiffusion，它的社区目前非常活跃，各种插件和微调模型都非常多，而且它无需付费注册，没有速度、网络限制，非常推荐一试。目前主流AI绘画产品：产品优点缺点StableDiffusionStablityAI公司开源、免费，可......
面经梳理-计算机网络
前言整理计算机网络的相关面试题，计算机网络在我看来挺复杂的，想要完全精通应该是不可能的，毕竟后端开发的知识点那么多，不过掌握面试的常考知识点是由必要的。建议系统学习计算机网络课本再进行知识点的整理记忆。题目OSI七层协议有了解么？Ip协议是哪层协议？计算机网络体系结构目......
【前端面经】数组算法题解
目录题目一：两数之和题目二：最长无重复字符子串题目三：合并两个有序数组题目四：寻找数组中的峰值题目一：两数之和描述：给定一个整数数组nums和一个目标值target，请你在该数组中找出和为目标值的那两个整数，并返回他们的数组下标。你可以假设每种输入只会对应一个答案。......
面经梳理-java多线程同步协作
题目Synchronized和ReentryLock锁锁可以视作访问共享数据的许可证。锁能够保护共享数据以实现线程安全，其作用包括保障原子性、保障可见性和保障有序性。Java平台中的锁包括内部锁（IntrinsicLock）和显式锁（ExplicitLock）。内部锁是通过synchronized关键字实现的；显式锁是通过java.ut......