首页 > 其他分享 >没有大模型经验,面试官给机会吗?_没有大模型经验,面试官给机会吗

没有大模型经验,面试官给机会吗?_没有大模型经验,面试官给机会吗

时间:2024-10-19 11:20:47浏览次数:8  
标签:面试官 经验 AI 模型 论文 学习 候选人

在这里插入图片描述

做大模型一年半,经历了无数场面试。

经验

我最常听到的候选人(尤其是学生)的说辞是:我没有大模型经验,可以给个机会吗?
在这里插入图片描述

答案是,我们并不看重候选人的大模型训练经验。这里不是说经验不重要,而是大部分人的经验没有意义。只有头部大模型公司的核心骨干的经验才有意义,而这和绝大多数人选无关(e.g.: 校招/实习常见的简历是微调 LLaMA 7B,社招常见的简历是各个公司自己的 XX 大模型)。

事实上,平平无奇的大模型经验反而是扣分项。候选人说自己有大模型训练经验,我会问:你说你有千卡训练 XX B 模型的经验,用的是什么并行配置,DP/PP/TP 如何划分?很多时候,我得到的回答是:我不知道。甚至有时候,候选人会问我,什么是 DP,我实在是无言以对。做 CV 的候选人还能背两句 DP 和 DDP 区别的八股,做 NLP 的候选人,在最需要并行的研究领域,却完全不知道 DP 是什么。类似地,如果候选人做过大模型训练,却不知道什么是 MFU,不知道 Megatron 启动的命令行参数含义是什么[#ref_1](#ref_1)……都属于负分经历。

论文

现在不比以前,很多人都有顶会论文。就像大家日常吐槽的一样,90% 的论文都是废纸。特别亮眼的文章自然是加分项,例如 PEFT(Parameter-Efficient Fine-Tuning)方向,最近的 LoRA-GA 和 LoRA-pro 都是不错的文章,但大部分改网络结构讲故事的普通论文是不加分的。如果你有论文,那么说明你经过了基本的科研训练,仅此而已。MSRA 之前招聘实习生有时甚至还会倾向于招聘没做过科研的白纸,因为怕之前短平快的科研经历把候选人的品味带歪了,掰不过来。

除了经验和论文,还能看什么

用一个词来概括,是潜力。潜力这个词太虚,这里换成两个词来描述:基础、好奇心。

**什么是基础?**对于学生来说,首要的自然是学习。学校背景如何、专业课成绩如何、基础知识是否扎实?面试时遇到学生,经常碰到的尴尬场面是:问数学题(高数/线代/概统),答曰大一学的忘了;问编程题(leetcode easy/medium 难度),答曰没刷题写不了;问模型结构(指 LLaMA),答曰平常都是调 ChatGPT API,不清楚。相当一部分候选人是答不上来 transformer 模型结构的——一半人承认自己不清楚细节,另一半人里 90% 是自以为自己知道、但实际不知道。

大部分科研人的代码能力孱弱到只会调 ChatGPT API,或者改改 torch.nn.Module,或者调用开源框架跑跑 SFT/RLHF。分不清楚进程和线程,操作系统背完就忘;编程语言只会一些最基本的 Python,其他语言一概不通。是的,我知道这不影响你发论文,不影响你毕业,git clone 一下开源代码改两行就能满足你的需求嘛。但是,如果你想做改变世界的研究呢?例如,穿越回 2016 年,你想到了 AlphaGo 的 idea,给你足够的计算资源,你有信心自己动手实现它吗?

**什么是好奇心?**没有大模型经验没关系,但是你愿意主动去了解吗?你会去主动读大模型的论文吗?可惜很多候选人不去读。甚至别说读论文,有些想转行大模型的人连大模型用都不用一下。ChatGPT 能解决什么问题、不能解决什么问题?它的能力边界在哪里?一问一个不知道。有时候跟一些候选人保持联系了几个月,但是对方对大模型的了解在几个月的时间里没有任何长进,实在是令人惋惜。如果没机会训练 100B 以上的模型,甚至没有机会训练 7B 的模型,你愿意去下载和分析别人训好的 7B 乃至 1B 的模型,看看里面权重分布的规律吗?如果有这个细腻的心思,可能你在模型量化方面已经做出了很好的工作。

也有时候,基础和好奇心可以互补。例如模型训练刚开始时的 loss 大约是多少?如果数学基础扎实,那么可以做一些合理的假设推导出来;如果好奇心强,会注意观察每一个细节,也能答对这道题。

最后,再介绍一些比普普通通的大模型训练经验和论文更加分的经历的具体例子:

A. 在两张 2080Ti 上实现和比较过不同的流水算法的性能;

B. 用 Triton 自己实现过一些算子;

C. 能讲出不同的大模型使用的 tokenizer 的差异;

D. 在 Python 以外的语言上有不错的开发能力(例如某些开源项目背书);

E. 实现过一个效果拔群的五子棋 AI(最好是 RL 算法)。

参考

  1. 这里指候选人说自己用 Megatron 训练,但是是组里的师兄/公司的导师给了自己一条启动命令,但是自己不知道每个参数的含义的情况。

如何学习大模型技术,享受AI红利?

面对AI大模型开发领域的复杂与深入,精准学习显得尤为重要。一份系统的技术路线图,详尽的全套学习资料,不仅能够帮助开发者清晰地了解从入门到精通所需掌握的知识点,还能提供一条高效、有序的学习路径。

无论是初学者,还是希望在某一细分领域深入发展的资深开发者,这样的学习路线图都能够起到事半功倍的效果。它不仅能够节省大量时间,避免无效学习,更能帮助开发者建立系统的知识体系,为职业生涯的长远发展奠定坚实的基础。

这份完整版的AI大模型全套学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这里插入图片描述

大模型知识脑图

为了成为更好的 AI大模型 开发者,这里为大家提供了总的路线图。它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
在这里插入图片描述

经典书籍阅读

阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。

在这里插入图片描述

实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

面试资料

我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下
在这里插入图片描述

640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

在这里插入图片描述
这份完整版的AI大模型全套学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这里插入图片描述

标签:面试官,经验,AI,模型,论文,学习,候选人
From: https://blog.csdn.net/DAMOXINGHAITAI/article/details/143043585

相关文章

  • 盒模型及属性
    盒模型是指:html中的各个元素都类似一个一个的盒子里面的物品,但是却叫做css盒模型,是因为css盒模型像一个盒子,把各种html元素包起来,将html元素进行封装,以便于网页布局与排版。盒模型的属性1、边框一般用于分隔不同的元素,边框的外围即为元素的最外围。边框是围绕元素内容和内边......
  • 开源模型+Orchestrating Agents多智能体框架,易用、强大且可控
    以下是对开源模型+OrchestratingAgents多智能体框架的技术详解:一、开源模型1.优势   成本效益     开源模型无需支付昂贵的授权费用。对于预算有限的研究机构、初创企业和小型开发团队来说,这是一个巨大的优势。例如,在自然语言处理领域,许多开源的语言模型可供......
  • Apple提出MM1.5:多模态大型语言模型微调的方法、分析和见解
    摘要我们介绍了MM1.5,一个新的多模态大型语言模型(MLLM)家族,旨在增强在富文本图像理解、视觉参照和定位以及多图像推理方面的能力。在MM1架构的基础上,MM1.5采用以数据为中心的模型训练方法,系统地探索了整个模型训练生命周期中各种数据混合的影响。这包括用于持续预......
  • 三、为什么扩散模型使用均方误差损失(选看)
    高能预警:这篇文章难度很大,包含很多的数学推导,如果不想接触太多的数学内容,那么可以跳过不看。看这篇文章之前,你需要了解:什么是马尔科夫链,什么是极大似然估计,什么是KL散度,两个正态分布的KL散度,什么是贝叶斯公式以下内容参考了主要参考了博客WhatareDiffusionModels?以及李......
  • 高效部署大型语言模型:基于AMD GPU的文本生成推理
    EfficientdeploymentoflargelanguagemodelswithTextGenerationInferenceonAMDGPUs2024年1月24日,由DouglasJia撰写。[文本生成推理(TGI)]是一个用于以无与伦比的效率部署和服务大型语言模型(LLM)的工具包。TGI专门为流行的开源LLM(如Llama、Falcon、StarCoder、BLOO......
  • 学习Transformer,应该从词嵌入WordEmbedding开始_trasnformer模型中embedding
    其中的2号位置,就是词嵌入层。Embedding层用于将离散的单词数据,转换为连续且固定长度的向量:这样使模型才能处理和学习这些数据的语义信息。例如,我们希望将“AreyouOK?”这句话,作为神经网络模型的输入。此时神经网络是没办法直接处理这句文本的。我们需要先将“Are......
  • AI 大模型:Intelligent Agent—— 开启智能新纪元
    在LLM语境下,Agent理解为在某种能自主理解、规划决策、执行复杂任务的智能体,LLM充当着智能体的“大脑”。从软件工程的角度,智能体是一种基于大语言模型的,具备规划思考能力、记忆能力、使用工具函数的能力,能自主完成给定任务的计算机程序。在基于LLM的智能体中,LLM的充......
  • 15章2节:线性判别分析预测模型构建评估和可视化演示
    线性判别分析(LDA)作为一种经典的分类方法,通过最大化类间差异与最小化类内差异来实现样本的有效分类。LDA在理论上建立了坚实的数学基础,并且在多个领域具有广泛的应用。然而,在应用时需要注意其假设条件,并根据数据的实际情况选择合适的分类方法。在本篇文章中,我们通过Iris数据集......
  • C++内存模型实践探索
    前言C++对象模型是个常见、且复杂的话题,本文基于ItaniumC++ABI通过程序实践介绍了几种简单C++继承场景下对象模型,尤其是存在虚函数的场景,并通过图的方式直观表达内存布局。本文展示的程序构建环境为Ubuntu,glibc2.24,gcc6.3.0。由于clang和gcc编译器都是基于ItaniumC++ABI......
  • 一文了解大模型中的SDK和API
    大白话聊SDK和API-知乎1.智谱AI的SDK和API以智谱AI为例,智谱AI的SDK是名为zhipuai的Python包,其中包含了用于访问API的接口(如api-key)。在这个框架中,API是SDK的一部分,用于实现与智谱AI服务的交互。2.LangChain的SDK和APILangChain的SDK是一个包/框架,允许开发者使用不同大......