首页 > 其他分享 >大模型新人成长记:避开那些坑,少走三年弯路

大模型新人成长记:避开那些坑,少走三年弯路

时间:2024-08-08 09:56:19浏览次数:21  
标签:弯路 工程师 新人 模型 学习 AI 算法 数据 避开

这篇文章,我将结合自己在大模型领域的经验,给大家详细聊聊新人应该如何转行大模型赛道?

比如大模型都有哪些方向?各方向的能力要求和岗位匹配?新手转行大模型常踩的坑和常见的误区?以及入行大模型最顺滑的路径?

如果你是正打算入行大模型的校招/社招同学,请一定看完,可能会让你在入行大模型的路上,少走很多弯路。

01

大模型都有哪些方向?

如果你在求职网站搜索"大模型"关键词,看一下招聘 JD,基本可以了解现在业内对大模型工程师的需求方向和能力要求.。

总结一下,大致可以分为 4 类:

  • 做数据的(大模型数据工程师,爬虫/清洗/ETL/Data Engine/Pipeline)

  • 做平台的(大模型平台工程师,分布式训练/大模型集群/工程基建)

  • 做应用的(大模型算法工程师,搜/广/推/对话机器人/AIGC)

  • 做部署的(大模型部署工程师,推理加速/跨平台/端智能/嵌入式)

02

大部分新手的误区

如果是你,看到这几个方向,会怎么选?我估计很多人都直奔第三点去了,坚定的要做应用,走在所有工种的最前沿,做出让老板,用户都看得到的核心"产品"。

不过这里我不禁要给各位泼一点冷水,在 AI 算法这个行业,三是很吃业务经验的,如果你之前本身就是做算法的,比如是做 NLP,又或者是做语音助手,对话机器人这类的,再顺水推舟做相关方向的大模型算法工程师,这是比较合适的。

在自身业务里融入一些大模型的算法和技法,拿到实际的业务产出,去市面上也比较好找这类岗位。

但如果你是 CS 方向的实习生/应届毕业生,或者其他 IT 方向转行大模型,3 未必是一个最好的选择,大家不要带着一个误区:大模型算法工程师就是调模型,调超参,做一做预训练,做一做 finetune,SFT 之类的活。

实际上呢,这部分工作只有很少人做,基本一个 team 中只有个位数的人,或者只是算法工作的很小的一部分。

注意一点,新人进去 90% 以上都不可能直接让你干算法模型调优的活,大部分可能还是让你配环境,搭链路,清洗数据,分析数据,调研,写一写 function,tools。

这些体力活都干熟了以后,可能才会让你跑一些模型实验。其中比较出色的,脑子比较灵活的同学,才会慢慢让他们开始接触线上业务。

也有很多同学,干了好几年,还是在干一些边角料,脏活,杂活,根本接触不到核心业务。对于刚入行的新人,如果你学历背景好点,可以去大公司做 intern 然后转正,背景差一点,可以去中小公司,积累业务经验。

03

数据很重要!

然后很多人可能往往忽视了上面的 1,2,4,觉得我学了这么多算法知识,学了机器学习,深度学习,还了解大模型,再去做数据,有点屈才了。

但我想告诉你的是,1 是更多转行大模型同学更容易上岸的方式。条条大路通罗马,不是只有一条路走到黑。

首先,目前国外的大模型技术至少领先国内两年,虽然国内已经有几十上百个“大模型”了,但真正能打的并没有几个。探究原因,还是有很多技术没有突破。

算法本身来说,GPT 已经不是什么秘密了。那剩下还有什么呢,一是数据,二是工程技巧

拿数据来说,先说通用的大模型训练,数据的来源,从哪里采,数据的质量怎么把控,如何过滤有毒信息,语言的筛选与比例,数据的去重,以及数据的规范化处理,评测集的构建。这些既是体力活,又是技术活。

对于垂直领域,比如金融,电商,法律,车企,这种领域数据的构建就更考验技术了,业务数据怎么来,数据不够怎么办,完全没有数据怎么办?如果构建高质量的微调数据?

能把这些问题解决好,模型也就成功了一大半。因此,就目前的现状,对于数据工程师,特别是有经验的数据工程师,是非常稀缺的。

04

大模型平台干些啥?

然后说下 2,大模型平台工程师。如果你之前是做工程的,或者对工程比较感兴趣,我比较建议你选 2。

这二者其实并没有本质的区别,都是为了大模型业务服务的,也叫大模型基础设施的建设,作用就是让大模型 train 得更好,大模型跑得更快。

这块主要是干些啥呢?

从计算层面来说,有分布式计算,并行计算,高性能计算,有些公司对这三者也不加区分。

从硬件层面来说,有搞大模型训练集群,GPU 集群,CPU/GPU 混部集群,池子里要管理几百上千张卡,还要负责他们的利用率,机器的健康状况,有没有挂的,中小公司这块基本都是开发和运维一体的,一个工作干两个工种的活。

从平台层面来说,有做 LLMOps 的,也就是 pipeline。集数据 IO,模型训练,预测,上线,监控于一体,这种就是跟着业务团队走,做适配,造很多高效的轮子,方面业务团队使用,减少他们额外重复开发的时间。

这块整体上来说,在大模型时代稳中有升,因为实际上很多公司这方面的人都是从之前搞深度学习平台,大规模机器学习平台的人招过来的,技术上的 gap 相对比较小。因此,对于 AI 工程感兴趣的,可以选这个方向。

05

大模型部署干些啥?

最后说一下 4,大模型部署工程师。这个岗位之前也有,不过在大模型这一两年尤其的火热。

什么原因呢?

因为部署大模型太费钱了。首先模型延迟本身就高,30B 以上的模型,对算力,显存要求很高。

老板关心什么?一方面是大模型产品,也就是业务指标要好看,方便 PR。另一方面也要求控制成本(大厂/独角兽除外)。

一般企业里面,一个 P8 级别的 leader,要在公司里面抢业务,拉资源,找人力,本身就是一个不容易的事。

“降本增效”是 23 年以来,几乎所有公司的一个主旋律。所以老板们很关心你节约了多少钱,比如你把推理效率提高一倍,那就实实在在降低了一倍的成本。

回到大模型部署工程师来,这个岗位总体有两个方向的工作:云端部署和端侧部署

云端比较好理解,可以做推理加速平台,也可以随着业务走,做大模型定制化加速。

比如 Qwen-7b 的加速,还可以做大模型推理引擎,比如搜索/问答的推理引擎,一般是在高并发用户场景下,在保证用户 SLO 的前提下,最优化 latency 和 throughput。

另一个大方向是端侧的部署。也就是在消费级 GPU/NPU 以及边端设备下,部署大模型,同时让领域大模型小型化,让业务能实际工程落地。

总的来说,大模型部署工程师对工程能力,系统能力,以及硬件等方面都要有一定的了解,现在各种推理框架出来以后,降低了一点难度,但仍然是一个比较有竞争力的工种。

你得了解计算图和 OP 的优化,得了解各种推理框架,缓存/显存优化,还有 LLM 结构运行时的系统架构。这个岗位一般不推荐新人入场,因为太吃经验了。建议先从 2 进场,然后逐步转到 4。

06

总结

最后,给准备入场大模型的新人几点建议:

  1. 不要只关心 finetune,SFT,RLHF,作为系统性学习是 OK 的,切忌花太多精力。

  2. 想做应用的,建议 focus 到某个垂直领域,比如对话机器人,问答系统,金融/医疗/教育方向,找一个具体的场景,把它做好,做深。

  3. 多关心数据,data pipeline,高质量训练/测试集的构建经验,对数据的sense,是最直接,也是最适合用到未来工作当中的。

  4. 大模型不只有算法,也可以有工程。大公司拼的都是基建,平台是对业务的支撑,牛逼的 infrastrure 是大模型产品成功不可或缺的因素。

在这里插入图片描述

如何学习AI大模型?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

标签:弯路,工程师,新人,模型,学习,AI,算法,数据,避开
From: https://blog.csdn.net/m0_63171455/article/details/141018939

相关文章

  • 不走弯路!应用上架的直达式处理方案
    由谁来做现场检查?APP主体是个人的,由个人常住地址所在的公安机关评估和核查;APP主体是企业的,由企业办公地址所在的公安机关评估和核查。核查哪些内容?主要现场考察下看下产品使用与代码,远程服务器,日志,打开相关的东西给他们看一下就行了。然后可能问一下有多少访问量?有多少活跃......
  • 大模型项目落地要注意这五个细节,听懂少走十年弯路
    随着人工智能技术的飞速发展,大模型在各个领域的应用日益广泛。然而,大模型项目落地并非易事,需要面对诸多挑战。本文将为大家提供五个关键策略,帮助你能够将大模型项目顺利落地。一、认清技术边界,寻找合适场景在寻找大模型落地的场景时,首先要了解目前的技术能够做什么,不能做......
  • 编程小白如何成为技术大神?本篇内容为编程新人答疑解惑
    编程小白如何成为大神?大学新生的最佳入门攻略在当今数字化时代,编程已成为大学生必备的技能之一。无论你未来的职业规划是进入科技行业,还是希望在其他领域脱颖而出,掌握编程语言都将为你打开更多的机会之门。然而,面对种类繁多的编程语言和丰富的学习资源,新生们常常感到无从下手......
  • 你离java岗面试成功只差这一份面试题!拿下吧让你少走99%弯路
     马上金九银十很多同学/朋友都在忙着找工作,小五给大家整理了一份非常全面的Java面试题含答案总结!从java面试新手到java面试专家,你只差这一份面试题!还不赶紧来拿下~八股文内容涵盖:Java、MyBatis、ZooKeeper、Dubbo、Elasticsearch、Memcached、Redis、MySQL、Spring、Spring......
  • 使用FastReport报表动态更新人员签名图片
    在一些报表模块中,需要我们根据用户操作的名称,来动态根据人员姓名,更新报表的签名图片,也就是电子手写签名效果,本篇随笔介绍一下使用FastReport报表动态更新人员签名图片。1、设计FastReport报表,使用图片来代替签名效果例如我们设计了以上的FastReport报表,其中签字盖章哪里,我们用......
  • 校招常见七大排序C++版(适合新人,通俗易懂)
    作者:求一个demo版权声明:著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处内容通俗易懂,没有废话,文章最后是面试常问内容是否稳定最优、最坏、平均时间复杂度最优、最坏、平均空间复杂度冒泡排序是O(n)、O(n^2)、O(n^2)0、O(n)、O(1)选择排序否O(n^2)、O(n^2)......
  • C++的封装(适合新人,通俗易懂)
    作者:求一个demo版权声明:著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处内容通俗易懂,没有废话,文章最后是面试常问内容1、访问权限介绍封装,那么需要先介绍一下访问权限:public公共权限、protected保护权限和private私有权限。(1)public公共权限简单来说:如果......
  • [辛sir说房] 萌新带教攻略--如何留住新人
    前言招聘的人再多,留不住人,就等于白忙活,对于新人入职后,如何留存,也是一门学问,今天我们一起探讨下萌新带教第一步–根据痛点制定成长计划新人入职的痛点一:房源少,客源更少,经验短缺,房产知识不熟练解决方案:积攒客源:学习门店接待,电话邀约,学习客源开发渠道,学习社区开发,学习房......
  • 最全自学黑客技术学习路线,少走弯路
    谈起黑客,可能各位都会想到:盗号,其实不尽然;黑客是一群喜爱研究技术的群体,在黑客圈中,一般分为三大圈:娱乐圈技术圈职业圈。娱乐圈:主要是初中生和高中生较多,玩网恋,人气,空间,建站收徒玩赚钱,技术高的也是有的,只是很少见。技术圈:这个圈子里面的黑客是为了能把黑客技术玩到极致的......
  • Linux crontab使用整理,让你少走弯路
    前言最近在Linux上使用crontab,crontab可以理解为设置并执行定时任务的工具,在使用过程中,我遇到一些坑,所以整理一下,让大家避坑的同时还能学习到知识,话不多说,上才艺!安装略(没有安装的同学们,请自行安装,这里就不多废话了)常用命令集锦       servicecrondstart  ......