首页 > 编程语言 >要不要入行大模型算法啊?

要不要入行大模型算法啊?

时间:2024-09-26 11:22:54浏览次数:3  
标签:入行 AI 模型 学习 算法 应用 SFT

最近又有不少私信问我关于要不要入行大模型之类的问题, 年初的时候我写过一篇相同主题的笔记,时隔8个月,今时不同往日,想法确实有些变化,再说一说这个问题。

在这里插入图片描述

先讨论算法相关的方向,分成三部分吧pretrain、post-training 和更偏应用的工作

pretrain 的机会应该是越来越少了,还能在这个方向做的应该都是很强的团队了,早期买了几百张卡就来混事那种团队基本都 G了(比如我们)已经不敢评了,只是觉得很强。

post-training 分成两种

一种是以提升通用能力为目的的,比如 openai、国内 qwen 专门做这个的团队。这种也不敢评,强就完了。不过某些看起来好像比较通用的工作,比如近期的那个reflection 模型,我觉得只能叫做以刷榜为目标的’应用”…

第二种是以一个具体的业务场景为目标进行优化的,和我上面所谓偏应用的工作高度交叉。我的大部分工作属于这个部分,做了挺长时间了,所以还是敢说一点的,

先讲现状,目前这块工作有两种典型情况:

第一种是一个特别具体的问题,甚至 prompt 格式都是基本固定的,比如从一段文本里面提取信息输出成一个json。一般就构造一些数据,然后让模型在这些数据上过拟合就行,其实不关心模型的通用能力或者是不是灾难性遗忘之类的问题。这种搞法虽然简单,但是应用中特别多,比如一个专门做 rag 的模型,可能的输入 query 大致就十几类,先做个意图识别决定要不要调用搜索如果要的话就生成一个结构化 search query。比比起写个复杂 prompt 去挑战模型的基础能力不如造几百条数据 SFT 一下。这块甚至可以通过数据工作达到比较复杂的效果,比如我之前做一个多agent 的应用场景,有十来个 agent,一共几十个函数,但是每个 agent 执行的任务相对单一旦流程相对固定。这种情况也可以通过构造比较完整覆盖应用 case 的数据来达到不错的效果。简单总结一下,这一类任务的特点是仅做 SFT,并且是使模型“过拟合”到固定模式,不太关心通用能

第二种是完成特定任务的同时需要模型保留基础能力,这个难度一下就大了非常多。比如我上面提到那个多 agent 的任务,后面发现它对于一些在构造数据之外的、需要模型基础推理能力的地方,效果非常差。但是这种逻辑推理原始模型(如 lama3 instruct)是有的,如果要在保留这种逻辑能力的情况下,再提高模型在我的业务场景的能力,就非常困难。要做这种训练,一般有两种选择,一是在开源的 instruct 模型上面继续训练,大部分情况是 SFT,但是这种开源的instruct 模型往往很容易被破坏,如果采用的训练数据和原始模型分布差异太大,模型效果容易大幅下降。二是自己在 pretrain 模型基础上做完整的 post-training,包括 SFT 和 RLHF,这就要求你的 post-training 水平达到 meta 水平,不然训出来肯定是差的。所以其实很难,

不是妄自菲薄,但是人贵在有自知之明。大部分算法也就是个调包水平,能抄明白就不错了,而第二类问题基本属于抄都没得抄。大部分人其实不配搞这一类问题。所以我觉得可以默认就干干第一类活就行了哈哈哈

然后是应用工作,应用工作里面一大部分就是上面说的,搞数据,做做 SFT,其实没多少正经技术含量。不会的给我几千块钱,包会。还有一块是一些偏工程一点的事情,基于langchain 开发个线上服务啥的。

所以总结下来,现在所谓大模型算法,干的最多的就是写写 prompt、搞点业务数据训个 SFT 了。我觉得如果只是搞这部分工作,没啥太大的价值。除非能接触到其他几类工作,那我觉得还是比较有意义的。

除了大模型之外,我比较熟悉的算法工作还有搜广推,我觉得对比而言,对于应届生或者刚毕业不久的人,似乎做搜广推能锻炼到的能力还会更广泛一点儿。毕竟搜广推是一个很成熟的业务做搜广推业务可以对模型分级、搭建收集线上数据管道来持续迭代等优秀的模式有了解。

不过我自己还是愿意继续做大模型的,我对这个比较有兴趣,愿意尝试一点比较难的工作,

再妄言几句不那么熟悉的工种–产品。我觉得现在做大模型方向的产品似乎是个很好的选择,因为我工作中觉得特别缺这种人,缺乏优秀产品比缺乏优秀算法似乎更是大模型落地路上的障碍,很明显现在大模型业务都在寻求落地,而懂得大模型的产品确实很少。所以如果在这方面有所造诣,应该会是一个好的发展方向。

在大模型时代,我们如何有效的去学习大模型?

现如今大模型岗位需求越来越大,但是相关岗位人才难求,薪资持续走高,AI运营薪资平均值约18457元,AI工程师薪资平均值约37336元,大模型算法薪资平均值约39607元。
在这里插入图片描述

掌握大模型技术你还能拥有更多可能性

• 成为一名全栈大模型工程师,包括Prompt,LangChain,LoRA等技术开发、运营、产品等方向全栈工程;

• 能够拥有模型二次训练和微调能力,带领大家完成智能对话、文生图等热门应用;

• 薪资上浮10%-20%,覆盖更多高薪岗位,这是一个高需求、高待遇的热门方向和领域;

• 更优质的项目可以为未来创新创业提供基石。

可能大家都想学习AI大模型技术,也_想通过这项技能真正达到升职加薪,就业或是副业的目的,但是不知道该如何开始学习,因为网上的资料太多太杂乱了,如果不能系统的学习就相当于是白学。为了让大家少走弯路,少碰壁,这里我直接把都打包整理好,希望能够真正帮助到大家_。

标签:入行,AI,模型,学习,算法,应用,SFT
From: https://blog.csdn.net/2401_84208172/article/details/142551189

相关文章

  • [算法] A LITTLE 网络流
    简介所谓网络流,就是给了一张图,有源点和汇点,让你求从源点放水,到汇点的水最多能有多少;这实际上是一个最大流的问题;最大流我们把这张图的每个边看作一条水管,每个水管都有一个容量,那么对于一条从源点到汇点的路径,其最大通过量是这些水管中容量最小的那一个的容量;对于这个问题,我们......
  • 算法与数据结构——简单排序算法(选择、冒泡、插入)
    简单排序算法时间复杂度均为O(n2)选择排序选择排序(selectionsort)的工作原理非常简单:开启一个循环,每轮从未排序区间选择最小的元素,将其放到已排序的区间的末尾。算法流程设数组长度为n,选择排序的算法流程如下。初识状态下,所有元素未排序,即未排序(索引)区间为[1,n-1]。选取......
  • 操作系统-页面置换算法
    简介期末考试中常考的页面置换算法可能有三种,分别是先进先出(FIFO),最佳置换(OPT)和最久未使用(LRU)本篇文章会用一道例题来讲解这三种算法的思路和解题过程;题目假设有这样一个操作系统,其内存中有3个空闲页面框(题目也有可能是描述成M3,M是Memory的简写)。进程依次请求页面号为以下序......
  • 薪资翻倍!普通程序员是如何成功转行大模型?
    前言嘿,各位程序员小伙伴们!大家都知道现在大模型可火了,好多人成功转了行,薪资还直接翻倍,那咱普通程序员能不能也这么牛呢?当然能!首先呢,得把基础知识打牢。啥是机器学习、深度学习,这些都得整明白。可以去网上找些好的课程学学,或者买几本靠谱的书看看。这就像是盖房子得先打地......
  • 全套 AGI 大模型学习资源分享
    资源分享如果您也对AI大模型感兴趣想学习却苦于没有方向......
  • 强联通分量——Tarjan算法
    Tarjan算法详解参考文章:强连通分量Tarjan算法是一种用于寻找有向图中强联通分量(StronglyConnectedComponents,SCCs)的算法。它是由RobertTarjan在1972年提出的,基于深度优先搜索(DFS)和栈的数据结构。基本概念强联通分量:在一个有向图中,如果一组节点中任意两个节点都可以互相......
  • Tarjan算法缩点
    Tarjan算法缩点一.Tarjan算法缩点详解在图论中,缩点是指将有向图中的强联通分量(SCCs)缩成单个节点,从而得到一个更简单的图结构,称为缩点图或SCC图。Tarjan算法不仅可以用来寻找强联通分量,还可以用来进行缩点操作。基本概念强联通分量:在一个有向图中,如果一组节点中任意两个节点都......
  • 黑马PM-内容项目-内容产品模型
    内容产品概述内容产品模型内容生产内容审核内容分发内容消费......
  • 算法-复杂度分析
    复杂度分析不依赖具体的执行环境不用具体的测试数据在算法实现前,我们在脑海就可以评估算法的性能评估一个算法的性能:本质上就是评估这个算法代码执行的时间N为数据规模 大O复杂度表示法表示算法的性能,通常看最差的情况,算法运行的上界O(n) T=5n+2常数不重要,复杂......
  • 【算法】C++KMP算法的简洁实现
    目录简介next数组匹配完整代码简介对于朴素的字符串匹配算法,如果想在主串中寻找到第一次出现子串的位置,需要依次枚举主串中的每一个位置作为起始位置进行匹配尝试,如果主串中存在许多与子串相似结构的部分,那么朴素算法会进行大量的无用枚举,时间复杂度非常之高。KMP算法......