首页 > 其他分享 >零基础入门大模型:一步步教你梳理大模型技术学习过程,收藏这一篇就够了!

零基础入门大模型:一步步教你梳理大模型技术学习过程,收藏这一篇就够了!

时间:2024-09-18 10:50:09浏览次数:9  
标签:入门 训练 AI 模型 技术 就够 学习 神经网络

学习是一个从围观到宏观,从宏观到微观的一个过程

今天整体梳理一下大模型技术的框架,争取从大模型所涉及的理论,技术,应用等多个方面对大模型进行梳理。

01大模型技术梳理

这次梳理大模型不仅仅是大模型本身的技术,而是一个以大模型为核心的涉及到多个方面的理论,技术和应用实践,也可以说是对自己学习大模型技术的总结吧。

话不多表,下面开始进入正题。‍

首先,大家应该明白一件事,大模型技术是人工智能技术的一个分支,是目前主流的一个研究方向,但并不是唯一的方向。‍‍‍‍‍

人工智能技术是一个通过某种技术手段人为的创建一个具有类人智能的系统(软件或硬件),而大模型技术是一种仿造人类学习进化的一种方式,使用深度学习(机器学习)算法模仿人类大脑神经元,来实现智能的一种方式,其主要载体是神经网络。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

神经网络之所以得到发展的原因是因为,基于神经网络架构进行预训练之后,神经网络会产生一种无法解释的_涌现_能力,而这个涌现能力特别像是具有了智能一样。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

_神经网络模型架构_‍‍‍‍‍

既然是模仿神经网络,那么就需要一种深度学习模型来模仿人类大脑神经系统,比如CNN(卷积神经网络),RNN(循环神经网络),以及目前主流的Transformer模型,还有LSTM,ResNet,GANs等。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

神经网络的主要结构为一个输入层,一个输出层,以及隐藏层(一个或多个层组成),不同网络层之间使用_全连接_的方式进行连接,每一个圆都代表着一个神经元,如下图所示:‍‍‍‍‍‍‍‍‍‍‍‍‍‍

在神经网络中,除了输入/输出层之外,每一个神经元都有其参数,神经网络的效果就是由这些参数值决定的。

神经网络模型通过一种叫正向传播,损失计算和反向传播的方式来调整神经网络模型中每个神经元的参数。‍‍‍‍‍‍‍‍‍‍‍‍

通过把大量的训练数据输入到神经网络中,让神经网络进行“学习”(不断的调整参数),来达到类智能的能力。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

不同神经网络的架构和实现有所不同,但其核心点都是基于此模型实现的,对想学习神经网络的朋友来说,先学会基础的神经网络架构,然后再针对不同的神经网络模型进行深化是最好的选择。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

目前的大模型主要采用的是预训练的方式来实现智能的,简单来说就是给神经网络模型一堆资料,让它自己学,自己看,自己总结;其中给答案的叫做监督学习,没答案的叫无监督学习。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

然后根据不同的任务需求,又设计出用来解决不同类型任务的神经网络,比如分类任务,图片处理任务,自然语言处理任务等。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

至于大模型技术细节方面的东西,就不详细描述了,感兴趣的可以自己学习,比如编码器,损失计算和反向传播怎么实现等。‍‍‍‍

再有,设计并训练一个完整可用的神经网络模型是一个复杂的工程,比如模型的设计,训练数据的收集与处理,损失函数与反向传播算法的设计,模型过拟合,欠拟合等问题。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

而且随着模型规模的增大,模型的训练难度成几何式增长,比如分布式训练,并行计算等问题;以及为了提升大模型的学习效率,节约成本而设计的强化学习,迁移学习等。‍‍‍‍‍

最后,为了使得大模型更像人,也为了实现真正的AGI(通用人工智能),现在多模态大模型大行其道,而多模态大模型技术比传统大模型的技术复杂度又上升了不止一个台阶。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

_基于知识库的向量检索——RAG_‍‍

大模型技术虽然很强大,但其有几个明显的缺点,第一就是知识是有限制的,因为采用的是预训练方式,因此大模型的知识最多只能到训练开始的时间节点,之后产生的新的知识大模型无法获取。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

其次,由于训练大模型的成本问题,导致很多企业无法承担大模型的训练成本,因此只能使用第三方的大模型,但第三方大模型没有在特定领域的数据上进行训练或微调,因此,其表现能力一般。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

这时RAG就出现了,RAG中文是检索增强,是通过外挂知识库的方式,提问大模型之前先从向量数据库中查询数据,然后一起输入到大模型,这样大模型就相当于有了一个外部资料库,遇到不懂的问题就可以通过查资料的方式解决。‍‍‍‍‍‍‍

以目前的技术来说,RAG是大模型技术的一个重要节点,即是大模型能力范围的扩展,也是对大模型短板的补充。‍‍‍‍‍‍‍

微调与提示词工程

我们一般使用的大模型都是预训练模型,也就是用某些数据集训练过的模型;但这些模型一般情况下只会在特定领域表现出色,但如果用来解决自己的实际问题可能就不太好用了。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

这时怎么让预训练模型在其它任务中表现更好就是一个值得思考的问题,而这就是微调与提示词工程存在的意义。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

微调

微调从技术手段上来说和模型训练没有区别,只不过微调是在相似任务的预训练模型的基础之上,通过少量的数据对模型参数进行调整,使得其能够更加适应当前任务的一种方式。由于其成本低,对资金和技术要求要比完全重新设计和训练一款模型要低的多。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

因此,微调存在的意义是为了节约成本和降低门槛,如果资金充足的情况下,根据任务需求设计并训练一款模型是最好的选择,微调是退而求其次的一种方式。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

提示词工程

如果说微调是为了让大模型去适应特定的任务,那么提示词的作用就是怎么更好的使用一个大模型。‍‍‍‍‍‍‍‍‍

根据研究发现,对待同样的问题使用不同的提示词有时会得到完全不一样的效果,因此根据这一现象就提出了提示学习的方法,具体的可以看之前的问题——提示学习。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

用人类来举例就是,假如有人问你吃饭了吗这种简单的问题,你可以下意识的回答,而且可以回答的很好;大模型也是如此,如果你问大模型很简单的问题,它也能回答的比较好。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

但如果问到一些复杂的问题就需要更加准确的描述,比如说根据当前的就业环境,从经济,市场,贸易,国际局势等多个方面来分析一下产生当前情况的原因,以及后续的应对方法。‍‍‍‍‍‍‍‍‍‍‍‍‍

这种复杂的问题,不论是问人还是问大模型,你说的越准确,它回答的才能更好,这就是提示词存在的意义。‍

_智能体Agent_‍‍‍‍‍‍

在前面的描述中,神经网络架构讲的是怎么构建一个大模型,知识库是怎么补充和强化大模型,微调和提示词是怎么更好的使用大模型,那么智能体就是真正的使用大模型,研究大模型的具体应用。‍‍‍‍‍‍‍‍‍‍‍

如果把大模型比做人类的大脑,那么智能体就是大模型的手和脚。‍‍

在此之前使用大模型,我们能够让它回答问题,写文章,生成图片和视频,但这都是大模型天生具备的能力,就类似于人类可以写写画画一样。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

但如果让大模型完成更加复杂的任务,这时就需要借助外部工具,比如外出旅行需要设计旅行路线,定酒店和车票等。‍‍‍‍‍‍

这种任务就完全超出大模型或者人类本身的能力圈,如果想完成这些任务就需要借助外部工具,比如说手机APP。‍‍‍‍‍‍‍‍‍‍‍‍‍

智能体就是大模型+外部工具实现的一种能够独自分析和解决复杂任务的一种载体,利用大模型的独立规划能力,让它根据自己的判断去调用外部工具完成任务。

使用的技术主要有function call,langchain等;如上图所示,大模型使用function call的方式调用外部工具,使用自身能力完成规划和行动,并且由于大模型没有足够的记忆能力,需要增加记忆模块来记录对复杂任务的分析过程。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

目前,大模型解决复杂任务,主要通过思维链(CoT)的方式来实现对复杂问题的分解。‍‍‍‍‍‍‍‍‍‍‍‍‍

langchain是一种人工智能开发框架,它封装了大部分调用大模型的细节,以及其它辅助功能,比如文档的加载,多个大模型的链式调用,提示词模板的封装等,与其类似的还有LlamaIndex等。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

总结

从大的方向上来说,大模型从技术到应用,主要涉及到以上几个大的模块;而每个模块又涉及到大量的技术和细节。比如打造不同任务的神经网络模型,强化学习,迁移学习,知识蒸馏,分布式训练与存储等;以及RAG使用的向量检索,向量数据库,语义理解等,还有复杂任务的思维链(CoT),模型训练使用的LoRa等微调方法。‍‍‍‍‍‍‍‍‍‍‍‍

还有多模态模型中的知识对齐,数据融合等复杂技术。‍‍‍

因此,大模型技术到应用到学习是一个系统性的复杂过程,中间涉及到无数的技术细节和理论,并且还在不断的产生新的技术和理论。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

千里之行,始于足下。‍‍‍‍‍‍‍‍‍‍‍

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

本文转自 https://blog.csdn.net/2401_85375186/article/details/142201899?spm=1001.2014.3001.5501,如有侵权,请联系删除。

标签:入门,训练,AI,模型,技术,就够,学习,神经网络
From: https://blog.csdn.net/chengxuyuanyy/article/details/142327516

相关文章

  • 图像生成大模型Imagen
    图像生成大模型Imagen是由GoogleResearch开发的一种先进的人工智能技术,它在文本到图像(Text-to-Image)的生成领域取得了显著突破。Imagen通过结合深度学习中的扩散模型(DiffusionModels)和大规模预训练的自然语言处理(NLP)模型,实现了从文本描述到高质量图像的转换,为视觉内容创作......
  • PointNet++改进策略 :模块改进 | 双边增强模块 | 自适应融合模块 | ,将多分辨率特征在点
    论文题目:SemanticSegmentationforRealPointCloudScenesviaBilateralAugmentationandAdaptiveFusion发布期刊:CVPR作者地址:1澳大利亚国立大学,2Data61-CSIRO,澳大利亚代码地址:https://github.com/ShiQiu0419/BAAF-Net介绍这篇论文的标题是《SemanticSegmentatio......
  • 使用随机森林模型在digits数据集上执行分类任务
    程序功能使用随机森林模型对digits数据集进行手写数字分类任务。具体步骤如下:加载数据:从digits数据集中获取手写数字图片的特征和对应的标签。划分数据:将数据集分为训练集和测试集,测试集占30%。训练模型:使用随机森林算法训练分类模型。进行预测:使用训练好的模型对测试......
  • Qt 模型视图(四):代理类QAbstractItemDelegate
    文章目录Qt模型视图(四):代理类`QAbstractItemDelegate`1.基本概念1.1.使用现有代理1.2.一个简单的代理2.提供编辑器3.向模型提交数据4.更新编辑器的几何图形5.编辑提示Qt模型视图(四):代理类QAbstractItemDelegate​模型/视图结构是一种将数据存储和界面展示分......
  • Java多种方式实现 有界缓冲区下的多个生产者、消费者模型 (Semaphore、while+wait+noti
    /**@Author:SongyangJi@ProjectName:[email protected]@Description:*/classProducerThreadextendsThread{intrate;MultiProducerConsumermultiProducerConsumer;publicProducerThread(intrate,MultiProducerConsumermultiProducer......
  • DDoS 攻击与防护(二):DDoS 防护购买和使用入门指南,DDoS 防护服务有哪些应用场景?_ddos攻击
    前文回顾:《DDoS攻击与防护(一):如何识别DDoS攻击?DDoS防护ADS服务有哪些?》声明:本文由作者“白鹿第一帅”于CSDN社区原创首发,未经作者本人授权,禁止转载!爬虫、复制至第三方平台属于严重违法行为,侵权必究。亲爱的读者,如果你在第三方平台看到本声明,说明本文内容已被窃取,内......
  • 菜鸟笔记之PWN入门(1.0.0)前言
    什么是PWN?PWN是黑客术语中的俚语,是指攻破设备或者系统。它的发音类似于“砰”,当然也有师傅把它叫作“胖”。PWN的目标是获取系统的控制权或执行未经授权的操作。如何入门PWN前置知识C语言学习内容:程序结构和基础语法数据类型、分支语句(如 if、switch)和循环(如 fo......
  • 前端大模型入门:掌握langchain的核心Runnable接口(一)
    在构建复杂的对话式AI应用程序时,Langchain是一个绕不开的工具,它帮助开发人员轻松地处理各种语言模型的集成与管理。v0.3是该框架的一个重要版本,它进一步优化了功能,提升了在JavaScript/TypeScript环境下的易用性。本文将介绍Langchainv0.3的核心功能,并特别着重于其Runnab......
  • 存储论——经济订货批量模型精解
    运筹学中的存储问题主要研究如何通过优化库存管理,确保在满足需求的同时,尽可能降低与库存相关的成本。这一问题在生产制造、物流运输、仓储等各个领域具有重要应用。核心目标是通过合理规划进货、存货和出货策略,实现成本最小化和资源的高效利用。在实际应用中,由于需求的不确定性、......
  • 飘柔洗发水销售AI大模型​
    引言随着人工智能技术的飞速发展,AI在市场营销领域的应用越来越广泛。飘柔洗发水销售AI大模型是一种利用深度学习技术,特别是大型语言模型,来辅助销售团队提高销售效率和客户满意度的工具。本文将介绍飘柔洗发水销售AI大模型的设计理念、技术实现,以及在阿里云G8i服务器上的部署方案。......