上节传送门:
一、 课程开篇
大家好,我是九析,九析带你轻松完爆。
我们来学习【超级网红系列课程——AI 大模型全栈架构师】课程的第一部分——大纲。
本文笔者先梳理下课程大纲。因为课程庞大,内容众多,所以很多知识只能浮光掠影,先做一个摘要,后期我会抽时间一点点将内容明细都编写出来,成为一个体系化的教程,望大家批评指正。如果各位看官老爷、小仙女念及码字辛苦,愿意打赏下小弟,定叩首感激,这里先谢过。
此外,本文是根据我视频口述整理而来,如果大家不喜欢看字,喜欢听我低沉、沙哑、浑厚、磁性的嗓音,可以查看本人签名,那里有传送门,人生海海,希望不要与有缘人擦肩而过。
下面,好戏开场,请各位观众老爷、仙女们请欣赏。
我们学习大模型的过程有点像认识男、女朋友。
第一步:了解男、女朋友的背景「认识大模型」。
第二步:学习跟男、女朋友沟通的语言技巧「用好提示词」。
第三步:学习跟男、女朋友交往套路和策略,做高情商情人「深度了解大模型原理、架构、模式等」。
第四步:现实约会和交往「开发、做项目、运维、做产品/运营/商业变现等」。
上篇博客介绍了课程大纲的第一部分:理论部分。本节介绍下一个部分:开发部分。
二、 课程大纲: 开发
该部分一共涵盖七个章节,学习并掌握它,将为您的AI开发之路打下最坚实的基础。
环境准备
OpenAI 大模型调用实战
检索增强生成(RAG)实战
大模型应用开发框架
大模型智能体开发(Agent)
大模型应用开发治理平台
大模型应用开发工作流
1 环境准备
万丈高楼平地起,本章是您通过成功的必经之路。请小伙伴勤动手,尽情操练,暴力开干!搭建基础环境,包括四个过程。
1.1 宿主环境
物理机或虚拟机均可,虚拟机可以选择 Oracle 的 VirtualBox 或 VMware 的 vmware Workstation。
1.2 虚拟环境
搭完宿主环境,需要在宿主环境中安装 Conda 虚拟环境管理器,用来隔离开发的 python 项目,规避可能的依赖冲突等潜在风险。
1.3 集成开发环境
课程有编码,所以需要安装集成开发环境(IDE),这里推荐 PyCharm 和 Jupyter。好的集成开发环境有助于高质量的代码产出。
1.4 程序运行环境
代码开发完之后,需经过质量验证后发布到真线,目前常见的生产级的部署方式是基于 Docker、Docker compose 和 K8S,因此我们根据项目复杂度不同,会安装不同的运行环境。
2 OpenAI 大模型调用实战
环境安装好之后,就可以近距离跟大模型亲密接触了,我们选择 OpenAI 旗下的大模型,因为它目前是世界上最好的大模型,其他大模型供应商基本上也都是参考它家的大模型进行产品设计的,因此学好了它,其他大模型也会无师自通,自不在话下。课程里,我们会通过 API 调用方式探索 OpenAI 以下五大核心能力。
2.1 OpenAI 原子模型能力
刚开始学习大模型,最好的方式首先是写一些简单的程序调用它所有类型的模型实际感受下。这里我们会学习和操作以下模型:
-
文本生成模型
-
文本转语音模型
-
语音转文本模型
-
审核模型
-
图生文模型
-
文生图模型
-
嵌入模型
2.2 OpenAI 函数调用(Function Calling)
学完 OpenAI 大模型原子模型能力后,进阶 Function Calling,了解下它的作用、原理、价值以及控制它的返回(流式或非流式)。
2.3 OpenAI 助理 (Assistant)
Assistant 是 OpenAI 的核心概念之一,也是智能体(Agent)的雏形。该章节我们会介绍以下内容:
-
Assistant 是什么
-
Assistant 如何用
-
为什么用 Assistant
-
Assistant 如何整合外部工具(Function Calling、Code Interpreter、File Search)等
2.4 OpenAI 插件(Plugin)
该环节会带领大家手把手实现一款「天气预报插件」,实际体验下 OpenAI 插件的实战开发,该能力也可以给大家提供一条实现财富自由的思路。
2.5 OpenAI 微调(Fine-Tuning)
微调是在特定数据集上进行训练,以满足特定的下游任务。由于微调比大模型预训练成本要低得多,所以在很多场景下都可以见到它的踪影。OpenAI 也提供了同样的能力,我们会带领大家走进这个既熟悉、又神秘的穴口,一探究竟。
3 检索增强生成(RAG)实战
熟悉了 OpenAI 大模型编程后,就可以探索如何将大模型与本地知识库结合,提升自有系统智能化水平。这包括以下两个主题。
-
向量化表示(Embedding)
-
检索增强生成(RAG)
3.1 向量化表示
在向量化表示主题,我们会介绍如下内容:
-
向量概念
-
向量表示方法
-
常用的向量存储
-
向量检索技术
-
如何本地部署向量模型
3.2 检索增强生成(RAG)
RAG 是当下非常流行的大模型解决方案,本主题会涉及很多内容,具体如下:
-
RAG 概念
-
RAG 流程
-
RAG 架构
-
RAG 范式
-
RAG 优化
-
RAG 与 Fine-tuning
-
RAG 开源实现
-
RAG 与检索
-
RAG 产品
4 大模型应用开发框架
检索增强生成(RAG)实战后,将深入探讨如何提高开发效率和提升项目质量。常见的解决方案是寻求成熟的大模型应用开发框架,而非重复制作轮子。非常幸运地是,市面上已提供了两个非常优秀的大模型应用开发框架——LlamaIndex 和 LangChain。
4.1 LlamaIndex
关于 LlamaIndex,我们会介绍以下内容:
-
LlamaIndex 快速上手
-
LlamaIndex 介绍和源码解读
-
LlamaIndex 核心模块解析
-
LlamaIndex 实战项目开发
关于 LangChain,我们会介绍以下内容:
-
LangChain 快速上手
-
LangChain 介绍和源码解读
-
LangChain 核心模块解析
-
LangChain 六君子「模型I/O、数据连接器、记忆管理、链式管理、智能体、Runnable」
5 大模型智能体开发
技术界的新宠,AI 界的新晋网红——大模型智能体,俗称 Agent,是未来开发编码的新范式。Agent 将颠覆现有程序员的认知,原本从业务需求到代码实现,都是程序员主导,但以后这部分逻辑实现、代码开发的工作将由 Agent 所接管。所以程序员赶紧入手学习 Agent,以免被时代所抛弃。Agent 我们将介绍四个主题。
5.1 Agent 介绍
该主题我们会重点讲述 Agent 历史、演进等相关知识。
5.2 Agent 架构
5.2.1 Agent 架构
5.2.2 Agent 能力
Agent 的能力主要包括:感知能力、规划能力、记忆能力和行动能力。
5.2.3 Agent 底层逻辑
Agent 底层逻辑常用的推理引擎有 ReAct 框架。
5.2.4 Agent 实现
Agent 目前有两种实现途径,每种途径都有其具体实现。
-
Single Agent(AutoGPT、LangChain Agent、ChatGPT + Code Interpreter / Plugin)
-
Multi-Agent(BabyAGI、CAMEL、MetaGPT)
6 大模型应用开发治理平台
上面章节中,我们一直都在将代码开发,诚然软件开发非常重要,但它毕竟只是软件生命周期的一部分,大模型应用项目实施上线,还需要很多流程和步骤,比如数据预处理、数据集准备、回归测试以及可观测性等,这些需求就催生了大模型应用的配套平台——治理平台的出现和演进。关于大模型应用开发治理平台我们将主要介绍以下两个主题。
6.1 LangServe
LangServe 作用是将 Python 程序发布为 Restful 接口,以供他人 HTTP 调用。LangServe 我们会讲解如下内容。
-
LangServe 快速上手
-
LangServe 介绍
-
LangServe 实战开发
6.2 LangSmith
LangSmith 是 LangChain 生态的组成之一。关于 LangSmith 我们会介绍大致内容:
-
数据集管理
-
回归质量测试
-
端对端链式追踪
7 大模型应用开发工作流
大模型工作流引擎,可以编排自定义任务,应对复杂业务场景,避免硬编码造成的系统僵化。关于工作流环节,会介绍如下主题。
-
工作流介绍
-
为什么需要工作流
-
工作流的关键要素
-
优秀工作流引擎(LangGraph、Agently Workflow)