第一阶段: 学习前置知识:Python 基础、Linux 基础
学习目的:
1.熟练掌握 Python 语言,熟悉常用的 Python 库和工具,如 NumPy、Pandas、TensorFlow、PyTorch 等。
2.具备 NLP 相关的基础知识,包括文本预处理、分词、词性标注等。
3.对大模型有一定了解,包括 Transformer 模型的结构和原理、基于注意力机制的自然语言处理技术等。
推荐课程:
廖雪峰 python 教程
要求:
熟练掌握并能够编写基础的 python 函数、语法等,能够熟练使用 Linux 系统
第二阶段:NLP 相关基础知识
学习目的:
1.了解文本预处理、分词、词性标注、命名实体识别、词向量表示等基础知识。
2.掌握自然语言处理(NLP)相关技术,如分词、词性标注、命名实体识别、句法分析等。
3.掌握机器学习中的数据预处理、特征提取、分类、回归等基础算法,并了解其在 NLP 领域的应用。
4.了解大规模 NLP 任务中的常用技术和方法,如深度学习中的 Transformer 模型、BERT、GPT 等。
推荐课程:
李沐 动手学深度学习
大模型理论基础
要求:
理解并掌握机器学习、深度学习、自然语言处理的基础概念,最好能够独立实现在 colab 上训练模型(小模型)
第三阶段:GPT API 调用及 Prompt设计
学习目的:
了解 GPT API 的调用方式和基本操作,熟悉 Prompt 设计技巧和要点,能够结合自己的任务调用 API 实现对应的任务代码。
要求
了解大模型以及对应 NLP 知识的基础原理,能够熟练调用GPT API,编写 Prompt 完成各种任务。
第四阶段:模型微调(Fine-tuning)
学习目的
1.了解常见的微调模型的基本流程和原理,熟悉数据集的构造、训练、评估等过程,能够独立构建 QA 对,在服务器上对模型进行微调。
学习内容
QA 问答对微调数据构建、LLM 全流程框架(包含教程)
手把手微调教程、服务器租用
要求:
能够独立完成大模型的微调数据构建、训练以及部署工作。
第五阶段:RAG(外挂数据库)
学习目的
RAG 作为目前最火的一个 LLM 落地方向,可以结合私有数据(表格、word、txt、pdf、数据库 皆可)实现本地问答,且训练成本较低,可以快速实现效果。
学习内容
Langchain、FastGPT、LangChain-Chatchat(快速部署框架)、DB-GPT、RAG进阶优化
要求:
能够在本地实现基于大模型的外挂部署方案
针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份 LLM大模型资料
分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程
等,