课题介绍
一、方向介绍
在不到四年时间里,Transformer模型以其强大的性能迅速在NLP社区崭露头角,进而,基于Transformer这一标准架构的BERT、T5,乃至当下热门的GPT模型已经逐渐成为各个领域中的不可或缺的模型架构。深入理解Transformer模型背后的底层原理,以及Transformer相关的主流应用场景,具有非常重要的意义。
第一部分:基础原理
从Transformer的经典架构入手,我们将探讨:
-
编码器-解码器结构(标准Transformer)的底层原理
-
语言模型的理论基础及全流程
-
仅编码器(BERT)结构的语言模型
-
仅解码器(GPT)结构的语言模型
第二部分:应用研究
聚焦基于Transformer关键技术的实际应用,深入研究:
-
基于标准Transformer的机器翻译
-
基于BERT的判别式任务微调
-
微调一个自己的小型GPT模型
-
实战高效微调大语言模型
-
提示词工程进阶
二、具体研究方向
(1)编码器-解码器语言模型(标准Transformer)实战
-
标准Transformer的核心组件及作用
-
编码器-解码器结构Transformer的训练、推理、评测
(2)仅编码器语言模型(BERT)实战
-
掩码建模、双向注意力与标准Transformer的区别
-
基于预训练BERT模型的微调、推理、评测
(3)仅解码器语言模型(GPT)实战
-
生成式预训练Transformer与其他范式的区别
-
基于预训练GPT-2的文本补全微调
(4)高效微调大语言模型实战
-
基于低秩适应的大语言模型微调
-
基于适应器的大语言模型微调
(5)提示词工程进阶实战
-
上下文学习、思维链、提示词工程基础
-
定制化你的大语言模型
三、课程基本信息
-
总周次: Week 1 - Week 14
-
每周投入
-
1小时授课/研讨(理论+实践)
-
课后自学与实验时间:至少20小时
-
阅读3篇论文并撰写笔记
-
完成代码调试,理解关键流程
- 核心任务
-
掌握经典Transformer架构的理论基础和具体实现
-
掌握不同经典Transformer架构在具体下游任务上的实战
四、课程安排
周次 | 主题 | 主要目标 | 重点难点 | 预期成果 |
---|---|---|---|---|
Week 1 - 2 | 课程导引 & Transformer概述 | 1. 了解课程规划、明确投入时间与任务要求;2. 对现有主流Transformer架构有初步立了解;3. 完成初步实验环境准备 | 1. 理解Transformer中不同流程的作用;2. 环境配置及问题解决 | 熟悉课程模式和投入要求,完成开发环境搭建 |
Week 3 - 4 | 语言模型基础 | 1. 语言模型tokenization、嵌入化、预测概率分布、损失函数计算的全流程 | 1. 掌握语言模型全流程的基础概念,并与论文、代码中的具体实现相对应 | 理解语言模型的全流程,掌握具体的代码实现 |
Week 5 - 6 | 编码器-解码器Transformer实战 | 1. 掌握Transformer自注意力、跨注意力、前向传播层的作用;2. 掌握相应的代码实现 | 1. 掌握编码器-解码器Transformer中各个核心组件的作用、具体实现,并与论文、代码中的具体实现相对应 | 理解掌握编码器-解码器Transformer中各个组件的作用及代码,动手训练一个简单的机器翻译模型 |
Week 7 - 8 | 仅编码器Transformer实战 | 1. 掌握掩码建模、双向注意力机制的具体实现;2. 掌握微调一个BERT模型,用于判别式下游任务的全流程 | 1. 理解掌握BERT模型中的核心设计,动手处理数据、微调一个自定义BERT模型,用于实际下游任务中 | 理解掌握BERT的核心设计和具体实现,动手微调一个BERT模型 |
Week 9 | 仅解码器Transformer实战 | 1. 理解生成式预训练Transformer模型与前述两种Transformer架构的区别;2. 微调一个小型GPT模型用于垂直领域的文本生成任务中 | 1. 理解GPT范式与其他范式的不同之处 | 理解仅解码器Transformer的核心思想,并动手微调一个自己的小型GPT模型 |
Week 10 | 高效微调大语言模型实战 | 1. 了解大语言模型的预训练、监督微调、人类反馈优化等核心优化过程;2. 掌握高效微调一个垂直领域大语言模型 | 1. 理解高效微调不同于全参微调的意义,并掌握二者做法的优缺点 | 理解掌握高效微调大语言模型的核心思想,并跑通示例 |
Week 11 | 提示词工程实战 | 1. 理解Prompt Engineering、In-Context Learning、Chain-of-Thought的核心思想,并能与GPT原理产生联系 | 1. 结合Prompt Engineering、In-Context Learning、Chain-of-Thought的研究动机和实际应用场景 | 理解提示词工程的动机和实际应用场景,并尝试上手跑通示例 |
Week 13 | 论文初稿撰写与润色 | 1. 汇总文献、方法与实验结果,完成论文初稿;2. 学习学术写作技巧与图标美化 | 1. 突出创新点,保持逻辑清晰;2. 图标拍半于语言表达优化 | 提交论文初稿,形成可用于内部或公开展示的研究成果 |
Week 14 | 投稿准备与课程总结 | 1. 根据会议或期刊要求排版论文,准备投稿;2. 回顾课程内容,讨论进阶主题 | 1. 投稿排版与查重;2. 后续研究方向选择 | 完成课程总结,提交最终实验Demo或论文,初步了解跟高层次研究方向 |
五、课程总结与进阶方向
-
课程通过14周逐步深入的学习,学员可理解主流Transformer架构的底层原理、基础实现,并跑通标准的训练、微调流程,将所学知识拓展至新场景的应用中。
-
进阶方向包括多模态Transformer、垂类大模型训练与微调、大语言模型推理优化等等。
如何学习AI大模型?
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
标签:指南,Week,Transformer,入门,掌握,模型,微调,惊艳,语言 From: https://blog.csdn.net/2401_85343303/article/details/145098251