Task4
提分思路
如何使用大语言模型实现top方案呢?
一是训练&微调模型提升解决逻辑推理问题的能力。
二是使用各种prompt工程、agent系统方案,达到模型解决逻辑推理问题的能力边界。
从这两个方面向大家介绍如何提分,有哪些方案可以选择,可以参考哪些资料。
模型训练&微调
已经在Task03中尝试了baseline2,这里面介绍了如何实现微调。并且大家在微调后模型的推理速度也有一定的提升。那么除了baseline2中讲的lora微调,还有哪些可以在微调中的工作呢?
-
可以通过prompt调整进行最简单的入手。
-
除了lora其实还有很多微调的方案,都可以试试看。
当然也可以试试全量微调
prompt & agent
说到prompt,在之前的Task中,已经有了自己的尝试,而且取得了一定的进展。那么prompt还有哪些值得思考的地方呢?datawhale又推出了一份学习prompt以及相关内容的课程,大家可以快速补充prompt的相关知识。
agent优化思路
首先,agent是什么?
我们把Agent想象成环境中的数字人,其中
Agent = 大语言模型(LLM) + 观察 + 思考 + 行动 + 记忆
这个公式概括了智能体的功能本质。
为了更好的理解每个组成部分,让我们将其与人类进行类比:
-
大语言模型(LLM):LLM作为智能体的“大脑”部分,使其能够处理信息,从交互中学习,做出决策并执行行动。
-
观察:这是智能体的感知机制,使其能够感知其环境。智能体可能会接收来自另一个智能体的文本消息、来自监视摄像头的视觉数据或来自客户服务录音的音频等一系列信号。这些观察构成了所有后续行动的基础。
-
思考:思考过程涉及分析观察结果和记忆内容并考虑可能的行动。这是智能体内部的决策过程,其可能由LLM进行驱动。
-
行动:这些是智能体对其思考和观察的显式响应。行动可以是利用 LLM 生成代码,或是手动预定义的操作,如阅读本地文件。此外,智能体还可以执行使用工具的操作,包括在互联网上搜索天气,使用计算器进行数学计算等。
-
记忆:智能体的记忆存储过去的经验。这对学习至关重要,因为它允许智能体参考先前的结果并据此调整未来的行动。
例如在MetaGPT中定义的一个agent运行示例如下:
-
一个agent在启动后他会观察自己能获取到的信息,加入自己的记忆中
-
下一步进行思考,决定下一步的行动,也就是从Action1,Action2,Action3中选择执行的Action
-
决定行动后,紧接着就执行对应行动,得到这个环节的结果
比如在MetaGPT内 Role
类是智能体的逻辑抽象。一个 Role
能执行特定的 Action
,拥有记忆、思考并采用各种策略行动。基本上,它充当一个将所有这些组件联系在一起的凝聚实体。
Docker 存储与部署
总结
恭喜看完所有笔记(撒花撒花),时间飞逝,七天的学习就要结束啦。
整体来说,受益匪浅,还记得第一篇笔记,本以为很难,真的是抱着尝试的态度来完成的,结果不仅提前完成了,而且取得了不错的成绩。因此,凡事都要尝试,会有意想不到的收获。
永远—— “For the Learner,For the Dreamer”!
标签:prompt,行动,AI,微调,agent,智能,Datawhale,LLM,夏令营 From: https://blog.csdn.net/2201_75413532/article/details/140889704