先看这篇会更连贯 Agent的记忆能力
LLM的基础能力
1、复杂任务的规划和分解
2、遵循复杂指令
3、自主使用工具
4、减少幻觉
一两个人就能开发的有用AI
AI的优势:长文本的阅读理解能力、广阔的知识面。
1、导游:GPT-4知道很多著名景点,还能做行程规划。
2、企业ERP助手:对 需求描述能力、架构设计能力、技术表达能力 有很强的要求。What - Why - How 有条理的讲清楚自己做的东西。
3、大模型采集数据:本质是利用了大模型阅读速度比人快的特点。不需要定制开发。
4、手机语音助手:RPA(机器人流程自动化) 比如腾讯的AppAgent,可以自动学习操作 Telegram、Youtube、Gmail、Lightroom等多款app。RPA的主要难点是 学习使用app的过程。「app的各种功能、操作序列的记录等」
5、会议和生活记录器
Zoom:包括将会议语音内容实时转录成文字;根据实时转录的文字,将会议所讲过的内容做总结;根据实时转录的文字,用户提出问题,大模型给出问题的回答。
Rewind.AI 的录屏和录音吊坠:本地化算力或者隐私计算是解决隐私问题的必由之路
解决复杂任务和使用工具
记忆是有趣和有用 AI 都必须具备的公共能力。
情感是有趣 AI 需要的。
而解决复杂任务和使用工具更多是有用 AI 所需的能力。
(1)CoT:先想后说
(2)复杂任务的规划和分解
从 Agent-FLAN论文 可知,这一步相对于检索、理解要更难,是模型基础能力问题,需要依靠 scaling law。另外从系统角度思考,与用户交互式解决复杂任务是很重要的,AI遇到困难要及时求助。
(3)自动调用多种工具分步求解
a.按照流程调用工具的方法是 few-shot(在prompt中给AI提供几个样例任务的执行过程)
b.让AI学会使用上万种工具:方法一是SFT、pretrain;方法二是RAG+prompt
减少幻觉的工程方法
消除幻觉的根本方法是 scaling law,靠基模进步。但也有一些工程方法来缓解:
(1)事实性校验
大模型生成 - RAG(搜索引擎、向量数据库、倒排索引、知识图谱等)找出与回答内容匹配的原始语料 - 前两步一起送给大模型,让LLM判断回答与原始语料是否相符
这种方法只能发现 编造事实类的幻觉,不能发现答非所问类的幻觉。
(2)多次生成
类似投票的思想,多次生成同一问题的回答,然后一起给到大模型,让大模型挑出最一致的结果。
这种方法可以解决偶发的幻觉问题,但不能解决系统性偏差。
开源模型的护城河
- 微调:基于微调而非prompt构建更像一个人的agent
- 推理优化:降低成本和延迟
- 多模态:语音、图片、视频理解和生成
- 基于Embedding的记忆:例如LongGPT
- 流式推理(例:多个Agent语音聊天):基于KV Cache的工作记忆和流式推理
- 本地化部署:数据安全需求的to B场景
- 终端设备:有隐私需求的个人终端设备
- 机器人
未记录的
成本
数字生命
去中心化
详见 AI Agent更有趣还是更有用