生成式 AI 和 RAG 代理及应用程序：已准备好迎接黄金时段还是仍处于原型阶段

标签：RAG AI 模型生成式原型组件数据库延迟

高盛发布了一份题为《GEN AI：花费太多，收益太少？》的报告，对生成式 AI 的前景表示担忧。该报告总结了领先行业在一年多的时间内花费大量资金将 GenAI 投入生产但收效甚微的观察结果。很明显，GenAI 与传统 AI 一样，在从原型和演示扩展到可能直接影响实际业务成果的生产系统时面临着重大挑战。

对于经历过 AI 成功的团队和企业来说，毫无疑问，这是一项具有重大收益的突破性技术，并且随着时间的推移会不断改进。然而，这些团队也明白，从 AI 中获取价值需要一定的技巧。尤其是企业领导者必须关注细微的差异，这些差异需要仔细调查和监控，以确保他们朝着正确的方向前进。

下面，我总结了一些关键区别，这些区别将拥有成功的 AI 优先产品的团队与仅仅将 AI 添加到现有产品的团队区分开来，后者的收益有限，随后也难以证明 AI 的成本是合理的。

区别 1：优先考虑受控部署而非 AI 原型：经验丰富的 AI 从业者知道，最快的生产路线是逆向工作——从为客户提供初始价值的基本端到端版本开始。在受控环境中部署它进行实时测试，使用敏捷、迭代的过程根据实际反馈和指标完善系统。实时 A/B 测试在此阶段至关重要，允许在真实条件下评估 AI 模型和策略。

人工智能模型和平台的选择决定了解决方案的可扩展性、延迟、数据移动和成本。人工智能的准确性是可塑的，并且通常随着时间的推移不断改进。电子商务中的延迟等业务限制是不可协商的。例如，众所周知，即使搜索结果延迟 100 毫秒也会使客户保留率降低 1%，这导致许多电子商务平台选择准确度较低但速度更快的模型。

真正的评估指标，而不仅仅是教科书上的指标：一旦我们进入部署阶段，重点就可以转移到人工智能模型的准确性上，从而可以交换和比较不同的策略。在此阶段之前，不可能准确估计人工智能的实际影响或获取正确的可观察指标，例如参与度、隐性点击和反馈。这种方法将重点从单纯的教科书指标转移到直接转化为业务成果的指标上。

依靠具有理论基准的 AI 原型进行生产是一种有缺陷的策略。成功的 AI 系统（如 ChatGPT、Google 的 Gemini 或 Anthropic 的 Claude）通过持续的使用驱动改进而发展。随着时间的推移，它们达到了近乎完美的平衡，始终如一地为用户提供高价值。例如，Google 搜索每天都会根据用户互动而发展。值得注意的是，ChatGPT 的早期版本（即 GPT-1 和 GPT-2）在基准测试中表现并不出色，但它们的 AI 优先方法使它们能够快速发展。简化的原型可能适合学术练习，但它们往往会误导以生产为中心的团队。

区别 2：关注整个 AI 系统，而不仅仅是模型：在不考虑端到端成本、延迟、数据移动和硬件要求的情况下投资 AI 基础设施和 PoC 实验可能会阻碍生产。例如，如果 RAG 管道每百万个文档的延迟为 1 秒，并且无法实现 10 倍的改进，或者需要跨位置复制数据，则无法扩展。未针对特定应用（如电子商务或安全）进行优化的 AI 解决方案可能会因网络调用延迟超出生产限制而失败。

ChatGPT 是需要关注整个系统的一个典型例子。它不仅仅是一个单一的人工智能模型，而是一个具有多个组件的复杂系统，例如查询理解、专家模型路由、响应后处理和反馈机制。该系统随着使用数据和人工输入不断发展。将 ChatGPT 视为一个人工智能模型是一种误解；依赖单一模型来实现如此复杂的功能注定会失败。

区别 3：AI 优先的端到端方法与多个零碎组件 — 更少的组件意味着更多的控制、问责制和更好的准确性：考虑 RAG（检索增强生成）管道的流行示例。假设我们使用三个不同的组件：一个用于嵌入，一个用于矢量数据库，一个用于重新排名，每个组件由不同的团队管理。集成这些组件后，我们可能会发现准确性很差，系统速度比预期慢五倍。

在这种情况下，准确度问题可以归咎于任何组件：重新排序器、嵌入模型或向量数据库的相似性函数。此外，很难确定哪个团队应该对延迟问题负责。这种情况导致无休止的互相指责，而负责时间表和交付成果的业务领导者很难确定和理解问题的根本原因。因此，由于所有权和责任不明确，争论仍在继续，无法解决。

然而，使用像神经数据库这样的单一端到端 AI 优先系统，用一个学习索引神经网络取代所有三个组件，使归因变得简单。为了提高准确性并减少推理时间，我们只需调整神经网络并使其推理更快。知识工作者甚至可以使用简单的 UI 完成这种改进，无需开发人员或数据科学专家。如果出现检索错误，可以在几分钟内修复。

区别 4：避免使用未来会讨论超定制化的 AI 解决方案 — 零样本准确度远未达到业务要求：大多数企业需要针对其特定问题和领域专业度量身定制的超定制 AI，才能真正发挥作用。然而，在这些早期阶段，主流方法是构建具有零样本能力的 GenAI 原型，评估其价值，然后希望社区最终能够满足定制化需求。经过大约一年的实验，企业发现，如果没有超定制化，GenAI 将无法投入生产。零样本准确度远远低于预期，尤其是在规模上。

更糟糕的是，为这些原型构建的基础设施过于僵化，难以进行微调或高度定制——而这两者对于生产部署都是必不可少的。即使对检索或 NLP 模型进行微小的修改，也可能引发长达数月的代码更改、修复、测试和重新部署周期。此外，无法保证重新部署的模型会满足延迟等工程约束，可能需要完全重新优化。

我们在之前强调了嵌入和矢量数据库的基本问题。显然，如果我们使用嵌入模型和矢量数据库构建了 RAG 管道，现在需要升级嵌入模型，我们就不得不重建整个矢量数据库。此外，嵌入存储和矢量数据库的内存要求对于大规模应用程序来说是令人望而却步的。因此，在零样本原型设计期间，没有人关心每次嵌入模型哪怕只有很小的更新时都要重建矢量数据库，而现在他们只能使用无法定制的刚性堆栈。

最后 — 呼吁企业领导者采取行动：对于管理产品交付和时间表的领导者来说，了解上述四个关键区别及其微妙之处至关重要。越来越明显的是，领导者在为 AI 项目投入时间和资源之前必须提出许多棘手的问题。无论您是在权衡开源与闭源、构建与购买，还是软件与咨询，这四个区别都构成了成功的 AI 战略的基础。

标签：RAG,AI,模型,生成式,原型,组件,数据库,延迟
From： https://blog.csdn.net/ms44/article/details/141897352

生成式 AI 和 RAG 代理及应用程序：已准备好迎接黄金时段还是仍处于原型阶段

相关文章

赞助商

阅读排行