首页 > 其他分享 >企业级知识库为什么要用GraphRAG - 硅谷企业级ChatGPT独角兽Glean系列之二

企业级知识库为什么要用GraphRAG - 硅谷企业级ChatGPT独角兽Glean系列之二

时间:2024-11-18 11:49:30浏览次数:3  
标签:RAG GraphRAG AI 模型 企业级 学习 搜索 独角兽 Glean

Arvind Jain 阿尔温德·贾恩 CEO

发布时间:2024 年 5 月 15 日。最后更新日期 2024 年 11 月 6 日。

自从生成式 AI 和 LLM 在世界舞台上占据中心位置以来,员工们一直在思考如何最好地将这些变革性的新工具应用于他们的工作流程。然而,他们中的许多人在尝试将生成式 AI 集成到企业环境中时遇到了类似的问题,例如隐私泄露、缺乏相关性以及需要更好的个性化结果。

为了解决这个问题,大多数人得出结论,答案在于检索增强生成 (RAG)。RAG 通过企业搜索等外部发现系统将知识检索与生成过程分开。这使得 LLM 及其提供的响应能够以真实的外部企业知识为基础,这些知识可以很容易地浮出水面、追溯和参考。

仅靠向量或词法搜索是不够的

既然企业明白生成式 AI 解决方案需要单独的检索解决方案,许多人会问 — 为什么我们不将内容放入矢量数据库并实施简单的 RAG 提示呢?遗憾的是,答案并不那么简单,尤其是在提供真正的企业级体验时。

让我们简要探讨一下向量搜索和数据库如何用于数据索引和检索。嵌入模型可以有效地将特定文本映射到固定的数字向量 - 给定一组单词,模型将分配一个数值,在数据库中表示该文本。然后,给定查询的文本,系统可以计算查询中的文本与该向量空间中预先索引的文档文本的“接近”程度,然后将其提取以显示在结果中。

嵌入模型将文本映射到固定的数字向量

此步骤应仅用作信息检索过程。然后,LLM 被严格用作推理层,最初调用搜索/检索引擎,读取有限的上下文,然后通过向量数据库根据正确的信息提取并生成连贯的响应。

检索增强生成 (RAG)

尽管矢量搜索的改进标志着语义理解的根本转变,但它只是为企业搜索提供高质量结果的一小部分拼图。仅靠简单的矢量搜索无法识别组织内所有内容、人员和活动之间更复杂的联系。

更过时的是简单的词法搜索系统,它们直接将查询词与文档内容和元数据词匹配。虽然易于实现,但它们只能利用数据库中单词或短语的精确匹配,这会带来严重的限制,尤其是在提供查询时遇到人为错误时。

通过混合搜索改进结果

相反,利用混合搜索系统的解决方案可以提供世界上最好的。例如,Glean的复杂RAG解决方案具有四个核心技术差异化因素,使其混合搜索和生成式AI解决方案与众不同:

  • 适用于所有企业数据的知识图谱框架,具有支持搜索的专有锚点和信号

  • 丰富、强大、可扩展的爬虫程序,连接到所有企业数据和权限规则

  • 用于控制和优化 LLM 到 Glean 搜索界面的级别

  • 端到端用户体验优化

Glean 稳健结果的核心是知识图谱 — 一个由无数信号和锚点组成的网络,它们都致力于解决潜在构建者必须解决的问题。这些因素帮助 Glean 获得组织内所有文档、人员和活动背后的丰富背景,从而帮助模型更好地告知模型交付出色结果所需的信息。简而言之,信号和锚点就像解开谜团所需的线索。解决方案必须使用的越多,结果就越好!

例如,Glean’s signals 正在积极解决单个搜索和个性化问题,例如:

  • 归一化(分词化、词干提取、词形还原)

  • 同义词 (mining, contextual scoring, acronyms)

  • 结构化注释(概念和实体挖掘和评分)

  • 国际化

  • 意向分类

  • 文档理解(重要术语、主题建模、处理模板、文档分类)

  • 检索和主题性(语义搜索、术语加权、可选、术语混合、锚点、clickboost、混合优化)

  • 受欢迎程度(个性化、陈旧/新鲜度、部门建模)

  • 其他。。

无数的锚点和信号帮助为每个企业构建独特的知识图谱

那么,具有复杂 RAG 解决方案的系统与没有 RAG 解决方案的系统之间有什么区别呢?让我们看一下一些生成结果的快速示例。

在 Glean,Scholastic 是将语义搜索集成到排名堆栈中的方法,专注于基于标题、锚点和标题的检索和评分。让我们看看当被问及 Scholastic 时,与 Glean 相比,标准的 RAG 解决方案可能会如何回答:

标准回答(Vector、简单 RAG)
Q: What is Scholastic?
Q:什么是 Scholastic?
A: Scholastic, located in New York City, New York, is a publisher and distributor of children’s books, educational technology, and related services…
答:Scholastic 位于纽约州纽约市,是儿童读物、教育技术和相关服务的出版商和分销商…

Glean (Hybrid, complex RAG)
Glean (混合、复杂、Graph RAG)
Q: What is Scholastic?
Q:什么是 Scholastic?
A: Scholastic is our learned vector-based retrieval and scoring system (a play on our keyword-based system, Elastic). It learns item embeddings for documents and messages, and retrieves / scores nearest neighbors for a given query…
答:Scholastic 是我们学习的基于向量的检索和评分系统(我们基于关键字的系统 Elastic 的玩法)。它学习文档和消息的项嵌入,并检索/评分给定查询的最近邻居…

标准响应与工作查询完全无关,而 Glean 的响应理解分配并准确提供用户正在寻找的内容。

无论是生成式 AI 提供的响应,还是在搜索中提供的结果,由信号和锚点网络增强的混合、复杂的 RAG 解决方案都比不完整的词汇或向量搜索解决方案提供更好的结果。利用专有数据作为微调模型的关键和线索的能力为企业环境提供了搜索和生成式 AI 解决方案所需的丰富情境化。

专有数据是微调和嵌入分数的关键

在企业搜索领域,同样明显的是,仅依靠向量或语义搜索可能并不总是产生最佳结果。在需要精确性的情况下尤其如此,例如在搜索特定术语、文档或关键字时。向量搜索具有固有的模糊性,可能并不总是与这些情况下所需的精度一致。

AI 需要信号和锚点,而不仅仅是原始数据,才能取得成功

对于 Glean,我们的词汇搜索功能也因数据的稳健性而脱颖而出。这种优势使我们能够不仅能够高精度地匹配查询,还可以在大量潜在匹配中个性化结果。Glean 采用的混合搜索方法结合了两全其美的优势,利用了词汇搜索的精确性和对向量搜索的细致理解——所有这些都由我们知识图谱中的信号和锚点提供的额外上下文和细微差别提供支持。

最重要的是,Glean 将 LLM 与我们专有的搜索界面联系起来的能力使我们能够更优雅地处理搜索和检索遗漏。与我们的搜索界面集成的 LLM 可以更有说服力地处理搜索和检索遗漏。例如,大多数第三方解决方案在面对他们无法充分回答的问题时,通常会提供不新鲜或不相关的不良信息。

然而,当涉及到 Glean 时,LLM 获得了他们需要的额外背景信息,以澄清警告和预防措施。这些额外的信息使 AI 能够为员工提供他们所需的额外信息,以便他们执行后续步骤,或者更好地了解他们收到的信息可能不完整的原因。

Glean 的知识图谱为已弃用的结果提供了额外的上下文

更好的前进道路

如果您希望通过利用生成式 AI 的潜力在现在和今天保持领先地位,Glean 是最好的方式。Glean 始终具有权限感知能力、相关和个性化、新鲜和最新,并且普遍适用于您最常用的应用程序。

使用真正企业级的生成式 AI 解决方案提高团队的工作效率。

如何学习AI大模型 ?

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】

标签:RAG,GraphRAG,AI,模型,企业级,学习,搜索,独角兽,Glean
From: https://blog.csdn.net/m0_70486148/article/details/143848284

相关文章

  • 【GraphRAG】本地部署全流程!超详细介绍!
    1、GraphRAG是什么?GraphRAG(Graph-basedRelation-AwareGrouping)是一种基于图的关系感知分组方法,通常用于计算机视觉和机器学习领域。它的核心思想是利用图结构来表示和处理实体之间的关系,从而更有效地进行分组和识别任务。2、本地部署在autodl上进行运行,4090单显卡+24GB内......
  • 企业级工位管理:Spring Boot技术突破
    2相关技术2.1MYSQL数据库MySQL是一个真正的多用户、多线程SQL数据库服务器。是基于SQL的客户/服务器模式的关系数据库管理系统,它的有点有有功能强大、使用简单、管理方便、安全可靠性高、运行速度快、多线程、跨平台性、完全网络化、稳定性等,非常适用于Web站点或者其他......
  • 工位管理优化:Spring Boot企业级系统
    3系统分析3.1可行性分析通过对本企业级工位管理系统实行的目的初步调查和分析,提出可行性方案并对其一一进行论证。我们在这里主要从技术可行性、经济可行性、操作可行性等方面进行分析。3.1.1技术可行性本企业级工位管理系统采用SSM框架,JAVA作为开发语言,是基于WEB平台的......
  • 【HAProxy09】企业级反向代理HAProxy高级功能之压缩功能与后端服务器健康性监测
    HAProxy高级功能介绍HAProxy高级配置及实用案例压缩功能对响应给客户端的报文进行压缩,以节省网络带宽,但是会占用部分CPU性能建议在后端服务器开启压缩功能,而非在HAProxy上开启压缩注意:默认Ubuntu的包安装nginx开启压缩功能配置选项compressionalgo<algorithm>.......
  • Vue3 -- 项目配置之eslint【企业级项目配置保姆级教程1】
    下面是项目级完整配置1➡eslint:【吐血分享,博主踩过的坑你跳过去!!跳不过去?太过分了给博主打钱】浏览器自动打开项目:你想释放双手吗?你想每天早上打开电脑运行完项目自动在浏览器打开吗?不要9998,不要998,只要你在我们爱的package.json中配置一下即可显示。如下图所示:是的......
  • Flutter【05】企业级Flutter架构实践
    企业级Flutter架构实践:多端统一的移动应用解决方案一、架构概述本文介绍一个完整的企业级Flutter应用架构设计,采用三层架构模式,实现了Android、iOS和Web多端统一开发。二、架构层次详解2.1宿主层宿主层是整个应用的容器层,负责承载Flutter模块:移动端集成Android端通......
  • Git最新最新详细教程、安装(从入门到精通!!!!企业级实战!!!工作必备!!!结合IDEA、Github、Gitee实
    可以不用看第4章Git客户端便捷操作,第5章GitLab的部署与使用!!!!初学者第1章Git概述Git是一个免费的、开源的分布式版本控制系统,可以快速高效地处理从小型到大型的各种项目。Git易于学习,占地面积小,性能极快。它具有廉价的本地库,方便的暂存区域和多个工作流分支等特性。其性能......
  • 【HAProxy05】企业级反向代理HAProxy调度算法之静态算法与动态算法
    HAProxy调度算法HAProxy通过固定参数balance指明对后端服务器的调度算法,该参数可以配置在listen或backend选项中。HAProxy的调度算法分为静态和动态调度算法,但是有些算法可以根据不同的参数实现静态和动态算法相互转换。官方文档:http://cbonte.github.io/haproxy-dcon......
  • HarmonyOS Next企业级设备认证解决方案:基于Device Certificate Kit的多层级身份验证
    本文旨在深入探讨华为鸿蒙HarmonyOSNext系统(截止目前API12)的技术细节,基于实际开发实践进行总结。主要作为技术分享与交流载体,难免错漏,欢迎各位同仁提出宝贵意见和问题,以便共同进步。本文为原创内容,任何形式的转载必须注明出处及原作者。在企业数字化转型的浪潮中,大量设......
  • MySQL数据库企业级开发技术
    一.事务1.事务的定义1.事务:一个最小的不可再分的工作单元;通常一个事务对应一个完整的业务(例如银行账户转账业务,该业务就是一个最小的工作单元)2.一个完整的业务需要批量的DML(insert、update、delete)语句共同联合完成3.事务只和DML语句有关,或者说DML语句才有事务。这个......