首页 > 其他分享 >大模型时代还需要知识图谱么?新一代知识图谱语义框架SPG赋能企业数智化转型

大模型时代还需要知识图谱么?新一代知识图谱语义框架SPG赋能企业数智化转型

时间:2024-01-17 17:03:29浏览次数:33  
标签:数智化 KG 应用 图谱 知识 语义 LLM

企业在数字化过程中积累了海量的数据。企业需要不断地为用户创造价值,同时实现高效的经营管理和风险控制,这对企业的数字化基建提出了很高的要求,也为知识图谱(Knowledge Graph,KG)、大语言模型(Large Language Model,LLM)等AI 技术提供了多样化的落地场景。

本文以商家经营和风险防控为例,介绍了在企业数字化中的图谱应用。特别强调了因为中小商户、沉睡户等薄数据客群的画像覆盖和风险洞察而对深度上下文(deep context) 感知的要求,企业级知识管理正在实现从二元静态向多元动态的模式跃迁。结合当前产业应用和研究进展,本文梳理总结了LLM、KG 在企业数字化中的可能应用。

我们指出,LLM 因存在幻觉问题而使应用受到限制,KG 则因为具有结构化知识的表达能力、可解释性和较高的计算效率,在推理挖掘、线索洞察、分析查询等方面具有广泛应用。同时,LLM 和KG 的双重驱动因两者能力的互补性,空间巨大,在语言理解和交互类应用中也被预测为LLM产业化落地的关键路径。在此基础上,本文进一步阐述知识图谱技术当前面临的挑战,并结合蚂蚁集团知识图谱平台实践,介绍OpenKG 合作共建的工业级语义增强框架SPG( Semantic-enhanced Programmable Graph)及知识图谱引擎。

从二元静态到多元动态:知识管理模式的跃迁

知识图谱(Knowledge Graph,KG)是一种建模和管理数据的方法,它利用图结构、知识语义和逻辑依赖,提供存储、推理和查询事实知识的能力。早期的应用主要是从公开语料中提取百科类<s, p, o> 三元组来构建静态知识图谱,以提高搜索推荐的效率和体验。

自2018 年以来,企业数字化垂直领域的图谱应用越来越广泛,如金融、医疗、公安和能源等领域[1, 2]。艾瑞咨询的一份报告[3] 显示,预计到2026 年,中国图谱市场空间将达到290 亿元,其中金融和公安是主要的拉动力量。由于领域图谱需要具备全面性、正确性和可解释性等特点,图谱数据的来源也从文本语料转向了企业多源异构数据。这些数据包括非/ 半结构化的用户生产内容/ 专业生产内容(UGC/PGC)、业务经营沉淀的结构化基础画像、交易事务、日志记录等,以及各领域特有的业务专家经验。围绕经营增长和风险防控,构建完整的客户、物料、渠道等的立体画像,图1 展示了商家实体的构建过程。

大模型时代还需要知识图谱么?新一代知识图谱语义框架SPG赋能企业数智化转型_语义框架

图1 商家实体构建的过程

当前,商家已经突破了静态门店的限制,收款码让任何人都可以成为商家,同时也增加了风险防控的难度。仅通过文本概念标签进行风险防控是没有意义的,添加交易、社交等实际事实关系也远远不够。如图2 所示,需要实体多要素的深度信息协同才能发现更多有效的关联。

图谱构建的要求也从静态常识转向深度上下文动态时空。这既需要基于介质(如Wi-Fi、电话、Email 等)实现关系传导, 又需要对地理连续空间(Spatial)实现边界化的聚集关联[4],还需要跟踪中/ 宏/ 微观事件的多元传导脉络,实现实体间稀疏关系语义可解释的稠密化。

大模型时代还需要知识图谱么?新一代知识图谱语义框架SPG赋能企业数智化转型_语义框架_02

图2 深度上下文语义扩展的基础事实图谱

在业务应用方面,知识图谱可以用于构建知识推理任务,例如

  1. 商品推荐:通过类目、意图、时空等语义, 连接人- 商品、人- 商户、商品- 渠道等,实现语义联想的商品召回和表征迁移;
  2. eKYB(electronic Know Your Business):通过介质关联、行为事件和时空聚集,识别商户同人、同店等,实现有效的画像补全和风险洞察。

此外,基于知识图谱还可以实现结构感知的可控文本生成[5],例如:

  1. 反洗钱智能审理识别定性和报文生成:结合深度上下文预测风险行为、挖掘团伙,通过资金链、时空聚集、设备关联等还原团伙/ 异常结构,并通过知识图谱到文本的转换,输出可解释报文;
  2. AI 电话唤醒受害者:将识别到的可疑设备、钓鱼域名/AppID、团伙等实时关联传导到交易用户,生成沟通话术提醒用户并拦截风险。这些应用旨在实现更加智能和精准的风险控制和业务推理,提高商业运营的效率和价值。

在商户经营与风险防控的案例中,知识管理需要具备较强的上下文感知能力。常见的常识知识图谱卸掉了可感知上下文的信息和时空关联,在实际应用中,如果论元要素出现了多元化或相互交织, 由于无法感知个体差异,仅使用概念层归纳,推理应用的效果会大打折扣[6]。类似的问题也出现在公安反诈、保险理赔、医疗问诊、企业授信等领域。因此,企业垂直领域对知识图谱的期望发生了较大变化。知识表示也从图3 所示的二元静态结构发展到时空多元动态关联,以更好地适应实际应用的要求。

大模型时代还需要知识图谱么?新一代知识图谱语义框架SPG赋能企业数智化转型_知识图谱_03

图3 知识表示从二元到多元的演进

LLM与KG在企业数字化业务中的应用范式

2022 年底,ChatGPT 火爆全球,随后国内也掀起百“模”大战。然而,由于LLM是一种黑箱概率模型[7],难以捕获事实知识,因此存在较多幻觉和逻辑错误[8]。与此同时,知识图谱的事实性、时效性和逻辑严谨性成为了LLM 的绝佳能力补充。通过将知识图谱作为约束和复杂推理能力的来源, LLM+KG 的应用范式引起了研究者的广泛关注,并催生了许多应用探索和研究[7, 8]。

在各种应用场景中,以商户经营与风控为例,算法任务可以分为以下五个方面。

  1. 交互应用:包括消费端(C)产品上的商品/ 服务透出和供应端(B)产品上的服务/ 商家入驻等;
  2. 经营管理:企业经营、商户经营必须的经营分析、物料管理等;
  3. 风险防控:黑灰产对抗是企业经营永恒的话题,企业必须增强对薄数据客群的认知覆盖和对新风险模式的快速识别;
  4. 知识构建:将外部非/ 半结构化、结构化数据转换成领域知识;
  5. 知识挖掘:企业促进增长和把控风险,不断提升主体要素、跨主体关系的长尾覆盖。表1 中列举了不同分类下LLM、KG 及LLM与KG 相互增强可能的落地应用。这些应用可以帮助企业在商户经营和风控领域中获得更好的效果和成果。

大模型时代还需要知识图谱么?新一代知识图谱语义框架SPG赋能企业数智化转型_语义框架_04

表1 LLM和KG在企业数字化不同场景下的应用

总体而言,以商户经营与风控应用场景为例,LLM 和KG 应用的算法任务主要可以分为三类。

  1. 仅用LLM :由于领域专业性和事实性的要求,LLM 在商户经营与风控领域尚未有明确可落地的场景;
  2. LLM + KG 双驱动:主要体现在知识问答、报告生成等用户交互类场景中,比如前文提到的AI 电话唤醒受害者和反洗钱智能审理报文生成等。此外,还有知识要素抽取、实体链指等知识构建类场景。文献[8] 中详细描述了LLM 与KG 的双驱动,包括KG 增强的LLM、LLM 增强的KG 以及LLM+KG 框架协同三个方面,如图4 所示。
  3. 仅用KG :在推理决策、分析查询、知识挖掘类等不需要复杂语言交互和意图理解的决策/ 挖掘场景中,基于图谱结构化知识直接做图表征学习、规则推理、知识查询等。通过框架的协同实现LLM与KG 双驱动,支持跨模态知识对齐、逻辑引导知识推理、自然语言知识查询等。这对KG 知识语义的统一表示和引擎框架的跨场景迁移提出了更高的要求。

大模型时代还需要知识图谱么?新一代知识图谱语义框架SPG赋能企业数智化转型_语义框架_05

图4 大模型与知识图谱的相互驱动

知识图谱技术体系的发展需要与时俱进

知识图谱自身技术框架的发展和人们对它在新知识数据管理范式、大模型双轮驱动的期待并不完全匹配,因此图谱技术的发展也需要与时俱进。首先,缺少统一的工业级知识建模框架。强语义、弱结构的资源描述框架/Web 本体语言(RDF/OWL)发展多年并未出现成功的企业级/ 商业化应用,而强结构、弱语义的带标签属性图(Labeled Property Graph,LPG)却是企业级应用的首选。其次,缺少统一的技术框架[2],导致跨领域迁移性差。由于工具繁多、链路复杂,每个领域图谱构建都要从零开始。除这两点外, 其他方面也存在较大技术挑战,如表2 所列。

大模型时代还需要知识图谱么?新一代知识图谱语义框架SPG赋能企业数智化转型_知识图谱_06

表2 新范式下图谱面临的技术挑战

知识图谱的目标是构建一个机器可理解、可推理的数字世界,实现知识语义的统一表示和框架化能力分层,以支持不同领域图谱的快速构建和跨场景迁移。这是图谱产业化加速过程中必须解决的基本核心问题。

基于SPG的工业级知识图谱引擎

蚂蚁知识图谱平台支撑了多年的金融领域业务, 积累并打造了基于属性图的语义框架SPG。该框架创造性地融合了LPG 结构性与RDF 语义性,既克服了RDF/OWL 语义复杂无法在工业场景落地的问题, 又充分发挥了LPG 结构简单与大数据体系兼容的优势。如图5 所示,该平台通过以下三个维度来定义和表示知识。

  1. 领域类型约束:基于SPG DC 的领域结构类型约束,实现知识的动态到静态自动分层;
  2. 领域内唯一性:通过SPG Evolving 提供可编程链指/ 归一能力,实现领域内知识的唯一性;
  3. 知识间依赖性:通过SPG Reasoning 谓词/ 逻辑体系定义知识之间的依赖,并提供可编程的推理表示。

大模型时代还需要知识图谱么?新一代知识图谱语义框架SPG赋能企业数智化转型_知识图谱_07

图5 SPG知识语义框架

以SPG 为基础构建的知识引擎框架,不仅可以在图谱构建阶段衔接大数据架构,实现数据到知识的转换,而且可以在存储阶段适配到属性图,充分发挥其存储和计算能力。在推理应用阶段,该框架可以形式化成知识图谱领域特定语言(Knowledge Graph Domain Specific Language,KGDSL)这种机器可理解的符号表示,支持下游规则推理、神经/ 符号融合学习、KG2Prompt 联动LLM 知识抽取/ 知识推理等。同时,通过该框架的分层架构,新的领域图谱构建只需定义Schema、准备数据、开发生产/ 推理Operator 即可。这为构建高效、灵活、可扩展的知识图谱应用提供了可编程的范式。

知识图谱技术目前仍处于快速发展时期,也是关键的技术拐点期。建立统一的技术框架能够大幅降低应用门槛,促进生态繁荣。为此,我们正在与OpenKG 合作,加速推出基于SPG 的语义表示和引擎框架。我们将于2023年8月底推出SPG 语义框架白皮书v1.0, 欢迎大家下载和交流。

本文作者介绍

王昊奋:CCF 高级会员,CCF 上海分部秘书长、CCF SIGKG 主席、术语工委副主任。同济大学百人计划特聘研究员,博士生导师。主要研究方向为知识图谱、自然语言处理。联系方式:[email protected]

梁 磊:CCF 专业会员,蚂蚁知识引擎负责人。个人主要研究方向为知识图谱、图学习与推理引擎、AI工程、搜索引擎等。联系方式:[email protected]


[1] Martin S, Szekely B, Allemang D. The Rise of the Knowledge Graph[R]. O’ Reilly, 2021.

[2] 王昊奋, 丁军, 胡芳槐, 等. 大规模企业级知识图谱实践综述[J]. 计算机工程, 2020, 46(7): 13.

[3] 艾瑞咨询. 中国知识图谱行业研究报告 [OL].(2022-08- 12). 2022年中国知识图谱行业研究报告_人工智能_艾瑞网.

[4] 陆锋, 诸云强, 张雪英. 时空知识图谱研究进展与展望[J]. 地球信息科学学报, 2023, 25(6):1091-1105.

[5] Anthony C, Alvandipour M, Wang D Z. GAP: A Graph-aware Language Model Framework for Knowledge Graph-to-Text Generation[OL]. (2022-04-13). https:// arxiv.org/pdf/2204.06674.pdf.

[6] 白硕. 事理图谱六问六答 [ O L ] . 理深科技时评. (2019-07-28). h t tps://mp.weixi n.q q.com/s/ p1h4jhL0esfYi3dOlC9Iwg.

[7] Yang L, Chen H, Li Z, et al. ChatGPT is not Enough: Enhancing Large Language Models with Knowledge Graphs for Fact-aware Language Modeling[OL]. (2023-06-20). arXiv preprint arXiv:2306.11489.

[8] Pan S, Luo L, Wang Y, et al. Unifying Large Language Models and Knowledge Graphs: A Roadmap[OL]. (2023-06-14). arXiv preprint arXiv:2306.08302.

[9] 王昊奋, 王萌. “神经+符号”:从知识图谱角度看认知推理的发展[J]. 中国计算机学会通讯, 2020, 16(8), 52-56.

标签:数智化,KG,应用,图谱,知识,语义,LLM
From: https://blog.51cto.com/u_16470786/9294301

相关文章

  • 在线知识图谱可视化工具
    在传统的企业运营管理过程中,大量的数据和信息以文档的形式存在,需要通过一定的方式进行组织、存储、加工和利用,而知识图谱就是这样一种数据表示形式。在线知识图谱能够帮助企业快速地找到有价值的信息和数据,并且对这些信息进行有效的存储和共享。知识图谱是将现实世界中的实体及关系......
  • (3)Powershell基础知识(一)
    (3)Powershell基础知识(一)上节介绍了Windows自带的Powershell开发工具:命令行行窗体和集成开发环境ISE的启动及一些配置注意事项,具体细节使劲戳Powershell开发工具。这一节介绍Powershell的基础知识,包含以下知识点Powershell的一些特性理解Powershell中的一些重要概念......
  • 【树上DP前导知识汇总】
    一、树的直径记录最长、次长,输出\(max(最长+次长)\)\(AcWing\)\(1072\)树的最长路径#include<bits/stdc++.h>usingnamespacestd;constintN=10010,M=N<<1;intn;//n个结点//链式前向星inth[N],e[M],w[M],ne[M],idx;voidadd(inta,intb,intc......
  • 信管知识梳理(五)信息系统安全技术
    一、信息安全的有关概念1.1信息安全属性秘密性:指信息不被未授权者知晓的属性完整性:信息是正确的、真实的、未被篡改的、完整无缺的属性可用性:信息能够随时正常使用的属性1.2信息系统安全的层次设备安全:设备的稳定性:不出故障的概率设备的可靠性:正常执行任务的概率设......
  • 知识汇总:查看linux服务器系统命令
    要查看Linux服务器的系统信息,你可以使用多种命令来获取不同类型的信息。以下是一些常用的命令和它们的用途:uname -显示基本的系统信息uname-a:显示所有的系统信息,包括内核名称、主机名、内核发行版本、内核版本、机器类型、处理器类型、硬件平台和操作系统。hostnamectl......
  • 大学专业 格物自测!为高考,从高一准备自己的知识储备! 工学 工学 理学 理学 哲学 哲学 经
    大学专业格物自测!为高考,从高一准备自己的知识储备! 工学理学哲学经济学法学教育学农学医学管理学艺术学文学历史学 https://www.gewuxue.com/......
  • 不可不看的Java基础知识整理,注释、关键字、运算符
    写在开头万丈高楼平地起,要想学好汉语首先学拼音,想学好英语首先学26个字母,对于编程语言来说,一样的道理,要想学好必须先掌握其基础语法和知识,今天我们就来唠一唠Java语言中那些出现频率极高,又很基础的知识点吧!Java中的注释注释的作用:拨云见日!在日常的工作中,总会遇到很多大段的代......
  • 摆脱复杂图谱术语,7个原则搞定Schema建模
    前言在OpenSPG最新发布的0.0.2版本中,为了方便大家更好地理解和应用OpenSPG构建知识图谱,发布了知识建模最佳实践的7个指导原则。本文我们结合蚂蚁域内的多个业务场景,举例说明结合SPG规范的结构与语义解耦的知识建模及schema设计方法。OpenSPGGitHub:https://github.com/OpenSPG/o......
  • C++零碎知识点
    目录RTTI运行时类型信息RTTI运行时类型信息在C++中,RTTI(Run-TimeTypeInformation,运行时类型信息)是一种机制,允许在程序执行期间确定对象的类型。RTTI是为了解决许多类库供应商自行实现此功能而导致的不兼容性问题而添加到C++语言中的。RTTI的主要目的是允许在运行时获取对象......
  • 【开源项目推荐】——纯中文本地GPT知识库搭建项目.assets
    大家好,我是独孤风。又到了本周的开源项目推荐。近一年多的时间,人工智能迎来了大爆发。GPT相关的大模型的发展让很多领域都发生了巨大的变化。但是虽然GPT的自然语言识别功能异常的强大,但回答给我们的知识内容并不尽如人意。那么,有没有可以在本地部署搭建的AI知识库项目呢?今天为......