【大模型智能客服背景下】知识图谱笔记

【背景】

在数字化飞速发展的时代，客户服务的质量和效率成为企业立足市场、赢得客户信赖的关键因素之一。随着人工智能技术的不断革新，智能客服应运而生，为企业与客户之间搭建起了更为便捷、高效的沟通桥梁。

传统的智能客服系统往往基于预设规则和简单的关键词匹配来回答客户的问题，虽然在一定程度上能够解决部分常见疑问，但面对复杂多样、语义丰富的客户咨询时，就显得力不从心了。例如，客户用各种不同表述方式询问产品的详细功能、不同产品之间的兼容性，或者是涉及到多方面业务细节的复杂问题时，传统智能客服很难准确理解意图并给出全面且精准的答复。

而近年来，大模型的出现无疑给智能客服领域带来了巨大的变革机遇。我所在的通信服务商也加快了在智能客服领域应用大模型技术解决上述传统客服的瓶颈。大模型凭借其强大的语言理解和生成能力，能够更好地捕捉客户问题中的语义信息，生成流畅且相对合理的回答。

然而，大模型也并非完美无缺。大模型所学习到的知识大多是基于广泛的通用文本，对于特定企业、特定业务领域内的专业知识和细节信息，有时候无法做到精准把控，比如通信行业，容易出现回答虽然语言通顺但却偏离实际业务情况的 “幻觉” 现象。

我所在的单位大模型智能客服项目的规划建设过程中，知识图谱的概念进入了视野，基于自身在通信行业正在经历建设大模型应用的智能客服的背景，我们开启了知识图谱了解、学习之旅。在接下来的博客内容中，我将分享知识图谱的点点滴滴，包括定义、数据类型、体系架构、知识图谱构建、融合以及应用现状等，希望能给同样关注知识图谱的朋友们带来一些启发和帮助。

学习是一种愉悦，一种收获，让我们在探索中感受快乐。欢迎关注、点赞和收藏~

1.知识图谱定义

知识图谱，本质上，是一种揭示实体之间关系的语义网络。用于对现实世界中的实体、概念、属性以及它们之间的关系进行建模，可以被视为一个由节点和边构成的图，其中节点代表物理世界中的实体或概念，而边则代表这些实体或概念之间的各种语义关系。

信息是指外部的客观事实。举例：桌上有一瓶水，温度是30°。

知识是对外部客观规律的归纳和总结。举例：水在零度的时候会结冰。

知乎上有另一种经典的解读，区分 “信息” 和 “知识” 。

在信息的基础上，建立实体之间的联系，就能行成 “知识”，或者称为叫事实（Fact）。换句话说，知识图谱是由一条条知识组成，每条知识表示为一个SPO主谓宾三元组(Subject-Predicate-Object)。

目前大多数知识图谱都采用自底向上(bottom-up)的构建方式。自底向上指的是从一些开放链接数据（也就是 “信息”）中提取出实体，选择其中置信度较高的加入到知识库，再构建实体与实体之间的联系。

以章子怡为例整理的知识图谱：

2. 知识图谱的数据类型和存储方式

知识图谱的原始数据类型有三类：

结构化数据（Structed Data）：如关系数据库
半结构化数据（Semi-Structed Data）：如XML、HTML、JSON
非结构化数据（UnStructed Data）：如图片、音频、视频、文本

3. 知识图谱的体系架构

知识图谱的架构主要包括自身的逻辑结构以及体系架构。知识图谱在逻辑结构上可分为模式层与数据层两个层次，数据层主要是由一系列的事实组成，而知识将以事实为单位进行存储。如果用（实体1，关系，实体2）、（实体、属性，属性值）这样的三元组来表达事实，可选择图数据库作为存储介质。模式层构建在数据层之上，主要是通过本体库来规范数据层的一系列事实表达。本体是结构化知识库的概念模板，通过本体库而形成的知识库不仅层次结构较强，并且冗余程度较小。

大规模知识库的构建与应用需要多种智能信息处理技术的支持。通过知识抽取技术，可以从一些公开的半结构化、非结构化的数据中提取出实体、关系、属性等知识要素。通过知识融合，可消除实体、关系、属性等指称项与事实对象之间的歧义，形成高质量的知识库。知识推理则是在已有的知识库基础上进一步挖掘隐含的知识，从而丰富、扩展知识库。分布式的知识表示形成的综合向量对知识库的构建、推理、融合以及应用均具有重要的意义。

4. 知识抽取

知识抽取主要是面向开放的链接数据，通过自动化的技术抽取出可用的知识单元，知识单元主要包括实体(概念的外延)、关系以及属性3个知识要素，并以此为基础，形成一系列高质量的事实表达，为上层模式层的构建奠定基础。知识抽取有三个主要工作：

实体抽取：更多称为 NER，指的是从原始语料中自动识别出命名实体。由于实体是知识图谱中的最基本元素，其抽取的完整性、准确、召回率等将直接影响到知识库的质量。因此，实体抽取是知识抽取中最为基础与关键的一步；

关系抽取：目标是解决实体间语义链接的问题，早期的关系抽取主要是通过人工构造语义规则以及模板的方法识别实体关系。随后，实体间的关系模型逐渐替代了人工预定义的语法与规则。

属性抽取：属性抽取主要是针对实体而言的，通过属性可形成对实体的完整勾画。由于实体的属性可以看成是实体与属性值之间的一种名称性关系，因此可以将实体属性的抽取问题转换为关系抽取问题。

5. 知识融合

由于知识图谱中的知识来源广泛，存在知识质量良莠不齐、来自不同数据源的知识重复、知识间的关联不够明确等问题，所以必须要进行知识的融合。知识融合是高层次的知识组织，使来自不同知识源的知识在同一框架规范下进行异构数据整合、消歧、加工、推理验证、更新等步骤，达到数据、信息、方法、经验以及人的思想的融合，形成高质量的知识库。知识融合包括两部分内容：实体链接，知识合并。

实体链接：是指对于从文本中抽取得到的实体对象，将其链接到知识库中对应的正确实体对象的操作。

知识合并：常见的知识合并需求有两个，一个是合并外部知识库，另一个是合并关系数据库。

6. 知识加工

事实本身并不等于知识。要想最终获得结构化，网络化的知识体系，还需要经历知识加工的过程。知识加工主要包括三方面内容：本体构建、知识推理和质量评估。

7. 知识更新

从逻辑上看，知识库的更新包括概念层的更新和数据层的更新。概念层的更新是指新增数据后获得了新的概念，需要自动将新的概念添加到知识库的概念层中。数据层的更新主要是新增或更新实体、关系、属性值，对数据层进行更新需要考虑数据源的可靠性、数据的一致性等可靠数据源，并选择在各数据源中出现频率高的事实和属性加入知识库。

知识图谱的内容更新有两种方式：

全面更新：指以更新后的全部数据为输入，从零开始构建知识图谱。这种方法比较简单，但资源消耗大，而且需要耗费大量人力资源进行系统维护；

增量更新：以当前新增数据为输入，向现有知识图谱中添加新增知识。这种方式资源消耗小，但目前仍需要大量人工干预（定义规则等），因此实施起来十分困难。

8. 知识图谱应用

知识图谱为互联网上海量、异构、动态的数据表达、组织、管理以及利用提供了一种更为有效的方式，使得网络的智能化水平更高，更加接近于人类的认知思维。应用于智能搜索，智能问答，社交网络，个性化推荐，情报分析等。

技术不断成熟：知识图谱的构建技术不断发展和完善，包括知识抽取、知识融合、知识表示学习、知识推理等方面都取得了显著进展。例如，利用深度学习模型提高实体识别和关系抽取的准确率，通过知识表示学习将知识图谱中的实体和关系映射到低维向量空间，以便更好地进行计算和推理。

应用广泛拓展：知识图谱的应用领域不断扩大，涵盖了语义检索、智能问答、个性化推荐、辅助决策、金融风控、医疗健康、教育、电子商务等。例如，在金融领域，可用于风险评估、投资决策等。

与其他技术深度融合：知识图谱与深度学习、自然语言处理、大数据等技术的融合日益紧密，相互促进。例如，将知识图谱与深度学习模型结合，为模型提供先验知识，提高模型的性能和可解释性；利用自然语言处理技术对文本数据进行处理，提取知识并构建知识图谱。

多模态知识图谱的发展：多模态知识图谱整合了来自不同模态的信息，如文本、图像、音频等，能够更全面地表示现实世界的知识，为更复杂的应用场景提供支持。

【总结】

尽管知识图谱取得了很大的进展，但仍然面临一些挑战，如知识图谱的自动构建、知识的动态更新、知识的不确定性处理、多语言知识图谱的构建等。从技术来说，知识图谱的难点在于自然语言处理NLP，因为我们需要机器能够理解海量的文字信息。但在工程上，我们面临更多的问题，来源于知识的获取，知识的融合。

知识图谱肯定不是人工智能的最终答案，但知识图谱这种综合各项计算机技术的应用方向，可能是人工智能未来的形式之一。