知识融合概述
什么是知识融合
构建知识图谱的过程中,往往会对多个知识库进行合并,以期获得更全面的知识,这个过程就称为知识融合。
由于被合并的各个知识库里的知识难免会存在错误,因而知识融合会对多个知识库的知识进行交叉验证,知识融合之后获得知识相比融合前的单知识库会更准确。
知识融合的难点
- 异构问题:不同知识库对同一个实体或知识的表达差异很大,具体体现在一个相同的实体存在大量的别名。比如商品知识图谱中,不同数据源对于同一商品的描述可能不同。
- 歧义问题:不同的实体使用同样或类似的文本表达。比如“苹果”既是一种水果,又是一个品牌名称。
- 数据噪声:在工业界知识图谱实践中,数据噪声问题是广泛存在的,多知识库融合会方法噪声问题,容易造成准确率的下降。
- 跨语言问题:不同语言再表达同一个实体或知识时,语义的漂移是十分严重的,可以认为跨语言是一种非常难处理的异构问题,因此跨语言的知识融合任务难度更大,在学术界往往作为一个独立戴尔研究子领域出现。
知识融合的基本步骤
本体对齐
本体是描述一样东西的框架,在不同的知识图谱中,对于同一样东西的描述方法可能是不同的。
本体对齐就是指对多个知识库本体结构进行对齐,涉及本体结构的类、属性项和属性值的对齐。本体对齐的目的是解决类、属性项和属性值的异构问题。
比如商品知识图谱中,不同的商品知识库本体结构不同。在类级别上,不同知识库的层级划分可能不同,比如“手机”、“智能手机”,命名方法可能也不同,比如“数码设备”和“3C数码”;每个类的属性项可能也会存在同,比如“尺寸”和“屏幕尺寸”;属性项下面的属性值也可能存在不同的划分或者命名不同的问题,比如同样“品牌”属性项下,可能一个知识库使用了“苹果”,另一个则是“Apple”。
实体对齐
实体对齐就是把多个知识库中描述同一个实体的记录找出来。由于实体的个数非常多,且同一个实体在不同知识库里异构问题严重,因此相比本体对齐,实体对齐是一个更为困难的任务,比如“iPhone 11”和“苹果手机 iPhone11”是同一个实体。
信息融合
不同知识库对同一个实体的描述可以有相当程度的互补,进行融合,能得到最全、最准的实体属性信息。信息融合就是将已对齐的实体对或者实体聚簇的属性信息融合到一起的过程,主要解决的多个数据源信息冲突的问题。
标签:知识,实体,融合,概述,对齐,知识库,属性 From: https://www.cnblogs.com/yangxuanzhi/p/17222796.html