一、数据层融合
通过统一的数据格式来描述各个异构数据源。采用中间件整合的形式,利用轻量级的JSON来描述格式进行数据格式转换,以消除底层数据源之间的异构问题,实现多个数据源的统一访问。多源异构数据融合的关键在于语法异构和语义异构,本文使用JSON Schema来对数据源进行映射,来消除数据类型异构。采用关联数据JSON-LD,解决多个数据源之间的语义异构。
二、特征层融合
1、特征提取,对特征进行融合处理。数据层融合之后的数据集维度较高。对于存在的冗余情况,更好的针对性的提取特征,从而对数据层融合之后的数据集根据不同的数据类型或者是数据特性划分子空间是十分有必要的。在每一个子空间中,为了提取特征的过程中既保持数据集的全局结构,又保持数据集的局部特征。
PS:子空间的构建保证了同一个子空间的数据特性相似,不同子空间的数据特征具有差异。