首页 > 编程语言 >多源谱修复学习算法(Multi-source Spectral Repair Learning Algorithm, MSRL)

多源谱修复学习算法(Multi-source Spectral Repair Learning Algorithm, MSRL)

时间:2024-07-15 19:01:51浏览次数:14  
标签:Spectral Repair Multi 数据 数据源 样本 邻接矩阵 多源 缺失

多源谱修复学习算法(Multi-source Spectral Repair Learning Algorithm, MSRL)是一种针对非完备多源数据的处理方法,旨在解决因数据缺失而导致的多源数据学习问题。

非完备多源数据是指在数据采集过程中,由于各种原因(如数据源多样性带来的质量差异或数据获取能力限制),导致某些样本或特征在部分数据源中缺失的现象。

MSRL算法通过谱方法对数据源进行修复,从而恢复完整数据,使得后续的多源数据融合和学习成为可能。

算法步骤与公式解析

1. 数据缺失问题分类

数据缺失问题可分为特征缺失和样本缺失两类:

  • 特征缺失:指某个样本的部分特征未被记录或丢失。
  • 样本缺失:指某个数据源中缺少某些样本的所有特征信息。
2. 数据填补

首先,通过建立不同数据源之间的投影来填补缺失数据。假设我们有 D D D个数据源,每个数据源包含 N N N个样本,但样本和特征可能不完全相同。

特征缺失填补

设数据源 i i i的第 j j j个样本的特征向量为 x i j \mathbf{x}_{ij} xij​,如果 x i j \mathbf{x}_{ij} xij​有缺失,可以通过其他数据源中该样本的特征信息来估计缺失值

这通常涉及到最小二乘法或最近邻方法,但具体公式依赖于具体的填补策略。

样本缺失填补

对于数据源 i i i中缺失的样本 k k k,可以通过其他数据源中样本 k k k的信息来重建。

若数据源 j j j中样本 k k k的特征向量为 x j k \mathbf{x}_{jk} xjk​,则数据源 i i i中缺失的样本 k k k的特征向量 x i k \mathbf{x}_{ik} xik​可以通过学习一个映射函数 f j i f_j^i fji​来预测,即 x ^ i k = f j i ( x j k ) \hat{\mathbf{x}}_{ik} = f_j^i(\mathbf{x}_{jk}) x^ik​=fji​(xjk​)。

3. 谱修复

接下来,利用算子的谱性质对数据源进行修复。

谱修复的核心是通过图拉普拉斯矩阵的谱分析来重构数据源的邻接矩阵,以恢复缺失数据的内在结构。

图拉普拉斯矩阵 L L L由邻接矩阵 A A A和度矩阵 D D D构建,其公式为:
L = D − A L = D - A L=D−A

其中, A A A表示节点间的连接强度, D D D是一个对角矩阵,其对角元素等于 A A A中对应的行或列的和。

修复后的邻接矩阵 A ~ \tilde{A} A~应该尽量接近原始的邻接矩阵 A A A,但在缺失数据的情况下,原始邻接矩阵不可知。

因此,谱修复的目标是找到一个邻接矩阵 A ~ \tilde{A} A~,使得由它构建的图拉普拉斯矩阵 L ~ \tilde{L} L~的谱(特征值和特征向量)接近于一个理想的谱,这个理想谱通常是根据现有数据推断出来的。

4. 多源数据融合

一旦获取了修复后的邻接矩阵 A ~ \tilde{A} A~,就可以基于这些矩阵建立多源数据的融合模型。

这一步骤涉及到将多个数据源的信息整合起来,形成一个统一的表示,以便进行后续的聚类、分类或回归分析。

目标公式

整个算法的目标公式是寻找一个邻接矩阵 A ~ \tilde{A} A~,使得其图拉普拉斯矩阵 L ~ \tilde{L} L~的谱尽可能接近理想谱 Λ \Lambda Λ,即:
min ⁡ A ~ ∥ L ~ − Λ ∥ 2 \min_{\tilde{A}} \|\tilde{L} - \Lambda\|^2 A~min​∥L~−Λ∥2

这里的 Λ \Lambda Λ是根据现有数据和谱分析原理构建的理想谱, ∥ ⋅ ∥ \|\cdot\| ∥⋅∥表示某种矩阵范数。

公式作用

  • 图拉普拉斯矩阵: L = D − A L = D - A L=D−A反映了数据的内在结构,通过谱分析可以揭示数据的潜在模式。
  • 修复后的邻接矩阵: A ~ \tilde{A} A~是经过修复的邻接矩阵,用于重建缺失数据的结构信息。
  • 理想谱: Λ \Lambda Λ是根据数据特性和谱分析原理设定的目标,用于指导修复过程,确保修复后的数据保持原有的结构特性。

通过上述步骤,多源谱修复学习算法可以有效处理非完备多源数据,使其在缺失数据的情况下仍能进行准确的融合和学习。

标签:Spectral,Repair,Multi,数据,数据源,样本,邻接矩阵,多源,缺失
From: https://blog.csdn.net/weixin_50569789/article/details/140446109

相关文章

  • 多源谱嵌入融合学习算法(Multi-source Spectral Embedding Fusion Learning Algorithm,
    多源谱嵌入融合学习算法(Multi-sourceSpectralEmbeddingFusionLearningAlgorithm,简称MSEF)是一种专门设计用于处理多源数据的高级学习方法,其目标是在不同数据源之间建立一致的表示,从而提高聚类性能和数据理解的全面性。这种算法的核心在于利用全局和局部谱嵌入的融合,以......
  • Improving News Recommendation via Bottlenecked Multi-task Pre-training论文阅读笔
    ImprovingNewsRecommendationviaBottleneckedMulti-taskPre-training论文阅读笔记Abstract现存的问题:​ 现有的PLM大多是在大规模通用语料库上预先训练的,并没有专门用于捕捉新闻文章中的丰富信息。因此,它们生成的新闻嵌入信息可能不足以表示新闻内容或描述新闻之间的关......
  • 机器人前沿--PalmE:An Embodied Multimodal Language Model 具身多模态大(语言)模型
    首先解释这篇工作名称Palm-E,发表时间为2023.03,其中的Palm是谷歌内部在2022.04开发的大语言模型,功能类似ChatGPT,只是由于各种原因没有那样火起来,E是Embodied的首字母,翻译过来就是具身多模态大语言模型大模型,我们一般习惯将其称为具身多模态大模型。何为具身?这个词听起来非常......
  • 数字电路仿真实验【使用Multisim软件仿真】
    基本逻辑门电路功能测试与门仿真7408TTL2输入端四与门与门逻辑功能测试仿真电路及逻辑转换仪面板图与非门仿真7400TTL2输入端四与非门与非门逻辑功能测试仿真电路及逻辑转换仪面板图编码器电路功能测试通过4532BP优先编码器(8-3线编码器)功能表测试其逻辑功......
  • 0170-Multiboot2 启动头
    环境Time2022-11-11WSL-Ubuntu22.04QEMU6.2.0NASM2.15.05前言说明参考:https://os.phil-opp.com/multiboot-kernel/目标编写一个符合multiboot2规范的启动文件。multiboot2规范https://www.gnu.org/software/grub/manual/multiboot2/multiboot.html#Header-tag......
  • 0175-GDB 调试 multiboot 启动
    环境Time2022-11-12WSL-Ubuntu22.04QEMU6.2.0NASM2.15.05前言说明参考:https://os.phil-opp.com/multiboot-kernel/目标使用编写好的内核可执行文件,直接从QEMU启动,启动时暂停CPU,使用GDB调试。汇编代码section.multiboot_headerheader_start:dd0x1BAD......
  • How to link multiple docker-compose services via network
    Howtolinkmultipledocker-composeservicesvianetworkNewscenario:SharinganetworkbetweenservicesIfyouwantdefineservicesinmultipledocker-compose.ymlfiles,andalsohavenetworkconnectivitybetweentheservices,youneedtoconfigureyou......
  • STA中的multi_cycle 和false_path详细讨论
    前提概念:什么是数据路径?clk路径?require_time?arrive_time?slack_time?不做赘述1、为什么要对某些路径设置multi_cycles:在某些情况下,两个触发器之间的数据路径可能需要一个以上的时钟周期才能传播通过逻辑。在这种情况下,这条组合逻辑路径会被定义为多周期路径(multicy......
  • [1030] Extract text between two specific phrases in a multi-line text
    Ah,theancientartoftextextraction—wherewedelveintothescrollsofPythonmagictorevealhiddenpassages!Fearnot,fellowseekerofknowledge;Ishallguideyouthroughthismysticalprocess.Toextracttextbetweentwospecificphrasesinamult......
  • CN-Celeb 论文阅读:CN-Celeb: multi-genre speaker recognition
    摘要Inthiswork,wefirstlypublishCN-Celeb,alarge-scalemulti-genrecorpusthatincludesin-the-wildspeechutterancesof3,000speakersin11differentgenres.Secondly,usingthisdataset,weconductacomprehensivestudyonthemulti-genrephe......