首页 > 其他分享 >随机特征映射基本思想

随机特征映射基本思想

时间:2023-04-19 17:35:18浏览次数:46  
标签:映射 特征 Random 投影 随机 傅里叶

随机特征映射基本思想

简介

随机特征映射(Random Feature Mapping)是一种将高维输入数据映射到低维特征空间的技术。它最初是在2007年由Rahimi和Recht提出的。以下是随机特征映射发展历程中的一些关键里程碑和理论方面:

  • 随机傅里叶特征映射(Random Fourier Feature Mapping):最早的随机特征映射技术,由Rahimi和Recht在2007年提出。它使用傅里叶变换将输入数据映射到一个高维的特征空间,但使用了一些随机技巧以降低计算复杂度。

  • 随机核特征映射(Random Kernel Feature Mapping):由Lopez-Paz和Oquab在2016年提出。该方法通过随机映射将核函数的计算转换为内积的计算,从而降低了计算复杂度。它还提供了一种通用的方法,可以将各种核函数映射到低维特征空间。

  • 随机局部线性嵌入(Random Locality Preserving Embedding):由He等人在2003年提出。该方法将输入数据映射到一个低维特征空间,并保留数据之间的局部距离。它主要应用于图像降维和图像分类等领域。

  • 随机投影(Random Projection):最早的降维技术之一,由Johnson和Lindenstrauss在1984年提出。该方法使用随机投影将高维数据映射到低维空间,从而减少计算复杂度。它还被广泛应用于数据压缩和降噪等领域。

随机特征映射的发展历史比较丰富,涵盖了很多不同的理论和应用方面。其中,随机傅里叶特征映射是最早和最经典的技术之一,而随机核特征映射则是一种通用且高效的降维方法。此外,随机局部线性嵌入和随机投影也各具特色,被广泛应用于不同的领域。

随机傅里叶特征映射(Random Fourier Feature Mapping)的基本理论

随机傅里叶特征映射是一种将高维输入数据映射到低维特征空间的技术,它最早由Rahimi和Recht在2007年提出。它的基本理论是将输入数据映射到一个高维的特征空间,该特征空间由随机傅里叶函数构成。具体来说,随机傅里叶特征映射的基本理论包括以下几个方面:

  • 傅里叶变换:傅里叶变换是一种将信号从时域转换到频域的技术。对于一个连续时间信号 f ( t ) f(t) f(t),它的傅里叶变换为 F ( ω ) F(\omega) F(ω),其中 ω \omega ω表示频率。在离散化的情况下,傅里叶变换可以写成以下形式:

随机特征映射基本思想_人工智能
其中, f n f_n fn​表示输入数据中的第 n n n个样本, N N N表示数据集的大小, k k k表示一个频率系数, i i i表示虚数单位。

  • 随机傅里叶函数:随机傅里叶特征映射使用随机傅里叶函数来近似实际的傅里叶变换。随机傅里叶函数可以写成以下形式:

随机特征映射基本思想_特征空间_02
其中, x x x表示输入数据, w k w_k wk​和 b k b_k bk​是随机生成的参数, D D D表示特征空间的维度。可以看出,随机傅里叶函数是一种对输入数据进行线性变换的方式,将输入数据从原始空间映射到特征空间。

  • 内积近似:由于随机傅里叶函数是线性的,因此可以通过内积来计算特征空间中两个样本之间的距离。具体来说,对于两个样本 x i x_i xi​和 x j x_j xj​,它们在特征空间中的内积可以表示为:

随机特征映射基本思想_数据_03
可以看出,随机傅里叶特征映射使用随机傅里叶函数来近似实际的傅里叶变换,并通过内积来计算特征空间中两个样本之间的距离,从而实现了对高维数据的降维。

随机核特征映射(Random Kernel Feature Mapping)基本理论

随机核特征映射(Random Kernel Feature Mapping)是一种将高维输入数据映射到低维特征空间的技术,它使用随机映射函数来近似实际的核函数。随机核特征映射最早由Rahimi和Recht在2008年提出。其基本理论如下:

  • 核函数:核函数是一种将输入数据从原始空间映射到特征空间的技术。常见的核函数包括线性核、多项式核和高斯核等。其中,高斯核是一种常用的核函数,可以写成以下形式:

随机特征映射基本思想_数据_04
其中, x x x和 y y y表示输入数据中的两个样本, ∣ x − y ∣ |x-y| ∣x−y∣表示它们之间的欧几里得距离, σ \sigma σ是一个控制高斯核函数形状的参数。

  • 随机映射函数:随机核特征映射使用随机映射函数来近似实际的核函数。随机映射函数可以写成以下形式:

随机特征映射基本思想_算法_05
其中, x x x表示输入数据, w w w和 b b b是随机生成的参数, D D D表示特征空间的维度。可以看出,随机映射函数是一种对输入数据进行线性变换的方式,将输入数据从原始空间映射到特征空间。

  • 内积近似:由于随机映射函数是线性的,因此可以通过内积来计算特征空间中两个样本之间的距离。具体来说,对于两个样本 x i x_i xi​和 x j x_j xj​,它们在特征空间中的内积可以表示为:

随机特征映射基本思想_机器学习_06
随机核特征映射使用随机映射函数来近似实际的核函数,并通过内积来计算特征空间中两个样本之间的距离,从而实现了对高维数据的降维。与随机傅里叶特征映射类似,随机核特征映射也是一种将高维输入数据映射到低维特征空间的技术。

随机局部线性嵌入(Random Locality Preserving Embedding)的基本理论

随机局部线性嵌入(Random Locality Preserving Embedding, RLLE)是一种基于局部线性嵌入(Locality Preserving Embedding, LLE)的随机算法,用于将高维数据嵌入到低维空间中。它最早由Zhang等人于2008年提出。其基本理论如下:

  • 局部线性嵌入(LLE):LLE是一种流行的非线性降维算法,它的基本思想是在保持局部关系不变的前提下,将高维数据映射到低维空间中。LLE的主要步骤包括:(1)计算每个样本点的k近邻;(2)根据最近邻的点之间的线性关系计算权重矩阵W;(3)将权重矩阵W用于计算嵌入矩阵Y。

  • 随机局部线性嵌入(RLLE):与LLE不同,RLLE使用随机投影来近似LLE中的线性关系。具体来说,RLLE的主要步骤包括:(1)将原始数据随机投影到低维空间中;(2)计算投影后的数据的k近邻;(3)根据最近邻的点之间的线性关系计算权重矩阵W;(4)将权重矩阵W用于计算嵌入矩阵Y。

  • 理论基础:RLLE的理论基础是基于概率论和统计学的。具体来说,假设原始数据点 x i x_i xi​是由一个低维嵌入空间中的点 y i y_i yi​加上一个高维噪声项 ϵ i \epsilon_i ϵi​得到的,即 x i = y i + ϵ i x_i=y_i+\epsilon_i xi​=yi​+ϵi​。则RLLE的目标是通过随机投影将噪声项 ϵ i \epsilon_i ϵi​投影到一个维度更低的子空间中,从而得到一个近似的低维嵌入 y i y_i yi​。根据概率论和统计学的知识,可以证明,在一定的条件下,RLLE可以实现与LLE相似的降维效果。

RLLE是一种基于LLE的随机算法,通过随机投影来近似LLE中的线性关系,从而实现对高维数据的降维。与其他随机算法相比,RLLE具有一定的理论基础,并且可以实现与LLE相似的降维效果。

随机投影(Random Projection)的基本理论

随机投影(Random Projection)是一种常用的降维技术,其基本理论如下:

  • 高维空间的子空间:对于一个高维空间中的数据集,它可能存在多个低维子空间,可以通过投影将高维数据映射到这些低维子空间中。因此,投影技术是一种有效的降维方法。

  • 随机投影的基本思想:随机投影是一种基于随机矩阵的投影技术,其基本思想是将原始高维数据集投影到一个随机生成的低维子空间中。具体来说,随机投影可以通过生成一个随机矩阵 R ∈ R d × k R\in \mathbb{R}^{d\times k} R∈Rd×k,其中 d d d是原始高维空间的维度, k k k是降维后的低维空间的维度,然后将原始数据集 X ∈ R n × d X\in \mathbb{R}^{n\times d} X∈Rn×d乘以随机矩阵 R R R得到降维后的数据集 Y ∈ R n × k Y\in \mathbb{R}^{n\times k} Y∈Rn×k,即 Y = X × R Y=X\times R Y=X×R。通过随机矩阵的乘法,随机投影将原始数据映射到了一个低维子空间中。

  • 随机投影的性质:随机投影具有以下重要性质:(1)随机投影是一种非常高效的降维方法,它可以实现线性时间复杂度;(2)随机投影可以保持数据之间的距离信息,即保持数据在低维空间中的相对位置不变;(3)随机投影可以保持数据之间的内积信息,即可以保持数据之间的相似性不变。

随机投影是一种基于随机矩阵的投影技术,它可以将高维数据集投影到一个随机生成的低维子空间中。随机投影具有高效、保持距离信息和内积信息等重要性质,因此被广泛应用于数据挖掘、机器学习等领域中的降维问题。

标签:映射,特征,Random,投影,随机,傅里叶
From: https://blog.51cto.com/guog/6207029

相关文章

  • C#生成不重复的随机数组
    1、基本思路例如,我要在0~10中随机取出5个数,且这5个数不能重复,那基本思路就是:(1)在一个数组A中保存0~10的数值,然后声明一个长度为5的数组B;(2)每次在0~10的范围内随机生成一个数(3)将步骤2获取的数值作为索引获取数组A的数值,并将该值赋给数组B,同时移除数组A中的该值(4)训练5次,得到数组B......
  • 云计算主要包含哪些特征,存在哪些障碍?
    云计算具有以下三个特征:1、可使用的无限的计算资源,从而消除了云计算用户预防不测的需要。2、消除了云计算用户的前期投资,从而使得公司以小规模启动,仅在需要增加时增加硬件资源。3、可支付短期内所使用的计算资源(如处理器的使用小时数和存储使用的天......
  • 结对编程——随机生成四则运算程序
    在本次结对编程中,我和2152634王锴中同学一同进行参与了随机生成四则运算题目程序的编写,本次编写环境在clion上,使用c++风格的代码完成编写。在编写的过程中,我们一同探讨了用哪种语言进行编译,最终选定c++,原因在于对c++的掌握程度更深。在一起完成此项目的同时,我们收获了很多,尤其对方......
  • PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SV
    全文下载链接:http://tecdat.cn/?p=26219最近我们被客户要求撰写关于银行机器学习的研究报告,包括一些图形和统计输出。该数据与银行机构的直接营销活动相关,营销活动基于电话。通常,需要与同一客户的多个联系人联系,以便访问产品(银行定期存款)是否会(“是”)或不会(“否”)订阅银行数据集我......
  • 基于GOA蚱蜢优化算法的KNN分类器最优特征选择matlab仿真
    1.算法仿真效果matlab2022a仿真结果如下:2.算法涉及理论知识概要蝗虫优化算法(GrasshopperOptimizationAlgorithm,GOA)是一种新型的元启发式算法,由Mirjalili等人于2017年提出。该算法受幼虫和成年蝗虫大范围移动与寻找食物源的聚集行为启发,具有操作参数少,公式简单......
  • 基于GOA蚱蜢优化算法的KNN分类器最优特征选择matlab仿真
    1.算法仿真效果matlab2022a仿真结果如下:     2.算法涉及理论知识概要       蝗虫优化算法(GrasshopperOptimizationAlgorithm,GOA)是一种新型的元启发式算法,由Mirjalili等人于2017年提出。该算法受幼虫和成年蝗虫大范围移动与寻找食物源的聚......
  • linux——堆、栈、内存映射
    C的虚拟内存区域划分CodeArea(代码区):程序代码指令、常量字符串,只可读。StaticArea(静态区、全局区):存放全局变量/常量、静态变量/常量。该区域的大小在程序一加载进内存的时候就已固定,但是静态变量的值是可以改的。Heap(堆):由程序员控制,使用malloc/free来操作。(空间最大)Stack(栈......
  • 【C#】Random生成随机数重复的问题
    ///<summary>///根据中位数返回区间随机数///</summary>///<paramname="mid"></param>///<returns></returns>privatestaticintGetRandom(intmid){//1.//Randomran=new......
  • 组策略映射共享文件夹
    在编写了安装脚本之后,本节任务是将提供安装程序的共享文件夹自动映射到每个用户,为了方便每个用户,还可以在每个虚拟机的桌面自动创建快捷方式,现在介绍方法,主要内容如下。(1)在ActiveDirectory域服务器中,打开“组策略管理”程序,在“克隆链接组”组织单位中新建组策略,本示例中新建组策......
  • 【蝴蝶算法】基于随机惯性权重策略+最优邻域扰动策略+动态转换概率策略的蝴蝶算法求解
    ✅作者简介:热爱科研的Matlab仿真开发者,修心和技术同步精进,matlab项目合作可私信。......