随机特征映射基本思想
简介
随机特征映射(Random Feature Mapping)是一种将高维输入数据映射到低维特征空间的技术。它最初是在2007年由Rahimi和Recht提出的。以下是随机特征映射发展历程中的一些关键里程碑和理论方面:
-
随机傅里叶特征映射(Random Fourier Feature Mapping):最早的随机特征映射技术,由Rahimi和Recht在2007年提出。它使用傅里叶变换将输入数据映射到一个高维的特征空间,但使用了一些随机技巧以降低计算复杂度。
-
随机核特征映射(Random Kernel Feature Mapping):由Lopez-Paz和Oquab在2016年提出。该方法通过随机映射将核函数的计算转换为内积的计算,从而降低了计算复杂度。它还提供了一种通用的方法,可以将各种核函数映射到低维特征空间。
-
随机局部线性嵌入(Random Locality Preserving Embedding):由He等人在2003年提出。该方法将输入数据映射到一个低维特征空间,并保留数据之间的局部距离。它主要应用于图像降维和图像分类等领域。
-
随机投影(Random Projection):最早的降维技术之一,由Johnson和Lindenstrauss在1984年提出。该方法使用随机投影将高维数据映射到低维空间,从而减少计算复杂度。它还被广泛应用于数据压缩和降噪等领域。
随机特征映射的发展历史比较丰富,涵盖了很多不同的理论和应用方面。其中,随机傅里叶特征映射是最早和最经典的技术之一,而随机核特征映射则是一种通用且高效的降维方法。此外,随机局部线性嵌入和随机投影也各具特色,被广泛应用于不同的领域。
随机傅里叶特征映射(Random Fourier Feature Mapping)的基本理论
随机傅里叶特征映射是一种将高维输入数据映射到低维特征空间的技术,它最早由Rahimi和Recht在2007年提出。它的基本理论是将输入数据映射到一个高维的特征空间,该特征空间由随机傅里叶函数构成。具体来说,随机傅里叶特征映射的基本理论包括以下几个方面:
- 傅里叶变换:傅里叶变换是一种将信号从时域转换到频域的技术。对于一个连续时间信号 f ( t ) f(t) f(t),它的傅里叶变换为 F ( ω ) F(\omega) F(ω),其中 ω \omega ω表示频率。在离散化的情况下,傅里叶变换可以写成以下形式:
其中,
f
n
f_n
fn表示输入数据中的第
n
n
n个样本,
N
N
N表示数据集的大小,
k
k
k表示一个频率系数,
i
i
i表示虚数单位。
- 随机傅里叶函数:随机傅里叶特征映射使用随机傅里叶函数来近似实际的傅里叶变换。随机傅里叶函数可以写成以下形式:
其中,
x
x
x表示输入数据,
w
k
w_k
wk和
b
k
b_k
bk是随机生成的参数,
D
D
D表示特征空间的维度。可以看出,随机傅里叶函数是一种对输入数据进行线性变换的方式,将输入数据从原始空间映射到特征空间。
- 内积近似:由于随机傅里叶函数是线性的,因此可以通过内积来计算特征空间中两个样本之间的距离。具体来说,对于两个样本 x i x_i xi和 x j x_j xj,它们在特征空间中的内积可以表示为:
可以看出,随机傅里叶特征映射使用随机傅里叶函数来近似实际的傅里叶变换,并通过内积来计算特征空间中两个样本之间的距离,从而实现了对高维数据的降维。
随机核特征映射(Random Kernel Feature Mapping)基本理论
随机核特征映射(Random Kernel Feature Mapping)是一种将高维输入数据映射到低维特征空间的技术,它使用随机映射函数来近似实际的核函数。随机核特征映射最早由Rahimi和Recht在2008年提出。其基本理论如下:
- 核函数:核函数是一种将输入数据从原始空间映射到特征空间的技术。常见的核函数包括线性核、多项式核和高斯核等。其中,高斯核是一种常用的核函数,可以写成以下形式:
其中,
x
x
x和
y
y
y表示输入数据中的两个样本,
∣
x
−
y
∣
|x-y|
∣x−y∣表示它们之间的欧几里得距离,
σ
\sigma
σ是一个控制高斯核函数形状的参数。
- 随机映射函数:随机核特征映射使用随机映射函数来近似实际的核函数。随机映射函数可以写成以下形式:
其中,
x
x
x表示输入数据,
w
w
w和
b
b
b是随机生成的参数,
D
D
D表示特征空间的维度。可以看出,随机映射函数是一种对输入数据进行线性变换的方式,将输入数据从原始空间映射到特征空间。
- 内积近似:由于随机映射函数是线性的,因此可以通过内积来计算特征空间中两个样本之间的距离。具体来说,对于两个样本 x i x_i xi和 x j x_j xj,它们在特征空间中的内积可以表示为:
随机核特征映射使用随机映射函数来近似实际的核函数,并通过内积来计算特征空间中两个样本之间的距离,从而实现了对高维数据的降维。与随机傅里叶特征映射类似,随机核特征映射也是一种将高维输入数据映射到低维特征空间的技术。
随机局部线性嵌入(Random Locality Preserving Embedding)的基本理论
随机局部线性嵌入(Random Locality Preserving Embedding, RLLE)是一种基于局部线性嵌入(Locality Preserving Embedding, LLE)的随机算法,用于将高维数据嵌入到低维空间中。它最早由Zhang等人于2008年提出。其基本理论如下:
-
局部线性嵌入(LLE):LLE是一种流行的非线性降维算法,它的基本思想是在保持局部关系不变的前提下,将高维数据映射到低维空间中。LLE的主要步骤包括:(1)计算每个样本点的k近邻;(2)根据最近邻的点之间的线性关系计算权重矩阵W;(3)将权重矩阵W用于计算嵌入矩阵Y。
-
随机局部线性嵌入(RLLE):与LLE不同,RLLE使用随机投影来近似LLE中的线性关系。具体来说,RLLE的主要步骤包括:(1)将原始数据随机投影到低维空间中;(2)计算投影后的数据的k近邻;(3)根据最近邻的点之间的线性关系计算权重矩阵W;(4)将权重矩阵W用于计算嵌入矩阵Y。
-
理论基础:RLLE的理论基础是基于概率论和统计学的。具体来说,假设原始数据点 x i x_i xi是由一个低维嵌入空间中的点 y i y_i yi加上一个高维噪声项 ϵ i \epsilon_i ϵi得到的,即 x i = y i + ϵ i x_i=y_i+\epsilon_i xi=yi+ϵi。则RLLE的目标是通过随机投影将噪声项 ϵ i \epsilon_i ϵi投影到一个维度更低的子空间中,从而得到一个近似的低维嵌入 y i y_i yi。根据概率论和统计学的知识,可以证明,在一定的条件下,RLLE可以实现与LLE相似的降维效果。
RLLE是一种基于LLE的随机算法,通过随机投影来近似LLE中的线性关系,从而实现对高维数据的降维。与其他随机算法相比,RLLE具有一定的理论基础,并且可以实现与LLE相似的降维效果。
随机投影(Random Projection)的基本理论
随机投影(Random Projection)是一种常用的降维技术,其基本理论如下:
-
高维空间的子空间:对于一个高维空间中的数据集,它可能存在多个低维子空间,可以通过投影将高维数据映射到这些低维子空间中。因此,投影技术是一种有效的降维方法。
-
随机投影的基本思想:随机投影是一种基于随机矩阵的投影技术,其基本思想是将原始高维数据集投影到一个随机生成的低维子空间中。具体来说,随机投影可以通过生成一个随机矩阵 R ∈ R d × k R\in \mathbb{R}^{d\times k} R∈Rd×k,其中 d d d是原始高维空间的维度, k k k是降维后的低维空间的维度,然后将原始数据集 X ∈ R n × d X\in \mathbb{R}^{n\times d} X∈Rn×d乘以随机矩阵 R R R得到降维后的数据集 Y ∈ R n × k Y\in \mathbb{R}^{n\times k} Y∈Rn×k,即 Y = X × R Y=X\times R Y=X×R。通过随机矩阵的乘法,随机投影将原始数据映射到了一个低维子空间中。
-
随机投影的性质:随机投影具有以下重要性质:(1)随机投影是一种非常高效的降维方法,它可以实现线性时间复杂度;(2)随机投影可以保持数据之间的距离信息,即保持数据在低维空间中的相对位置不变;(3)随机投影可以保持数据之间的内积信息,即可以保持数据之间的相似性不变。
随机投影是一种基于随机矩阵的投影技术,它可以将高维数据集投影到一个随机生成的低维子空间中。随机投影具有高效、保持距离信息和内积信息等重要性质,因此被广泛应用于数据挖掘、机器学习等领域中的降维问题。
标签:映射,特征,Random,投影,随机,傅里叶 From: https://blog.51cto.com/guog/6207029