Spark MLlib 特征工程系列—特征提取LSH(BucketedRandomProjectionLSH)

时间：2024-08-18 09:56:36浏览次数：8

标签：相似 MLlib LSH BucketedRandomProjectionLSH 超平面哈希数据向量

Spark MLlib 特征工程系列—特征提取LSH(BucketedRandomProjectionLSH)

在这篇文章中，我们将深入探讨 Spark 中的 BucketedRandomProjectionLSH，这是一种用于近似最近邻搜索的技术。文章将覆盖其工作原理、应用场景、Scala 代码示例、参数调优以及使用效果分析，确保内容全面、详细且实用，便于理解和应用。

1. 什么是 BucketedRandomProjectionLSH？

BucketedRandomProjectionLSH 是 Spark 中 Locality Sensitive Hashing (LSH) 的一种实现，专门用于基于欧几里得距离的近似最近邻搜索。它通过随机投影将高维数据映射到低维空间，并利用哈希桶对数据进行分组，确保相似的数据点在哈希空间中的距离更近，从而实现快速的相似度搜索。

在大数据环境中，直接计算每个数据点与其他所有点的距离代价极高，而 BucketedRandomProjectionLSH 能够有效降低计算复杂度，是处理大规模高维数据的常用工具。

2. 工作原理

BucketedRandomProjectionLSH 的核心思想是通过随机投影（Random Projection）将高维向量映射到低维空间。具体来说，它将高维向量通过随机生成的超平面进行投影，使得相似的向量仍然在投影后保持相近。然后，它会将这些低维向量划分到不同的哈希桶中，从而将相似的数据点聚集在一起，便于快速查找。

具体步骤如下：

随机生成超平面：生成一个随机向量作为超平面，通过这个超平面对数据进行投影。
数据投影：将高维数据投影到超平面上，得到低维向量。
桶化处理：将低维向量划分到不同的桶中，桶的大小由 bucketLength 参数决定。
相似度搜索：在查询时，只需在与查询点相同的哈希桶内进行搜索，大幅减少了需要比较的数据点数量。

输入数据类型 特征列类型：Vector（通常为密集向量或稀疏向量）

输出数据类型 哈希值列类型：Array<Vector>（哈希后的低维向量）

3. 使用场景

BucketedRandomProjectionLSH 主要应用于以下场景：

近似最近邻搜索（ANN）：在海量数据中快速查找与目标数据点最相似的若干个数据点。
推荐系统：在用户数据中查找相似用户或在商品数据中查找相似商品，用于个性化推荐。
图像检索：在图像数据库中查找与查询图像相似的图片。
文本去重：在大规模文档集合中快速检测相似文档。

4. BucketedRandomProjectionLSH 的代码实现

以下是一个使用 Scala 实现的 BucketedRandomProjectionLSH 示例。

import org.apache.spark.ml.feature.BucketedRandomProjectionLSH
import org.apache.spark.ml.linalg

标签：相似,MLlib,LSH,BucketedRandomProjectionLSH,超平面,哈希,数据,向量
From： https://blog.csdn.net/2401_84052244/article/details/141292310

Spark MLlib 特征工程系列—特征转换Imputer
SparkMLlib特征工程系列—特征转换Imputer什么是ImputerImputer是Spark中用于处理缺失数据的工具。在机器学习数据预处理中，缺失值是常见的问题。Imputer可以填充数值型数据中的缺失值，通过使用指定的策略（如均值、中位数）替换缺失值，从而提高数据质量并确保模型训练时......
Spark MLlib 特征工程系列—特征转换StringIndexer和IndexToString
SparkMLlib特征工程系列—特征转换StringIndexer和IndexToStringStringIndexer是SparkMLlib中的一个特征转换器，用于将类别型（即字符串）特征转换为数值型索引。这个转换器对于处理包含类别型数据的机器学习任务非常有用，因为大多数机器学习算法要求输入的特征是数值型的......
远程终端 FinalShell 下载安装配置
今天给伙伴们分享一下远程终端FinalShell下载安装配置，希望看了有所收获。我是公众号「想吃西红柿」「云原生运维实战派」作者，对云原生运维感兴趣，也保持时刻学习，后续会分享工作中用到的运维技术，在运维的路上得到支持和共同进步！如果伙伴们看了文档觉得有用，欢迎大家关注我......
Spark MLlib 特征工程系列—特征提取 TF-IDF
文章目录SparkMLlib特征工程系列—特征提取TF-IDF分词TokenizerTF实现特征提取HashingTF特征提取CountVectorizer对比CountVectorizer和HashingTF基本原理优缺点对比适用场景IDF模型总结SparkMLlib特征工程系列—特征提取TF-IDFTF-IDF是文本挖掘中广......
Nginx反向代理，代理H5前端，java后端，使用服务器+finalshell+vpn
使用前确认已经安装好nginx，这里我使用的是普通的nginx，注意不是Docker版本的nginx输入nginx-t查询一下，自己的nginxconfig.nginx在那个包下，方便查询使用catnginx.conf命令，进入需要配置的conf中（这个是我使用的server[server{listen82;s......
FinalShell远程连接centos7
一．引言我们在VMware中安装好centos7版本的Linux后，经常需要在虚拟机和真实机之间来回切换，特别是要上传文件到centos7中的时候，很不方便。因此我们可以通过FinalShell软件来远程连接到centos7，FinalShell支持多标签页功能，用户可以同时打开多个连接，并在不同的标签页中切换，提高了工......
Spark MLlib模型—决策树系列算法
文章目录SparkMLlib模型—决策树系列算法决策树系列算法随机森林（RandomForest）GBDT(Gradient-boostedDecisionTrees)总结SparkMLlib模型—决策树系列算法前面我们重点介绍了机器学习中的特征工程，以及SparkMLlib框架支持的特征处理函数。基于线......
使用finallshell连接linux
用户可以去FinalShell的官网上下载，只需点击下载地址，即可轻松下载安装包。傻瓜式安装点击到底。使用双击打开页面，新建连接右击连接，新建》ssh 连接，双击新建的连接，如下界面即连接成功。新建文件夹，右键新建文件夹。新建文件，在文件夹右键新建文件。命令在命令区域正......
Finalshell下载Docker【Linix】
1、卸载旧版本（第一次安装可跳过）yumremovedocker\docker-client\docker-client-latest\docker-common\docker-latest\docker-latest-logrotate\docker-logrotate\docker-engine2、安装yun库yuminstall-yyum-utils3、配置y......
高通dump ftrace & kernelshark使用
简介高通ramdump可以解析出ftrace，方便用于追踪快省稳问题。kernelshark是一个可以查看traceevent的图形化工具，方便梳理和观察内核微观行为。trace-cmd是设置读取ftrace的命令行工具，kernelshark既可以记录数据，也可以图形化分析结果。在/sys/kernel/debug/tracing/......

Spark MLlib 特征工程系列—特征提取LSH(BucketedRandomProjectionLSH)