针对差分隐私的k-means算法要求在保持聚类可用性的同时保持隐私这一兼顾上的困难,本文提出一种去离群的差分隐私k-means算法。本文根据数据点的“距离”(距离最近的r个相邻数据点的平均直线距离)确定离群点并剔除,根据数据点的“密度”(“距离”的倒数)划分子集,对不同子集进行统计并在统计结果上添加噪声(差分隐私),在噪声统计结果上计算初始中心点,首先对非离群点进行迭代聚类,迭代结束后将离群点放入最近的聚类中。Luo, et al. "Outlier-eliminated k-means clustering algorithm based on differential privacy preservation." Applied Intelligence the International Journal of Artificial Intelligence Neural Networks & Complex Problem Solving Technologies (2016).
本文的优点1聚类时将离群点去除,保证了聚类结果不受离群值带来的负面影响。2聚类完成后根据与中心点的距离,将离群点划入不同的聚类中,保证了整个数据集在聚类上的统一性。
本文存在的问题1差分隐私的粒度是数据子集级,没有到数据点级,在计算子集过程中没有起到保护作用。2差分隐私和离群点去除可以分开,两者没有流程上的紧密联系。
2023年03月22日
标签:Applied,based,means,Intelligence,differential,差分,隐私,离群,聚类 From: https://www.cnblogs.com/FBprivacy/p/17146197.html