聚类算法

KMeans

Kmeans算法，也被称为K-平均或K-均值，是一种得到最广泛使用的聚类算法，主要思想是：首先将各个聚类子集内的所有数据样本的均值作为该聚类的代表点，然后把每个数据点划分到最近的类别中，使得评价聚类性能的准则函数达到最优，从而使同一个类中的对象相似度比较高，而不同类之间的对象的相似度较小

算法优点：理论清晰，算法简单，算法收敛速度很快，仅需20次以内的迭代就能得出最终聚类结果，适用于发现球形聚类簇

算法缺点：算法结果依赖初始中心的选取，如果算法初值选取不当，会陷入局部最优解，不能发现非球形聚类簇，不能发现差别很大的类，对噪声和孤立点很敏感

EM

最大期望算法是在概率模型中寻找参数最大似然估计的算法，其中概率模型依赖于无法观测的隐藏变量。最大期望经常用在机器学习和计算机视觉数据聚类领域，最大期望算法经过两个步骤交替计算，第一步是计算期望，利用对隐藏变量的现有估计值，计算最大似然估计值，第二步最大化，最大化在计算期望上求得的最大似然值计算参数的值，最大化上找的参数估计值被用于下一个计算期望的步骤中，两个步骤交替进行。

算法优点：最大期望算法计算结构稳定，准确，算法可以给出每一类样本被分配到每一个类的概率，丰富的信息量要比简单的结果好的多，可以把这个结果转化为一个得分，表示模型对结果的把握，最后我们选取把握最大的模型

算法缺点：计算复杂收敛较慢，不适合大规模数据和高维数据，在迭代中如果某类样本特别少会导致协方差矩阵奇异，容易陷入局部最优，对孤立点敏感，有噪音效果差

标签：期望,最大,常见,估计值,算法,计算,聚类
From： https://www.cnblogs.com/tgfoven/p/17157183.html

社招前端常见react面试题（必备）
解释React中render()的目的。每个React组件强制要求必须有一个render()。它返回一个React元素，是原生DOM组件的表示。如果需要渲染多个HTML元素，则必须将它们组......
衡量算法的性能-时空复杂度分析
算法即存在输入输出,由有限步骤结束的程序.因此,显而易见,算法并不是指一个单一的标准答案,而是一切能够完成要求的程序都可以称之为算法.但是算法之间根据性能的不同存......
快速阶乘算法
快速阶乘。这个都不会我怕不是废了。首先看阶乘的形式可以变成一堆形如\[g(x)=\prod_{i=1}^v(x+i)\]的多项式的点值乘积。于是\(v=\lfloor\sqrtn\rfloor\)，那么我们就......
数据结构与算法【基础版】：4.10 线索二叉树的概述
线索二叉树有：前序线索化二叉树，中序线索化二叉树，后序线索化二叉树概述起因：无法知道二叉树中某一个叶子节点的前一个值是什么，也不能知道后一个是什么值最后一行的叶子节点存......
数据结构与算法【基础版】：4.9 常用排序算法之堆排序（属于选择排序）【简单选择排序在3.6
堆排序大顶堆：父节点始终大于任意子节点小顶堆：任意一个子节点都比父节点大思路：先找到最后一个非叶子节点，即最后一个节点的父节点和他的左右节点比较，左右节点大的情况和父节点......
数据结构与算法【基础版】：4.7顺序存储的二叉树概述
顺序存储的二叉树注：顺序存储的二叉树通常情况【只考虑完全二叉树】顺序存储二叉树的性质第n个元素的左子节点是：2*n+1第n个元素的右子节点是：2*n+2......
数据结构与算法【基础版】：3.1算法的时间复杂度和空间复杂度的概述
如何衡量一个算法的优劣？一、事后统计的方法让算法先在电脑上跑一下，整一个计时器来算一下执行一次运行了多长时间。缺点：同一台电脑，在运行同一个程序，执行同一个任务的时候，占......
数据结构与算法【基础版】：3.5排序算法之希尔排序（属于插入排序）
3.5排序算法之希尔排序（属于插入排序）思路：第一轮1.先用数组长度/2等于一个值，该值就是区间的步长(做为比较)9/2=42.让每个部分都做一个插入排序第一部分的比较：后续部分一样......
数据结构与算法
栈用python实现栈方法一：classStack:def__init__(self):self.items=[]defisEmpty(self):returnself.items==[]defpush(s......
【数据结构-排序】快速排序的非递归算法
参考此文章：《非递归算法——快速排序、归并排序》算法原理图：算法代码：#include<stdio.h>#include<stack>usingnamespacestd;//记录区间左右两端索引值typede......

常见聚类算法

聚类算法

KMeans

EM

相关文章

赞助商

阅读排行