聚类分析（文末送书）

时间：2023-06-17 21:04:44浏览次数：41

标签：medoids 送书数据 means 算法聚类文末聚类分析

聚类分析是什么

一、定义和数据类型

聚类应用

聚类分析方法的性能指标

聚类分析中常用数据结构有数据矩阵和相异度矩阵

聚类分析方法分类

二、K-means聚类算法

划分聚类方法对数据集进行聚类时包含三个要点

K-Means算法流程:

K-means聚类算法的特点

三、k-medoids算法

基本思想

K-medoids算法特点

四、送书活动

五、抽奖规则

聚类分析是什么

聚类分析是一种寻找数据之间内在结构的技术，将数据对象的集合分组为由类似的对象组成的多个类的分析过程。聚类把全体数据实例组织成一些相似组，而这些相似组被称作簇。处于相同簇中的数据实例彼此相同，处于不同簇中的实例彼此不同。聚类技术通常又被称为无监督学习，与监督学习不同的是，在簇中那些表示数据类别的分类或者分组信息是没有的。

一、定义和数据类型

聚类应用

市场营销: 帮助营销人员帮他们发现顾客中独特的群组，然后利用他们的知识发展目标营销项目
土地利用: 在土地观测数据库中发现相似的区域
保险: 识别平均索赔额度较高的机动车辆保险客户群组
城市规划: 通过房屋的类型、价值、地理位置识别相近的住房
地震研究: 沿着大陆断层聚类地震的震中

聚类分析方法的性能指标

可扩展性
自适应性
鲁棒性
可解释性

聚类分析中常用数据结构有数据矩阵和相异度矩阵

聚类分析（文末送书）_数据挖掘

聚类分析（文末送书）_人工智能_02

聚类分析方法分类

基于划分、基于分层、基于密度、基于网络、基于模型

二、K-means聚类算法

划分聚类方法对数据集进行聚类时包含三个要点

选定某种距离作为数据样本间的相似性度量
选择评价聚类性能的准则函数
选择某个初始分类，之后用迭代的方法得到聚类结果，使得评价聚类的准则函数取得最优值

标准测试函数：

聚类分析（文末送书）_数据集_03

均值：

聚类分析（文末送书）_数据集_04

K-Means算法流程:

输入:包含n个对象的数据集聚类个数k，最小误差e
输出:满足方差最小标准的k个聚类
①从n个数据对象中随机选出k个对象作为初始聚类的中心
②将每个类簇中的平均值作为度量基准，重新分配数据库中的
数据对象
③计算每个类簇的平均值，更新平均值
④循环(2)(3)，直到每个类簇不在发生变化或者平均误差小于e

K-means聚类算法的特点

优点
简单、快速
算法尝试找出使平方误差函数值最小的k个划分据集
对处理大数据集，该算法是相对可伸缩的和高效率的
缺点
不适合于发现非凸面形状的簇，或者大小差别很大的簇
要求用户必须事先给出要生成的簇的数目K
对于“噪声”和孤立点数据敏感
对初值敏感

三、k-medoids算法

基本思想

k-medoids算法是一种聚类算法，与k-means算法相似，但它选择的中心点是簇中实际的数据点，而不是像k-means那样选择簇中心点的均值。

其基本思想是，给定一个数据集和聚类数k，随机选择k个点作为初始中心点，然后迭代以下两个步骤直到收敛：

1. 对于每个数据点，计算其与各中心点的距离，并将其划分到距离最近的簇中。

2. 对于每个簇，选择一个代表点（即中心点）来替换原来的中心点，使得代表点到簇中其他点的距离之和最小。

这个过程是一种优化过程，每次迭代会使得簇内的样本距离代表点更近，而簇间的距离更远，最终达到收敛。

与k-means算法不同，k-medoids算法不是适用于高维数据集，因为在高维空间中，欧几里得距离的性质会失效，需要使用更加复杂的距离度量方式。

K-medoids算法特点

优点：
1. 鲁棒性强：K-medoids算法采用一组代表性点（medoids）代表聚类簇，因此在数据噪声较大或者存在离群点的情况下，比k-means更加鲁棒。
2. 可解释性好：由于medoids是实际存在于数据集中的点，所以聚类结果更容易被理解和解释。
3. 适用于非凸数据集：相比k-means算法只适用于凸数据集，K-medoids算法可以处理非凸数据集的聚类问题。
缺点：
1. 运算速度慢：由于K-medoids算法需要计算每个点到medoid的距离，因此计算复杂度较高，时间复杂度为O(K*N^2)，其中K为聚类簇数，N为数据点数。
2. 对初始值敏感：K-medoids算法的聚类结果取决于初始medoid的选择，因此需要多次随机初始化来获得更好的聚类结果。
3. 不适用于大数据分析：由于计算复杂度较高，K-medoids算法不适合处理大数据集。

标签：medoids,送书,数据,means,算法,聚类,文末,聚类分析
From： https://blog.51cto.com/hwuu/6506205

K-Means聚类分析-有标签
模型亮点初始测试集上评分为0.51，调参后测试集上评分为0.75数据集由sklearn自带-----------------------------------------以下为模型具体实现-----------------------------------------Step1.数据读取fromsklearn.datasetsimportload_irisiris=load_iris()x=iris.d......
R语言上市公司经营绩效实证研究 ——因子分析、聚类分析、正态性检验、信度检验
全文链接：http://tecdat.cn/?p=32747原文出处：拓端数据部落公众号随着我国经济的快速发展，上市公司的经营绩效成为了一个备受关注的话题。本文旨在探讨上市公司经营绩效的相关因素，并运用数据处理、图示、检验和分析等方法进行深入研究，帮助客户对我国45家上市公司的16项财务指标进行......
mybatis-plus是什么框架，使用起来简单吗？文末有彩蛋
mybatis框架我们都熟悉了，是用来操作数据库的属于ORM框架。mybatis-plus是什么框架，看名称和手机似的，带有plus一定是加强版，其官网是：MyBatis-Plus(baomidou.com)开始mybatis-plus的实践吧。一、环境及依赖这里，基于springboot集成mybatis-plus。先看下具体的版本，springboot：2.3.3......
卷积神经网络-全面图解-带你了解前向后向传播的所有细节(文末代码)
卷积神经网络-全面图解-带你了解前向后向传播的所有细节综述本文将会从基础的前馈神经网络入手，通过bp神经网络，引出卷积神经网络，并把专门的重点放在如何理解和实现卷积神经网络的卷积层、下采样层、全连接层、以及最终的softmax的反向传播的理解。最后实现基于python的车标识别6分类......
技术人如何写简历？(文末有福利）
前言笔者在滴滴、阿里和字节时候也面试了不少人，看过形形色色的简历没有上百也有大几十份了。校招季也快到了，这里总结自身经验聊一下技术人的简历如何去写面试官是怎么样从一份简历去开展后续的面试简历的作用简历是你向一家公司求职的“敲门砖”，决定着给面试官带来的第一印......
办公位2.0，用SVG实现Chrome浏览器图标，文末有近半年经验总结
功能拆解很多图形的实现并不困难，我之前的文章也实现过各式各样的图形。基本是CSS里的样式约熟悉，图形实现的越快速、越相似。还有一些需要SVG或Canvas实现的图形，这就需要这两项技术的基本功扎实了。简单图形设计整个画面中有很多图形，有些图形比如画框、太阳、桌腿、便签，无论是形状还......
如何设计接口测试用例？（文末送接口测试用例模板）
接口测试是项目测试的一部分，正如其名，它测试的主要对象是接口，是测试系统组件间接口的一种测试。接口测试主要用于检测外部系统与所测系统之间以及内部各系统之间的交互点。测试的重点是检查数据交互、传递、和控制管理过程以及系统间的相互依赖关系等。如何设计接口测试用例？首先，明......
大语言模型进化树重磅发布，感慨技术方向选择的残酷，文末有彩蛋
文/高扬今天说点有深度的内容。五一假期，学习了一篇论文《HarnessingthePowerofLLMsinPractice:ASurveyonChatGPTandBeyond》。这篇论文来自Amazon以及TexasA&MUniversity研究团队，他们通过追踪近年来语言模型的发展，构建了一个现代大语言模型......
基因共表达聚类分析及可视化
共表达基因的寻找是转录组分析的一个部分，样品多可以使用WGCNA，样品少可直接通过聚类分析如K-means、K-medoids(比K-means更稳定)或Hcluster或设定pearsoncorrelation阈值来选择共表达基因。下面将实战演示K-means、K-medoids聚类操作和常见问题：如何聚类分析，如何确定合适的cluster......
俩小伙一晚上写了个 AI 应用，月入两万？？(文末附开发教程)
开发出一款能够与AI对话生成和编辑思维导图的工具，听起来似乎只能是一群专业的AI背景团队花费大量的时间和精力训练模型，打磨应用才能完成的事情。但是，两名大学生却在一夜之间完成了，就像炼金术士将庸俗的材料转化成黄金一样，他们将代码转化为了神奇的工具，下面我们来一起揭开这个......

聚类分析（文末送书）

聚类分析是什么