爱数科平台是一款数据科学科研和教学一体化平台,集成数十行业数千数据集、科研案例模板。帮助科研人员快速使用大数据和人工智能技术开展研究。支持高校开展大数据通识课程教学。帮助非专业人员进行数据分析和生成数据分析报告。
本案例根据每种汽车的参数,利用K-Means聚类算法来进行聚类,识别出相似的汽车。
1. 读数据表
首先,我们读取原始数据。
2. Z-Score标准化
对连续变量mpg,displacement,horsepower,weight,acceleration使用Z-score标准化。
3. 对类别变量进行哑变量编码
对类别变量cylinders,year,origin进行哑变量编码。
4. K-Means聚类
最后我们使用K-Means进行聚类。
5. 柱状图
画出聚类后每个簇样本数的柱状图。
6. 无监督聚类评估
最后进行模型评估,输出Calinski-Harabasz指数、Davies-Bouldin指数和轮廓系数。