物联网数据处理-iris数据集(鸢尾花)
大作业题目
读入 iris.txt 里的鸢尾花数据,不考虑标签信息(标签是用来监督学习用的,这里是无监督),利用 PCA(减少噪声,利于可视化) 将数据从 4 维降成 2 维
之后,进行以下操作:
利用不同的方式构建邻接矩阵(高斯核,k-临近等)(将数据转成关系图,可以告诉我们那些点距离近,那些点距离远。就是用数据表示点的关系)(便于使用图论方法),利用谱聚类(基于图论的特征算法,本质把数据转换成一个图,根据图来分类)算法进行聚类,分别与正确标签进行对比,求出各自的准确度(聚类结果后与正确标签对比)或错误率。(可以衡量算法是否能很好的)
依据已知标签(监督学习),对生成的 2 维数据上,利用决策树方法进行判别,随机生成 3 个新的 4维数据,对其类别进行判定。(验证降维后的二维数据是否保留了有用的信息,有没有破坏原有信息)
依据已知标签(监督学习),对生成的 2 维数据进行加上 ridge 约束后的线性回归,求出各自的参数。(为了弥补降维数据的不足,提高分类性能)(提高泛化能力)
删除某些异常点能够使 3 中的数据的回归方差减少最多,设计这种删除规则,对这个原则进行解释和必要的推导,并编程实现。(注:尽量少地删除点)
基础知识
机器学习基本概念——特征、标签
特征是输入变量,即简单线性回归中的变量,如鸢尾花数据集中的花萼长度、花萼宽度、花瓣长度、花瓣宽度,可以将这四个特征指定为。
标签是我们要预测的事物,即简单线性回归中的变量,如鸢尾花数据集中的鸢尾花的种类。
所以本次我们要研究的鸢尾花数据集包含了四个特征,一个标签。
0.PAC降维:(减少噪声,利于可视化)
pac也叫主成分分析。啥是主成分,简单来说就是pac自己瞎琢磨弄出来的主成分,比如iris数据集有4个变量(特性),对这4个变量进行分析,找到有相关性的,把他们组合处理变成2个变量,这搞出来的2个变量就叫主成分1和主成分2。
PCA 是一种降维技术,它可以帮助我们从高维数据中提取最重要的信息