首页 > 其他分享 >物联网数据处理-iris数据集(鸢尾花)

物联网数据处理-iris数据集(鸢尾花)

时间:2024-12-24 20:10:02浏览次数:3  
标签:iris 特征 回归 样本 线性 数据处理 鸢尾花 数据 决策树

物联网数据处理-iris数据集(鸢尾花)

大作业题目

读入 iris.txt 里的鸢尾花数据,不考虑标签信息(标签是用来监督学习用的,这里是无监督),利用 PCA(减少噪声,利于可视化) 将数据从 4 维降成 2 维

之后,进行以下操作

  1. 利用不同的方式构建邻接矩阵(高斯核,k-临近等)(将数据转成关系图,可以告诉我们那些点距离近,那些点距离远。就是用数据表示点的关系)(便于使用图论方法),利用谱聚类(基于图论的特征算法,本质把数据转换成一个图,根据图来分类)算法进行聚类,分别与正确标签进行对比,求出各自的准确度(聚类结果后与正确标签对比)或错误率。(可以衡量算法是否能很好的)

  2. 依据已知标签(监督学习),对生成的 2 维数据上,利用决策树方法进行判别,随机生成 3 个新的 4维数据,对其类别进行判定。(验证降维后的二维数据是否保留了有用的信息,有没有破坏原有信息)

  3. 依据已知标签(监督学习),对生成的 2 维数据进行加上 ridge 约束后的线性回归,求出各自的参数。(为了弥补降维数据的不足,提高分类性能)(提高泛化能力)

  4. 删除某些异常点能够使 3 中的数据的回归方差减少最多,设计这种删除规则,对这个原则进行解释和必要的推导,并编程实现。(注:尽量少地删除点)

基础知识

机器学习基本概念——特征、标签

特征是输入变量,即简单线性回归中的变量,如鸢尾花数据集中的花萼长度、花萼宽度、花瓣长度、花瓣宽度,可以将这四个特征指定为。

标签是我们要预测的事物,即简单线性回归中的变量,如鸢尾花数据集中的鸢尾花的种类。

所以本次我们要研究的鸢尾花数据集包含了四个特征,一个标签。

0.PAC降维:(减少噪声,利于可视化)

pac也叫主成分分析。啥是主成分,简单来说就是pac自己瞎琢磨弄出来的主成分,比如iris数据集有4个变量(特性),对这4个变量进行分析,找到有相关性的,把他们组合处理变成2个变量,这搞出来的2个变量就叫主成分1和主成分2。

PCA 是一种降维技术,它可以帮助我们从高维数据中提取最重要的信息

为什么要降维呢

标签:iris,特征,回归,样本,线性,数据处理,鸢尾花,数据,决策树
From: https://www.cnblogs.com/lsq0322/p/18608318

相关文章

  • 在 .NET Core 中使用 ActionBlock 实现高效率的多步骤数据处理
    目录一、引言二、ActionBlock介绍什么是ActionBlock?ActionBlock的特点ActionBlock的使用场景ActionBlock的基本用法三、假设场景四、解决方案一、引言上一篇博客分享了使用Channel来实现针对大量数据的多线程异步处理,感谢大哥们在评论中提出的宝贵的问题和建议!本篇将分享......
  • 【ALGC】探秘 ALGC—— 卓越数据处理能力的科技瑰宝
    我的个人主页我的领域:人工智能篇,希望能帮助到大家!!!......
  • 大数据技术与应用——大数据处理技术(一)(山东省大数据职称考试)
      大数据分析应用-初级第一部分基础知识    一、大数据法律法规、政策文件、相关标准    二、计算机基础知识    三、信息化基础知识    四、密码学    五、大数据安全    六、数据库系统    七、数据仓库.第二......
  • polars:数据处理的新一代王者
    大家好呀!今天我要给大家介绍一个超级强大的数据处理库——polars。如果说pandas是数据处理界的老大哥,那polars就是新生代的实力派选手。它不仅速度快得惊人,内存占用还特别小,而且API设计得相当优雅。对于处理大规模数据集,polars简直就是一把利器!让我们一起来探索这个让数据分......
  • AI开发:支持向量机(SVM)鸢尾花模型入门教程- Python 机器学习
    最近接触了一些数据分析的任务,越来越多地听到支持向量机(SVM),之前我们也一起学习过 AI开发:支持向量机(SVM)入门教程-Python机器学习今天我们再由浅入深的地来重温和学习这个AI算法,以便我们进一步掌握如何熟悉和使用这一AI大杀器。SVM用在哪里 --文本分类垃圾邮件过滤:通......
  • 基因组之单倍型基因组数据处理(二)
    基因组之单倍型基因组数据处理(二)那么,今天让我们来看第二期,关于对于下机后的数据的处理,使其能够符合我们的分析要求,让我们的分析能够进入下一步的组装。1.Smrtlink12简介:PacBio开发的处理HiFi测序数据的open-source工具;基于网页的端对端工作流程管理,也可以用linuxco......
  • 物理服务器在大数据处理中的具体优势
    物理服务器在大数据处理中展现出多方面的优势,这些优势使得物理服务器成为处理大数据任务的重要选择。以下是物理服务器在大数据处理中的具体优势:一、性能稳定与高效物理服务器具有独立的硬件资源,包括高性能的处理器、大容量内存和高速存储设备,能够提供稳定的性能输出。在大数......
  • 大数据学习从 Python 基础起步,历经多技术栈、项目实战,掌握数据处理能力
    Python基础编程主要内容:涵盖Python基础语法、数据处理、函数、文件读写、异常处理、模块和包等方面。核心能力:掌握Python开发环境配置,运算符、表达式等基础使用,字符串操作,初步建立面向对象编程思维,熟悉异常捕获及类和对象的基本使用。Python编程进阶主要内容:包含面向对象、......
  • HarmonyOS Next模型轻量化中的数据处理优化
    本文旨在深入探讨华为鸿蒙HarmonyOSNext系统(截止目前API12)中模型轻量化相关的数据处理优化技术细节,基于实际开发实践进行总结。主要作为技术分享与交流载体,难免错漏,欢迎各位同仁提出宝贵意见和问题,以便共同进步。本文为原创内容,任何形式的转载必须注明出处及原作者。一、数据......
  • 【数据处理】re 正则表达式
    【re.compile】 是Python中 re(正则表达式)模块的一个函数,它用于将一个字符串形式的正则表达式编译成一个Pattern对象。这样做的好处是可以提高正则表达式的匹配效率,尤其是当你需要多次使用同一个正则表达式时。当你调用 re.compile 时,你传递一个字符串作为参数,这个字符串......