首页 > 其他分享 >数据挖掘与机器学习(DM&ML)(PART3)

数据挖掘与机器学习(DM&ML)(PART3)

时间:2024-09-26 13:47:48浏览次数:3  
标签:线图 DM ML 可以 序列 数据挖掘 百分位 数据 属性

三.DATA(What is data ?)

1.1 数据集的类型:

  • 记录型:
    • 数据矩阵:以矩阵形式呈现的数据集合,通常行代表对象(记录、实例等),列代表属性。例如,一个包含学生信息的数据集,行可以是不同的学生,列可以是学生的姓名、年龄、成绩等属性。
    • 文档数据:由文档组成的数据集,每个文档可以是一篇文章、一份报告、一个网页等。文档数据通常需要进行文本处理和分析,以提取有用的信息。
    • 交易数据:记录交易信息的数据集合,例如购物记录、银行交易记录等。交易数据通常包含交易时间、交易金额、交易物品等属性。
  • 图形型:
    • 万维网:由网页和链接组成的巨大网络,可以看作是一种图形数据结构。网页是节点,链接是边。对万维网的分析可以帮助我们了解信息传播、网站排名等问题。
    • 分子结构:表示分子中原子之间连接关系的图形数据。分子结构数据对于化学、生物学等领域的研究非常重要,可以帮助我们理解分子的性质和功能。
  • 有序型:
    • 空间数据:与空间位置相关的数据,例如地图上的点、线、面等。空间数据可以用于地理信息系统、导航等应用。
    • 时间数据:与时间相关的数据,例如时间序列数据、事件发生的时间顺序等。时间数据对于分析趋势、预测未来等任务非常重要。
    • 序列数据:具有先后顺序的数据,例如文本中的单词序列、DNA 序列等。序列数据的分析可以帮助我们发现模式和规律。
    • 基因序列数据:记录生物基因信息的数据,是一种特殊的序列数据。基因序列数据对于生物学研究、疾病诊断等领域具有重要意义。

1.2 Graph Data

Examples:  Representation of HTML Links & Social Networks

1.3 DATA QUALITY

丢失数据、噪声数据、重复数据(不一定都不好有时是人为设置):可以在数据输入阶段进行数据验证,确保输入的数据是唯一的。可以使用数据库的约束条件或应用程序的验证逻辑来防止重复数据的输入

p.s. 数据挖掘的操作过程步骤会有很多经验性的,关于数据智能与人的交互。

1.4. 箱线图box plots:箱线图可以直观地展示数据的分布情况,包括中位数、四分位数、上下限等信息。通过箱线图可以快速发现数据中的异常值、偏态分布等问题。

如果数据集中存在异常值,箱线图中的 whiskers(箱线图的上下须)会相应地变长,并且可能会有一些数据点超出 whiskers 的范围。此外,如果数据呈现偏态分布,箱线图的箱体和 whiskers 的形状也会有所不同。

 1.5. How to detect data problem :

频率和众数: 某个属性值的频率是该值在数据集中出现的百分比。例如,对于属性“性别”以及具有代表性的人群,“女性”这个性别大约出现 50%的时间。 

一个属性的众数是出现最频繁的属性值。  频率和众数的概念通常用于分类数据。

1.6.百分位数: 对于连续数据,百分位数的概念更为有用。给定一个有序或连续属性\(x\)以及一个介于 0 到 100 之间的数字p,第p百分位数是一个x的值,使得x的观测值中有p%小于这个值。 例如,第 50 百分位数是这样一个值,使得所有x的值中有 50%小于X50%。

标签:线图,DM,ML,可以,序列,数据挖掘,百分位,数据,属性
From: https://blog.csdn.net/m0_74400863/article/details/142490784

相关文章

  • HTML与CSS二三事
    概述HTML是英文HyperTextMark-upLanguage(超文本标记语言)的缩写,他是一种制作万维网页面标准语言(标记)。相当于定义统一的一套规则,大家都来遵守他,这样就可以让浏览器根据标记语言的规则去解释它。浏览器负责将标签翻译成用户“看得懂”的格式,呈现给用户!如下图:HTML页面主体格式如......
  • HTML·第3章 表格布局与表单交互
    3.1表格概述3.1.1表格的结构表格是由行和列组成的二维表,而每行又由一个或多个单元格组成,用于放置数据或其他内容。表格中的单元格是行与列的交叉部分,是组成表格的最基本单元。单元格的内容是数据,也称数据单元格。数据单元格可以包含文本、图片、列表、段落、表单、水平线......
  • vue3-vben-admin开发记录、知识点
    vue3-vben-admin知识点一、vue3写法1、生命周期setup-组件在创建时onMounted-挂载在dom时运行onUpdated-响应数据修改时运行2、reactive定义:接收一个普通对象然后返回该普通对象的响应式代理。等同于2.x的Vue.observable()定义一个全局常量letotherParam=r......
  • 速成html(一)
    只有6个标签可以放到<head><head\>里面,分别是title,meta,link,style,script,base.重点掌握这两个就差不多。title:定义页面开头,页面地址栏meta:定义特殊信息,关键字,name:属性取值(keywords:页面关键字,description:网页描述,author:网页作者,copyright:版权信息)。编码方式要放在......
  • HTML·第二章习题
    用嵌套的列表制作“心语花店”导航栏<!DOCTYPEhtml><html><head><metacharset="UTF-8"><title>心语花店导航栏</title></head><body><h1>心语花店导航栏</h1><ul><h2>全部商品导航</h2> ......
  • 全新的威胁即将来临!《冰汽时代2》3DM风灵月影二十六项修改器使用方法及功能介绍
    在《冰汽时代2》中,3DM风灵月影二十六项修改器的使用方法及功能介绍备受关注。它的操作并非简单直接,需了解细则。功能涵盖资源、建筑、生存等多方面。掌握其使用和功能,能为您的游戏进程带来极大便利。本篇将为大家带来《冰汽时代2》3DM风灵月影二十六项修改器使用方法及功能介绍......
  • 查询YOLO标签共有几类。针对文件夹中所有的xml文件,查询一下xml文件中object下的name共
    importosimportxml.etree.ElementTreeasETdefcount_object_names(folder_path):#存放不同name的集合names_set=set()#遍历文件夹中的所有文件forfilenameinos.listdir(folder_path):iffilename.endswith('.xml'):#确保处理......
  • 【C#】文件读取 -- .xml文件读取
    .xml文件读取与写入[实现效果][实现编程]///<summary>///创建xml配置///</summary>///<paramname="path">path,如:x:\\xxxx\\xxx.xml</param>privatevoidcreateXmlText(stringpath){if(string.IsNullOrEmpty(path))return......
  • springboot 工程中 SpringApplication.run方法 可以指定加载"applicationContext.xml"
    在SpringBoot应用程序中,SpringApplication.run()方法默认使用自动配置和基于Java的配置(如使用@Configuration注解的类),而不是传统的XML配置文件(如applicationContext.xml)。SpringBoot的设计理念之一就是简化配置,鼓励使用注解和Java配置来代替XML配置。然而,如果你......
  • SelMatch:最新数据集蒸馏,仅用5%训练数据也是可以的 | ICML'24v1
    数据集蒸馏旨在从大型数据集中合成每类(IPC)少量图像,以在最小性能损失的情况下近似完整数据集训练。尽管在非常小的IPC范围内有效,但随着IPC增加,许多蒸馏方法变得不太有效甚至性能不如随机样本选择。论文对各种IPC范围下的最先进的基于轨迹匹配的蒸馏方法进行了研究,发现这些方法在增......