三.DATA(What is data ?)
1.1 数据集的类型:
- 记录型:
- 数据矩阵:以矩阵形式呈现的数据集合,通常行代表对象(记录、实例等),列代表属性。例如,一个包含学生信息的数据集,行可以是不同的学生,列可以是学生的姓名、年龄、成绩等属性。
- 文档数据:由文档组成的数据集,每个文档可以是一篇文章、一份报告、一个网页等。文档数据通常需要进行文本处理和分析,以提取有用的信息。
- 交易数据:记录交易信息的数据集合,例如购物记录、银行交易记录等。交易数据通常包含交易时间、交易金额、交易物品等属性。
- 图形型:
- 万维网:由网页和链接组成的巨大网络,可以看作是一种图形数据结构。网页是节点,链接是边。对万维网的分析可以帮助我们了解信息传播、网站排名等问题。
- 分子结构:表示分子中原子之间连接关系的图形数据。分子结构数据对于化学、生物学等领域的研究非常重要,可以帮助我们理解分子的性质和功能。
- 有序型:
- 空间数据:与空间位置相关的数据,例如地图上的点、线、面等。空间数据可以用于地理信息系统、导航等应用。
- 时间数据:与时间相关的数据,例如时间序列数据、事件发生的时间顺序等。时间数据对于分析趋势、预测未来等任务非常重要。
- 序列数据:具有先后顺序的数据,例如文本中的单词序列、DNA 序列等。序列数据的分析可以帮助我们发现模式和规律。
- 基因序列数据:记录生物基因信息的数据,是一种特殊的序列数据。基因序列数据对于生物学研究、疾病诊断等领域具有重要意义。
1.2 Graph Data
Examples: Representation of HTML Links & Social Networks
1.3 DATA QUALITY
丢失数据、噪声数据、重复数据(不一定都不好有时是人为设置):可以在数据输入阶段进行数据验证,确保输入的数据是唯一的。可以使用数据库的约束条件或应用程序的验证逻辑来防止重复数据的输入
p.s. 数据挖掘的操作过程步骤会有很多经验性的,关于数据智能与人的交互。
1.4. 箱线图box plots:箱线图可以直观地展示数据的分布情况,包括中位数、四分位数、上下限等信息。通过箱线图可以快速发现数据中的异常值、偏态分布等问题。
如果数据集中存在异常值,箱线图中的 whiskers(箱线图的上下须)会相应地变长,并且可能会有一些数据点超出 whiskers 的范围。此外,如果数据呈现偏态分布,箱线图的箱体和 whiskers 的形状也会有所不同。
1.5. How to detect data problem :
频率和众数: 某个属性值的频率是该值在数据集中出现的百分比。例如,对于属性“性别”以及具有代表性的人群,“女性”这个性别大约出现 50%的时间。
一个属性的众数是出现最频繁的属性值。 频率和众数的概念通常用于分类数据。
1.6.百分位数: 对于连续数据,百分位数的概念更为有用。给定一个有序或连续属性\(x\)以及一个介于 0 到 100 之间的数字p,第p百分位数是一个x的值,使得x的观测值中有p%小于这个值。 例如,第 50 百分位数是这样一个值,使得所有x的值中有 50%小于X50%。
标签:线图,DM,ML,可以,序列,数据挖掘,百分位,数据,属性 From: https://blog.csdn.net/m0_74400863/article/details/142490784