1.实验要求
利用SQL Server 2012或者Excel 2013(二者选择其一即可)进行数据挖掘实验,采用聚类和时序挖掘模型和算法,可以对附件中给定的excel数据进行聚类和时序挖掘实验,也可以采用自己采集的数据(如采用自选请说明数据来源)。
2.实验环境
操作系统:windows 11;
软件:Excel 2019;SQL Server 2012;SQL Server 2012 Analysis Services;Microsoft Visual Studio 2010;
3.实验步骤
3.1 Excel 2019 聚类与时序挖掘
(一)聚类分析
【步骤一】数据源为 Microsoft内建数据集
为2002至2013年自行车购买的数据集
(Table Analysis Tools Sample),建立聚类模型,点选“数据建模”下的“聚类分析”,开始建立数据挖掘模型,点选“下一步”。
图 1
【步骤二】在“选取源数据”的界面,数据表下选取Excel中欲分析的数据表。
图 2
【步骤三】在选取数据列的步骤时,勾选纳入聚类的变量,由于ID是为客户编码,所以本次分析不将它纳入聚类变量,接着点选‘下一步”。
图 3
【步骤四】选取聚类变量后,在区段数目选取聚类个数,可以使用软件自动侦测,或是自行指定目标值,本次分析指定目标值为5群,点选“下一步”。
图 4
【步骤五】将数据分割成定型集和测试集,要测试的数据百分比默认为30%。
图 5
【步骤六】院成数据挖掘模型,选项中可以勾选“启用钻取”,接着点选完成钮。
图 6
图 7
【步骤七】产生5个类的聚类图表,若欲将图形复制至Excel接口下操作,可以点选方块左下角“复制至Excel”键。
图 8
图 9
【步骤九】点选“分类剖面图”,显示各个群体在不同变量下的差异。将图形复制至Excel接口下,点选方块左下角“复制至Excel”键。
图 10
图 11
单击age变量“总体”类别下的对应图形,在右侧的挖掘图例中可以看到总体类别下age变量的总体特征值,包括最小值25,最大值78.25,平均值44等等。同样地,也可查看age变量在其他分类下的特征数值,或者其他变量在各个分类下的特征数值。
图 12
图 13
【步骤十一】点选“分类特征”,显示各聚类在不同变量的水平下,分类为此群组的概率值。“分类特征”一目了然地显示了各个变量各取值在各个分类下的占比。
图 14
【步骤十二】图表复制至Excel窗体。
图 15
图 16
将图表复制至Excel后,可以查看具体的占比数值,如上图所示,总体中, “有房否”变量取值为“有”的样本占比为66%,同样地,可查看其他变量相应取值在总体中的占比,也可查看各个变量在其他类别下的相应占比。
【步骤十三】点选“分类对比”,可以在图形上方选取欲比较的两聚类,利用变量水平比较两聚类的差异。
图 17
【步骤十四】图表复制至Excel窗体。
图 18
【步骤十五】同样的,点选“数据建模”下的“高级”,开始建立数据挖掘模型,点选“下一步”,读取数据表,将数据分割成定型集和测试集,最后建立table2的结构模型。
图 19
图 20
图 21
图 22
图 23
图 24
图 25
图 26
图 27
【步骤十六】在选取挖掘算法的步骤,点选“Microsoft聚类分析”,点选“下一步”。
图 28
【步骤十七】在选取数据列的步骤时,在各个变量后方有一栏是“用法”选取,用户可以选取各个变量的使用方式,包含输人、仅预测输入和预测、key 以及不使用等等,本次用是否购买自行车(Purchased Bike)作为预测变量¥,其余变量作为解释变量建立模型,接着点选“下一步”。
图 29
【步骤十八】
图 30
【步骤十九】
图 31
【步骤二十】点击“准确性图表”标签。
图 32
【步骤二十一】在[指定要预测的列和要预测的值]的对话框中,选取进行预测的数据列,本次选取“Purchased Bike”=“No”作为预测值纳入图表。
图 33
【步骤二十二】在[指定关系]的对话框中,选取变量间关联性。
【步骤二十三产生图表到Excel中。
图 34
【步骤二十四】点选“分类矩阵”。
图 35
图 36
【步骤二十五】在“指定要预测的列”方框当中,选择预测的数据列,即自行车购买作为分析变量。勾选“以百分比显示结果”和“以计数显示结果”,生成两种方式显示的两个分类图。
图 37
图 38
图 39
图 40
图 41
图 42
图 43
图 44
图 45
图 46
3.2 时序聚类
【步骤一】点选“高级”→“创建挖掘模型”。
【步骤二】点选“下一步”。
图 47
【步骤三】选择数据表。
图 48
图 49
图 50
图 51
图 52
图 53
图 54
图 55
图 56
图 57
图 58
图 59
图 60
4.实验总结
本次实验分为两大大部分:聚类挖掘、时序挖掘。
使用EXCEL 2019中数据挖掘插件中的先进行数据挖掘,运用准确性图表、分类矩阵、利润来进行 数据挖掘和分析。
标签:点选,变量,步骤,Excel,时序,聚类,挖掘,选取 From: https://blog.51cto.com/u_16532251/9399998