本文继续来讨论另一种分类模型————fisher线性判别分析
一、模型思想
我们以二分类问题举例,在二维平面中我们需要找到一个直线,这个直线需要满足两个使命:
(1)使得同类样例的投影点尽可能接近和密集(2)异类投影点尽可能远离。
二、SPSS的实现
此处我们还是以水果二分类的数据为例
1.参数设置
(1)定义范围
也就是设置分类的类别,如果是二分类就设置0-1,多分类可设置为1-n
(2) 统计
这里需要勾选费希尔系数和未标准化
其中费希尔系数为标准化后的系数,但是我们用未标准化的系数比较多
(3)保存与分类
保存即在原始数据增加一个新的变量,此处我们只需要选择概率与组成员即可。概率就是分类为某个类别的概率,组成员就是分类结果
分类的参数我们只需要勾选摘要表即可
2.结果分析
(1)典则判别函数系数
该表就是为标准化的系数,也就是w的值
(2)分类结果
分类结果也就是分类的准确率,在主对角线上的值就是预测正确的个数
(3)分类函数系数
由于是二分类,会得出两个函数,把原始数据带入两个函数,谁的函数值大,则把该个案分类为这个函数代表的类别
(4)保存预测结果
四、多分类问题
Fisher判别分析可用于多分类问题,模型思想与二分类相似,把二维平面扩展到了n维空间。
实现方法只需要修改一下定义范围即可
同时,Logistic回归也可用于多分类问题,实现方法本文不作叙述,详细步骤请查看清风老师在本章的PPT