一、 中科院-正则化
logistic回归模型
我们对图1a所示的数据采用简化的线性logistic回归模型进行两分类,即
(1) 考虑一个正则化的方法,即最大化
注意只有w2被惩罚。则当C很大时,如图1(b)所示的4个决策边界中,哪条线可能是有该正则方法得到的?L2、L3和L4 可以通过正则w2得到吗?
(1)答案:
L2不可以。当正则w2时,决策边界对x2的依赖越少,因此决策边界变得更垂直。而图中的L2看起来不正则的结果更水平,因此不可能为惩罚w2得到;
L3可以。w2^2相对w1^2更小(表现为斜率更大),虽然该决策对训练数据的log概率变小(有被错分的样本);
L4不可以,当C足够大时,我们会得到完成垂直的决策边界(线x1 = 0或x2轴)L4跑到了x2轴的另一边使得其结果比其对边的结果更差。当中等程度的正则时,我们会得到最佳的结果(w2较小)。图中L4不是最佳结果,因此不可能为惩罚w2得到。
(1)解析:
变量与某项越无关,分类边界会越平行与某项
我们 假设o是好学生,+是坏学生,x1代表游戏水平,x2代表学习水平
我们可以简单的画出一条线,将两类学生分开,这条线平行于x1我们得到结论
变量与某项越无关,分类边界会越平行与某项
L2
对于图中的L2,我们发现它比不加正则的L1还要水平,顾不可能
L4
对于L4来说,它可以为x2轴,当正则C过大时,但是L4的分类效果没有X2轴好,同时又没有X2的正则力度大,顾不可能
L3
可能