对数几率回归的权重问题

首先：sklearn官网说明：

coef_ndarray of shape (1, n_features) or (n_classes, n_features)

Coefficient of the features in the decision function.

coef_ is of shape (1, n_features) when the given problem is binary. In particular, when multi_class='multinomial', coef_ corresponds to outcome 1 (True) and -coef_ corresponds to outcome 0 (False).

根据说明应该是x向量有几维，就应该有多少维的权重w$_i$，如果是二分类，w应该是1列矩阵

如果是多分类，w应该是n_classes* n_features形状的矩阵

容易搞混的是：

上式中x$_i$都是向量，不是样本的矩阵（行为样本，列为特征），x$_i$和样本矩阵的关系是X$_i$等于样本矩阵的转置，因此导致了开始学习过程中的迷惑。

使用sklearn中的LogisticRegression和iris数据进行测试：

测试代码：

from sklearn.linear_model import LogisticRegression
from sklearn import datasets
import numpy as np

iris = datasets.load_iris()
iris 
X = iris.data[:, [0,1,2,3]]
# type(iris.data)
y = iris.target
print('class labels ',np.unique(y))
print(X)

输出：

class labels [0 1 2]
[[5.1 3.5 1.4 0.2]
[4.9 3. 1.4 0.2]
[4.7 3.2 1.3 0.2]
[4.6 3.1 1.5 0.2]
[5. 3.6 1.4 0.2]
[5.4 3.9 1.7 0.4]
。。。。

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size= 0.3,
                           random_state=1, stratify=y ,shuffle= True
                                                   )
## stratify=y 采用分层抽样，测试集合训练集中样本的比例保持不变
# 如果不是分层抽样，则会发生变化，使用stratify=None
print('lable counts in y',np.bincount(y))
print('lable counts in y_train',np.bincount(y_train))
print('lable counts in y_test',np.bincount(y_test))

from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
sc.fit(X_train)  #获得期望和标准差
X_train_std = sc.transform(X_train)
X_test_std = sc.transform(X_test)
print(X_train_std)

lr = LogisticRegression(C=100, random_state= 1, 
                        solver= 'lbfgs', multi_class= 'ovr')
lr.fit(X_train_std, y_train
lr.coef_

输出的权重矩阵为：

array([[-2.27467146, 2.04221619, -4.01937844, -3.46372044],
[-1.2777746 , -0.93618002, 3.53177076, -2.24098008],
[-0.31117851, -2.10556199, 9.51791722, 8.48747802]])

令此矩阵为coef_，则coef__$^T$为4行3列

显然coef_是3*4矩阵，因为数据选用了4个特征，并且是y是3类

此权重矩阵对应3个列向量，每个列向量为w$_i$,则w$_i$$^T$*x$_i$+b则为原线性模型的值（x$_i$是任何一个样本的列向量表示）

3个列向量w$转置后分别与任何一个样本的列向量相乘再加截距，即可得原线性模型的值，最后套上下面的对数几率函数（也就是z），可得所对应的y值，也就是predict值

lr.predict_proba(X_test_std[:5,:])

选5个样本，得出属于3个不同类预测值为：

array([[1.37123418e-06, 8.02119410e-02, 9.19786688e-01],
[9.80794607e-01, 1.92053927e-02, 2.10785668e-16],
[8.83996901e-01, 1.16003099e-01, 1.98669981e-16],
[5.92717248e-05, 5.91544530e-01, 4.08396198e-01],
[2.12433327e-04, 9.93236935e-01, 6.55063129e-03]])

标签：iris,01,几率,权重,coef,矩阵,train,test,对数
From： https://www.cnblogs.com/kuangdiaosou/p/16797562.html

Excel对数据区域中的数学文本算式统计汇总
Excel情报局职场联盟Excel生产挖掘分享Excel基础技能Excel爱好者大本营用1%的Excel基础搞定99%的职场问题做一个超级实用的Excel公众号Excel是门手艺玩转需要勇气数万Excel......
选择排序，选择排序是对冒泡排序的改进，对数据量较大的排序效率会有很大提升
选择排序的原理：从第一个元素开始，分别于后面的元素相比较，遇到最小值就交换位置，第一轮结束；从第二个元素开始，分别与后面的元素相比较，找到倒数第二小的元素，并交换位置，重复上述......
对数组进行动态扩容，动态输入学生成绩
对于一个数组，他的长度是确定的，但是当数组的长度需要改变的时候，可以利用一个死循环来操作1publicstaticvoidKuoRong(Scannerinput){2int[]a1=newint[1];......
【杂谈】一招，同时可视化18个开源框架的网络模型结构和权重
深度学习开源框架众多，对于开发者来说其中有一个很硬的需求，就是模型结构和权重的可视化。使用过Caffe的同学都因为强大的Netscope可以离线修改实时可视化网络结构而暗爽，那其......
02#对数函数：换底公式
什么是换底公式有一个对数logab，把a的底数换成c，那么就有logcb/logca，这个过程就叫作换底。新的底数c可以是10、5、e等，具体的情况要根据题目要求来决定。换底公式在......
01#对数函数：认识 log 函数
什么是对数对数用log符号来表示。根据底数的不同，log可以变换成lg、ln。lg是以10为底的对数，ln是以e为底的对数。对数长成下面这个样子，是一个以a为底，y为真数......
报表系统搭建很难？其实选对数据填报系统就简单了一半_光点科技
随着企业信息化的发展，产生的数据越来越多，对报表的需求也越来越大。业务每天都在增加需求，报表开发每天都在加班，抱怨。随着时间的推移，公司的运营效率降低了。许多企业渴望建立......
树状数组-归并排序-逆序对-2426. 满足不等式的数对数目
问题描述给你两个下标从0 开始的整数数组 nums1和 nums2 ，两个数组的大小都为 n ，同时给你一个整数 diff ，统计满足以下条件的数对 (i,j) ：0<=i<j<=n-......
推导对数之倒数关系式
\[证明:\quad\log_{n}{a}=\frac{1}{\log_{a}{n}}\]\[\\\\\]\[①:\quad\log_{a}{n}=\frac{\lg_{}{n}}{\lg_{}{a}}\]\[\\\\\]\[②:\quad\log_{n}{a}=\frac......
java算法——自建对数器
用于验证所写算法是否正确，与java自带的函数方法进行比较，例如写一个排序算法，验证排序算法是否正确，采用Arrays.sort(arr)的方式，与自己所写的算法进行比对，经过多轮（比较大的一......

对数几率回归的权重问题

对数几率回归的权重问题

首先：sklearn官网说明：

使用sklearn中的LogisticRegression和iris数据进行测试：

相关文章

赞助商

阅读排行