1.4 - logistic回归

时间：2024-04-03 12:13:19浏览次数：28

1. 模型理念

　　对于求解二分类问题，寻找一个决策边界，使得不同类别的点在边界的两侧，并用点到决策边界的距离表示该点属于某个类别的概率。点到决策面的距离 d 直接将点代入决策面公式即可；距离到概率的映射函数需要符合概率的公理化定义，选用Sigmoid函数，（多分类问题选用 Softmax函数）。

2. 模型构建

2.1 损失函数

　　根据上述模型理念，当 y = 1 时，设其概率为 P(y=1|x) = h(x)，则 y = 0 时，概率为 P(y=0|x) = 1 - h(x)。其中，h(x)=Sigmoid( d(x) )。然后将 y=1和y=0 两种情况时的概率公式综合为一个概率公式，这样，我们就得到了任意一个样本的分类概率结果。对于分类问题的数据集，根据 极大似然估计 理论，我们认为之所以会出现数据集中呈现的分类结果，是因为在这个问题中这样分类得到的概率最大，又因为已知每个样本的概率函数以及样本数据的独立同分布，可以得到极大似然函数 => 化简取负值 =》logistic回归的损失函数：交叉熵函数。

2.2 优化方法

　　得到交叉熵损失函数之后，对函数求模型超参的偏导数函数，通过令偏导函数为0的方式求取解析解比较困难。但是已知偏导函数，通过梯度下降的方式求取一般解还是比较容易的。

3. 引发过拟合和欠拟合的因素以及改进措施

3.1 欠拟合

　　欠拟合是因为：模型复杂度不够，可以调大多项式扩展的 degree 值。

3.2 过拟合

　　过拟合是因为：模型过于复杂导致学习到了很多无效特征，如：噪音。不同的ML模型降低过拟合的方式不同。Logistic回归降低过拟合的方式是：

　　　　【分析业务去掉不相关的特征 / 逐步回归 / 引入正则项(sklearn中默认L2，可以关掉，最后没办法时再打开)】

4. 适用场景

　　线性二分类问题。

4.1 二分类解决多分类问题

　　1）OvR：one - v - rest，训练会用到所有的数据集，现在大多用这种。

　　2）OvO：one - v - one，训练不会用到所有的数据集，适合在小数据集上效果比较好的二分类模型，如：SVM。

5. 可运行代码

标签：1.4,概率,函数,回归,分类,logistic,拟合,模型
From： https://www.cnblogs.com/zhangzhenw/p/18112177

关于Stata工具变量固定效应回归ivreghdfe包报错last estimates not found一步解决问题
其实lastestimatesnotfound这个问题，不用这么麻烦。我也是研究了半天，最后发现可以根据ivreghdfe命令的作者在github上写的统一安装需要的那些命令来很方便快捷地解决。这是ivreghdfe命令作者的Github主页：https://github.com/sergiocorreia/......
Python套索回归lasso、SCAD、LARS分析棒球运动员薪水3个实例合集|附数据代码
全文链接：https://tecdat.cn/?p=35585原文出处：拓端数据部落公众号在数据科学和机器学习领域，回归分析是一种强大的工具，用于探索变量之间的关系并预测未来的结果。其中，套索回归（LassoRegression）是一种线性回归方法，特别适用于解决高维数据和过拟合问题。它通过引入正则化项来限制模......
COMP 330正则化逻辑回归分类
COMP330课业#51说明在这项任务中，您将实现一个正则化的逻辑回归来对文本文档进行分类。实现将在Spark之上的Python中进行给你，有必要使用亚马逊AWS。您将被要求执行三个子任务：（1）数据准备，（2）学习（将通过梯度下降）和（3）学习模型的评估。注意：在你真正开始这项任务之前，完成HW5和Lab5是很重......
【机器学习300问】61、逻辑回归与线性回归的异同？
本文讲述两个经典机器学习逻辑回归（LogisticRegression）和线性回归（LinearRegression）算法的异同，有助于我们在面对实际问题时更好的进行模型选择。也能帮助我们加深对两者的理解，掌握这两类基础模型有助于进一步理解更复杂的模型结构，例如逻辑回归是许多复杂分类算法的......
用梯度下降法实现线性回归
sklearn的SGDRegressor()函数用于实现梯度下降法的回归分析。#coding=utf-8#导入必要的库importnumpyasnpimportmatplotlib.pyplotaspltfromsklearnimportlinear_model#设置文字plt.rcParams['font.sans-serif']='SimHei'#创建数据矩阵X,y=[],[......
C++ //练习 11.4 扩展你的程序，忽略大小写和标点。例如，“example.“、“exmaple,“和”
C++Primer（第5版）练习11.4练习11.4扩展你的程序，忽略大小写和标点。例如，“example.”、"exmaple,"和”Example"应该递增相同的计数器。环境：LinuxUbuntu（云服务器）工具：vim 代码块/************************************************************************* >Fil......
R语言分段回归数据分析案例报告
原文链接： http://tecdat.cn/?p=3805原文出处：拓端数据部落公众号我们在这里讨论所谓的“分段线性回归模型”，因为它们利用包含虚拟变量的交互项。读取数据 data=read.csv("artificial-cover.csv")查看部分数据 head(data)## tree.covershurb.gr......
线性回归和时间序列分析北京房价影响因素可视化案例
全文链接：http://tecdat.cn/?p=21467最近我们被客户要求撰写关于北京房价的研究报告，包括一些图形和统计输出。在本文中，房价有关的数据可能反映了中国近年来的变化目的人们得到更多的资源（薪水），期望有更好的房子人口众多独生子女政策：如何影响房子的几何结构？更多的卧室，更多的空......
2024年新算法-冠豪猪优化算法(CPO)，CPO-RF-Adaboost，CPO优化随机森林RF-Adaboost回归预
冠豪猪优化算法（CPO）是一种基于自然界中猪群觅食行为启发的优化算法。该算法模拟了猪群在寻找食物时的集群行为，通过一系列的迭代过程来优化目标函数，以寻找最优解。在这个算法中，猪被分为几个群体，每个群体内的猪会根据当前的最佳解以及群体内部的协作信息来更新自身位置，以期望获得......
双向长短期BiLSTM的回归预测-附MATLAB代码
BiLSTM是一种带有正反向连接的长短期记忆网络（LSTM）。BiLSTM通过两个独立的LSTM层，一个按时间顺序处理输入，另一个按时间倒序处理输入，分别从正向和反向两个方向捕捉输入序列的特征。具体地，正向LSTM按时间步从左到右处理输入序列，每个时间步的隐藏状态。预测结果如下：代码获取方......