逻辑回归原理总结

时间：2023-04-23 22:13:15浏览次数：49

概述

在线性回归模型中，拟合函数$h(x)$输出一组连续型标签值。当标签是离散型变量，或者说想做分类任务，可通过引入联系函数（link function），得到一个“广义线性模型”实现分类。本文主要介绍比较常见的二分类模型。

对于二分类模型，Sigmoid函数正是这样一个联系函数：

$y=\frac{1}{1+e^{-h(x)}}$ 1-1

注：Sigmoid函数是指形似S型的函数，自变量趋近于正无穷时，因变量无限趋近于1，自变量趋近于负无穷时，因变量无限趋近于0，但不能取到0和1这两个值。

若将$y$视为样本$x$作为正例的可能性，则$1-y$是其反例可能性，两者的比值称为"几率(odds)"，反映了$x$作为正例的相对可能性，对几率取对数则得到"对数几率"（log odds）

$ln{\frac{y}{1-y}}=ln{\frac{\frac{1}{1+e^{-\theta^Tx}}}{1-\frac{1}{1+e^{-\theta^Tx}}}}=ln{\frac{1}{e^{-\theta^Tx}}}=\theta^Tx$ 1-2

从上面式子可以看到，线性回归中用到Sigmoid函数其实就是对数几率函数，对线性回归模型的预测结果取对数几率使其结果无限逼近0和1。因此，对应的模型称为“对数几率回归”（logistic regression）。我们平时提到的逻辑回归，指的就是对数几率回归。其数学目的是求解能够让模型对数据拟合程度最高的参数$\theta$，以此构建预测函数$y$,然后将特征矩阵输入预测函数来计算逻辑回归的结果。

对数几率回归的优点：

对线性关系的拟合效果非常好
计算快，优于SVM和随机森林
输出结果不仅预测出类别，还可得到近似概率预测
抗噪能力强

损失函数

逻辑回归的损失函数是由极大似然估计推导而来的。

具体推导过程：假设有两个标签0和1（二分类问题），若将1-1式中的$y$视为类后验概率估计$p(y=1|x)$,带入1-2式中，可得

$p(y=1|x)=\frac{1}{1+e^{-\theta^Tx}}$ 1-3

$p(y=0|x)=\frac{e^{-\theta^Tx}}{1+e^{-\theta^Tx}}$ 1-4

1-3和1-4合并可改写为：

$p(y|x)=p(y=1|x)^{y}(1-p(y=1|x))^{1-y}$ 1-5

似然函数为：

$L(\theta)=\prod\limits_{j=1}^{m}p(y=1|x^{(j)})^{y^{(j)}}(1-p(y=1|x^{(j)}))^{1-y^{(j)}} $ 1-6

对似然函数取对数后再乘以$-\frac{1}{m}$，即得损失函数：

$J(\theta)=-\frac{1}{m}lnL(\theta)=-\frac{1}{m}\sum\limits_{j=1}^m(y^{(j)}lnp(y=1|x^{(j)})+(1-y^{(j)})ln(1-p(y=1|x^{(j)})))$ 代数式1-7

总结

对于逻辑回归，虽然名字中有“回归”二字，实际上却是一种分类学习方法。

它既可以用来处理二分类问题，也可以用来做多分类。在二分类中，使用Sigmoid函数作为联系函数；在多分类中，采用Softmax函数作为联系函数。

标签：总结,逻辑,frac,函数,Tx,回归,对数,theta
From： https://www.cnblogs.com/chaimy/p/17330258.html

总结20230423
代码时间（包括上课）：3h代码量（行）：100行博客数量（篇）：1篇相关事项：1、完成了数据库实验报告一。2、正在努力完成小程序购物车的登录功能。3、正在努力完成小程序模拟支付的功能。......
每日总结2023/4/23
今天转换思路完成了对于导航到补货站的过程：自己做的始终比不上现有的地图软件，不如跳转到相应的地图软件进行导航。另外在补货历史记录中增加了补货地点一条；更新注册页面。 ......
王道408操作系统-4.3文件系统习题总结
文件系统第一题用户使用文件系统实现对文件的按名存取，选B第二题选B，超级块是用来描述文件系统的第三题文件的存储空间实际上是对（外存空间区）的组织和管理。第四题第五题索引节点用来存放文件的描述信息，所以选B虚拟文件系统虚拟文件系统，简称VFS（Virtual......
团队冲刺总结1
团队冲刺1今天寻找可以使用算法，尝试实现简历分析，同时去找简历分析的接口，准备通过接口进行简历分析，同时简单讨论接口的一些问题。学习阿里云接口调用与分析，今天团队主要任务是分析如何将简历文档数据调入后提取其关键字，下一步计划便是对关键字进行推算，我们尝试了阿里云的接口，团队任......
ftp命令总结
>>ftp222.71.99.11Connectedto 222.71.99.11( 222.71.99.11).............Name( 222.71.99.11:test1): >>你的账号名331PasswordrequiredforeigPassword: >>你的密码230LoggedonRemotesystemtypeisUNIX.ftp>bin使用bin命令指定文件格式为binary......
VSCode常用快捷键总结
一、常用快捷键总结：1、shift+alt+f代码格式化2、ctrl+shift+恢复被关闭的vs窗口3、ctrl+b快捷打开侧边栏和关闭4、全选+tab多行缩进5、全选+tab+shift多行前进6、新建文件Ctrl+N二、同时打开多个窗口（查看多个项目）7、打......
王道408操作系统-4.2文件目录习题总结
错题复盘第一题散列法一般不用来检索目录，因为想要避免散列冲突就需要大量的存储空间来存放目录，造成不必要的浪费。在树形目录中检索时，应从当前目录开始逐级检索。在上图中，当我想要查找文件N时，使用文件路径/D/p/N查找，很明显分量名P不在D之下，继续往下查找没有任何意义，这时就......
思考总结技术知识
Kafka引以为傲的特性：顺序写、零拷贝顺序写保证高性能，写入速度快。其并不是直接刷到磁盘，而是先提交到内存缓冲区，不用太担心机器宕机数据丢失，因为有ISR成员，通过参数设置同时写入几个才代表生产者发送消息成功，只要这几个成员不同时宕机就不会有问题，为了容灾我们可以配置跨机房、......
MachineLearningNote （sklearn 学习总结）---引用
MachineLearningNote（sklearn学习总结）---引用： https://github.com/LeBron-Jian/MachineLearningNotePython机器学习笔记：sklearn库的学习地址：https://www.cnblogs.com/wj-1314/p/10179741.htmlPython机器学习笔记：使用sklearn做特征工程和数据挖掘地址：https://www.cnblog......
计算机网络基础知识总结
原文地址一、网络层次划分国际化标准组织（ISO）在1978年提出了“开放系统互联参考模型”，即著名的OSI/RM模型（OpenSystemInterconnection/ReferenceModel）。它将计算机网络体系结构的通信协议划分为七层，直下而上依次为：网络层（PhysicsLayer）、数据链路层（DataLinkLayer）、网络层（Ne......

逻辑回归原理总结

概述

损失函数

总结

相关文章

赞助商

阅读排行