首页 > 其他分享 >逻辑回归原理总结

逻辑回归原理总结

时间:2023-04-23 22:13:15浏览次数:39  
标签:总结 逻辑 frac 函数 Tx 回归 对数 theta

概述

线性回归模型中,拟合函数$h(x)$输出一组连续型标签值。当标签是离散型变量,或者说想做分类任务,可通过引入联系函数(link function), 得到一个“广义线性模型”实现分类。本文主要介绍比较常见的二分类模型。

对于二分类模型,Sigmoid函数正是这样一个联系函数:

$y=\frac{1}{1+e^{-h(x)}}$ 1-1

注:Sigmoid函数是指形似S型的函数,自变量趋近于正无穷时,因变量无限趋近于1,自变量趋近于负无穷时,因变量无限趋近于0,但不能取到0和1这两个值。

 

若将$y$视为样本$x$作为正例的可能性,则$1-y$是其反例可能性,两者的比值称为"几率(odds)",反映了$x$作为正例的相对可能性,对几率取对数则得到"对数几率"(log odds)

$ln{\frac{y}{1-y}}=ln{\frac{\frac{1}{1+e^{-\theta^Tx}}}{1-\frac{1}{1+e^{-\theta^Tx}}}}=ln{\frac{1}{e^{-\theta^Tx}}}=\theta^Tx$      1-2

从上面式子可以看到,线性回归中用到Sigmoid函数其实就是对数几率函数,对线性回归模型的预测结果取对数几率使其结果无限逼近0和1。因此,对应的模型称为“对数几率回归”(logistic regression)。我们平时提到的逻辑回归,指的就是对数几率回归。其数学目的是求解能够让模型对数据拟合程度最高的参数$\theta$,以此构建预测函数$y$,然后将特征矩阵输入预测函数来计算逻辑回归的结果。

 

对数几率回归的优点:

  • 对线性关系的拟合效果非常好
  • 计算快,优于SVM和随机森林
  • 输出结果不仅预测出类别,还可得到近似概率预测
  • 抗噪能力强

损失函数

逻辑回归的损失函数是由极大似然估计推导而来的。

具体推导过程:假设有两个标签0和1(二分类问题),若将1-1式中的$y$视为类后验概率估计$p(y=1|x)$,带入1-2式中,可得

$p(y=1|x)=\frac{1}{1+e^{-\theta^Tx}}$   1-3

$p(y=0|x)=\frac{e^{-\theta^Tx}}{1+e^{-\theta^Tx}}$   1-4

1-3和1-4合并可改写为:

$p(y|x)=p(y=1|x)^{y}(1-p(y=1|x))^{1-y}$   1-5

似然函数为:

$L(\theta)=\prod\limits_{j=1}^{m}p(y=1|x^{(j)})^{y^{(j)}}(1-p(y=1|x^{(j)}))^{1-y^{(j)}} $    1-6

对似然函数取对数后再乘以$-\frac{1}{m}$,即得损失函数:

$J(\theta)=-\frac{1}{m}lnL(\theta)=-\frac{1}{m}\sum\limits_{j=1}^m(y^{(j)}lnp(y=1|x^{(j)})+(1-y^{(j)})ln(1-p(y=1|x^{(j)})))$    代数式1-7

总结

对于逻辑回归,虽然名字中有“回归”二字,实际上却是一种分类学习方法。

它既可以用来处理二分类问题,也可以用来做多分类。在二分类中,使用Sigmoid函数作为联系函数;在多分类中,采用Softmax函数作为联系函数。

标签:总结,逻辑,frac,函数,Tx,回归,对数,theta
From: https://www.cnblogs.com/chaimy/p/17330258.html

相关文章

  • 总结20230423
    代码时间(包括上课):3h代码量(行):100行博客数量(篇):1篇相关事项:1、完成了数据库实验报告一。2、正在努力完成小程序购物车的登录功能。3、正在努力完成小程序模拟支付的功能。......
  • 每日总结2023/4/23
    今天转换思路完成了对于导航到补货站的过程:自己做的始终比不上现有的地图软件,不如跳转到相应的地图软件进行导航。另外在补货历史记录中增加了补货地点一条;更新注册页面。      ......
  • 王道408操作系统-4.3文件系统 习题总结
    文件系统第一题用户使用文件系统实现对文件的按名存取,选B第二题选B,超级块是用来描述文件系统的第三题文件的存储空间实际上是对(外存空间区)的组织和管理。第四题第五题索引节点用来存放文件的描述信息,所以选B虚拟文件系统虚拟文件系统,简称VFS(Virtual......
  • 团队冲刺总结1
    团队冲刺1今天寻找可以使用算法,尝试实现简历分析,同时去找简历分析的接口,准备通过接口进行简历分析,同时简单讨论接口的一些问题。学习阿里云接口调用与分析,今天团队主要任务是分析如何将简历文档数据调入后提取其关键字,下一步计划便是对关键字进行推算,我们尝试了阿里云的接口,团队任......
  • ftp命令总结
    >>ftp222.71.99.11Connectedto  222.71.99.11( 222.71.99.11).............Name( 222.71.99.11:test1): >>你的账号名331PasswordrequiredforeigPassword: >>你的密码230LoggedonRemotesystemtypeisUNIX.ftp>bin使用bin命令指定文件格式为binary......
  • VSCode常用快捷键总结
    一、常用快捷键总结:1、shift+alt+f代码格式化2、ctrl+shift+恢复被关闭的vs窗口3、ctrl+b快捷打开侧边栏和关闭4、全选+tab多行缩进5、全选+tab+shift多行前进6、新建文件Ctrl+N二、同时打开多个窗口(查看多个项目)7、打......
  • 王道408操作系统-4.2文件目录 习题总结
    错题复盘第一题散列法一般不用来检索目录,因为想要避免散列冲突就需要大量的存储空间来存放目录,造成不必要的浪费。在树形目录中检索时,应从当前目录开始逐级检索。在上图中,当我想要查找文件N时,使用文件路径/D/p/N查找,很明显分量名P不在D之下,继续往下查找没有任何意义,这时就......
  • 思考总结技术知识
     Kafka引以为傲的特性:顺序写、零拷贝顺序写保证高性能,写入速度快。其并不是直接刷到磁盘,而是先提交到内存缓冲区,不用太担心机器宕机数据丢失,因为有ISR成员,通过参数设置同时写入几个才代表生产者发送消息成功,只要这几个成员不同时宕机就不会有问题,为了容灾我们可以配置跨机房、......
  • MachineLearningNote (sklearn 学习总结)---引用
    MachineLearningNote(sklearn学习总结)---引用: https://github.com/LeBron-Jian/MachineLearningNotePython机器学习笔记:sklearn库的学习地址:https://www.cnblogs.com/wj-1314/p/10179741.htmlPython机器学习笔记:使用sklearn做特征工程和数据挖掘地址:https://www.cnblog......
  • 计算机网络基础知识总结
    原文地址一、网络层次划分国际化标准组织(ISO)在1978年提出了“开放系统互联参考模型”,即著名的OSI/RM模型(OpenSystemInterconnection/ReferenceModel)。它将计算机网络体系结构的通信协议划分为七层,直下而上依次为:网络层(PhysicsLayer)、数据链路层(DataLinkLayer)、网络层(Ne......