【机器学习】8. 逻辑斯蒂回归 Logistic function(sigmoid),cross-entropy error,Log-likelihood loss

时间：2024-09-01 22:55:34浏览次数：19

标签：function loss Log Tx yn wTxn yi log

Logistic function

线性分类器
Logistic function (sigmoid)
极大似然估计
Log-likelihood loss

线性分类器

Logistic regression 是一个线性分类器。
在这里插入图片描述
如图，1为蓝色，0为红色。这条直线叫做直线边界

Logistic function (sigmoid)

σ ( z ) = 1 1 + e − z σ (z) = \frac{1}{1 + e^{-z}} σ(z)=1+e−z1

归一化，数据转0-1.

P [ y = 1 ∣ x ] = σ ( w T x ) P[y = 1 | x ] = σ(w^Tx) P[y=1∣x]=σ(wTx)
P [ y = 0 ∣ x ] = 1 − σ ( w T x ) P[y = 0 | x ] = 1 - σ(w^Tx) P[y=0∣x]=1−σ(wTx)
默认大于0.5为1，小于0.5 为0

w T x w^Tx wTx 为0 的时候 σ ( w T x ) σ(w^Tx) σ(wTx)为0.5
在这里插入图片描述
w T x w^Tx wTx 大于0 的时候，y 为1，小于0的时候，y为0

极大似然估计

跟线性回归一样，我们需要找出最优w，首先，前文得知我们的概率公式如下
p ( y n ∣ x n ; w ) = { σ ( w T x n ) y=1 1 − σ ( w T x n ) y=0 p(y_n|x_n;w) = \begin{cases} σ(w^Tx_n) & \text{y=1} \\ 1- σ(w^Tx_n) & \text{y=0} \end{cases} p(yn∣xn;w)={σ(wTxn)1−σ(wTxn)y=1y=0
该概率公式可以合并成为
p ( y n ∣ x n ; w ) = σ ( w T x n ) y n [ 1 − σ ( w T x n ) 1 − y n ] p(y_n|x_n;w) = σ(w^Tx_n)^{y_n}[1- σ(w^Tx_n)^{1-y_n}] p(yn∣xn;w)=σ(wTxn)yn[1−σ(wTxn)1−yn]

当yn分别为0和1的时候，就是上面的概率公式

如果想要求所有点则需要写成求和公式
p ( y n ∣ x n ; w ) = ∑ i = 1 n σ ( w T x n ) y n [ 1 − σ ( w T x n ) 1 − y n ] p(y_n|x_n;w) = \sum^n_{i=1}{σ(w^Tx_n)^{y_n}[1- σ(w^Tx_n)^{1-y_n}]} p(yn∣xn;w)=i=1∑nσ(wTxn)yn[1−σ(wTxn)1−yn]
接下来的思路是让p最大（loss最小）
首先取log，得到
L o g P ( D ) = ∑ i = 1 n y i l o g σ ( w T x n ) y n + ( 1 − y i ) l o g [ 1 − σ ( w T x n ) ] LogP(D) = \sum^n_{i=1}{y_ilogσ(w^Tx_n)^{y_n}+(1-y_i)log[1- σ(w^Tx_n)]} LogP(D)=i=1∑nyilogσ(wTxn)yn+(1−yi)log[1−σ(wTxn)]
但得到这个公式，我们是需要求最大值的，所以可以转换成我们熟悉的loss，求最小值，在前面加一个负号即可，得到交叉熵函数（cross-entropy error function）
L o g P ( D ) = − ∑ i = 1 n y i l o g σ ( w T x n ) y n + ( 1 − y i ) l o g [ 1 − σ ( w T x n ) ] LogP(D) =- \sum^n_{i=1}{y_ilogσ(w^Tx_n)^{y_n}+(1-y_i)log[1- σ(w^Tx_n)]} LogP(D)=−i=1∑nyilogσ(wTxn)yn+(1−yi)log[1−σ(wTxn)]
梯度为
∇ f ( w ) = x i ∑ i = 1 n σ ( w T x i ) − y i ∇f(w) = x_i\sum^n_{i=1} {{σ(w^Tx_i) - y_i}} ∇f(w)=xii=1∑nσ(wTxi)−yi

Log-likelihood loss

l l o g ( p , y ) = { − l o g ( p ) y=1 − l o g ( 1 − p ) y=0 l_{log}(p,y) = \begin{cases} -log(p) & \text{y=1} \\ -log(1-p) & \text{y=0} \end{cases} llog(p,y)={−log(p)−log(1−p)y=1y=0

p = σ(w^Tx_n)

在这里插入图片描述
y = 1 的时候，p值越大损失越小，p值越小损失越大

标签：function,loss,Log,Tx,yn,wTxn,yi,log
From： https://blog.csdn.net/weixin_48846514/article/details/141564411

Salt Function Flow：深度研发经验的沉淀，打造轻量级高效流程编排框架
在开发者的世界里，业务流程编排是一个既复杂又关键的环节。如何高效地管理和编排这些流程，直接影响着系统的性能和可维护性。本次介绍一款基于大量研发实践经验而打造的流程编排框架——SaltFunctionFlow。它不仅轻量、强大，更是将多年实践中的最佳经验沉淀于其中，为开发者提......
Java日志框架：Log4j2与SLF4J的比较与选择
Java日志框架：Log4j2与SLF4J的比较与选择大家好，我是微赚淘客返利系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！日志记录是Java应用程序中一个重要的功能，它帮助开发者监控应用的运行状态和调试问题。Log4j2和SLF4J是Java中两个广泛使用的日志框架，它们各有特点和优势。本文将......
大语言模型的超参数含义： Top-P 采样； Top-P 采样；logit_bias：
目录大语言模型的超参数含义 Top-P采样频率惩罚（FrequencyPenalty）top_k:logit_bias：top_logprobs：max_tokens：大语言模型的超参数含义 Top-P采样含义：一种采样替代方法，称为核采样。模型考虑top_p概率质量的token结果。例如，0.1表示仅考虑组成前10%概率质量的token......
Logstash配置和部署
logstash概诉：是一个数据采集、加工处理、以及传输的工具特点：所有类型的数据集中处理、不同模式和格式的数据的正常化、自定义日志格式的迅速扩展、为自定义数据源轻松添加插件软件使用前注意：logstash使用Java开发、logstash没有默认配置文件需要手动配置、*需要在/usr/share/logsta......
P3320 [SDOI2015] 寻宝游戏与 P10930 异象石与 CF176E Archaeology
思路：考虑按照dfn序将关键点的集合排序后为\(a_0,a_1,\cdots,a_k\)，则答案为：\[\frac{\sum\limits_{i=0}^k\operatorname{dis}(a_i,a_{(i+1)\bmodk})}{2}\]简单证明一下：需要找出包含一些关键点的最小联通导出子图。则随便以一个关键点为根，对于子树内没有关键点的子树直接......
P10013 [集训队互测 2023] Tree Topological Order Counting
Description给定一颗\(n\)个点的有根树，\(1\)是根，记\(u\)的父亲是\(fa_u\)。另给出一长度为\(n\)的权值序列\(b\)。称一个长度为\(n\)的排列\(a\)为这颗树的合法拓扑序，当且仅当\(\forall2\leu\len,a_u>a_{fa_u}\)。对每个点\(u\)，定义\(f(u)\)为，在所有这......
Logrus IT的质量评估门户如何提高游戏本地化质量：案例研究
确保高质量的游戏本地化对于全球成功至关重要，特别是对于玩家在设置和游戏许可证上投入巨资的AAA和AA游戏。这些球员往往要求苛刻，一丝不苟。尽管客户公司通过严格控制配音人才的选拔、录音质量等，尽最大努力在所有语言中保持高标准，但仅靠传统措施无法完全防止本地化不到位。各......
Php:Call to a member function fetch_all() on bool in ... #0 {main} thrown in ...
一、软件版本软件版本：phpstudy_proV8.2.9；二、错误描述在编写完连接数据库，执行相关的操作的代码之后，在浏览器运行时报如下错误：Fatalerror:UncaughtError:Calltoamemberfunctionfetch_all()onboolinD:\phpstudy_pro\WWW\test2.cc\contact.php:77St......