首页 > 其他分享 >Maximum Entropy Model最大熵模型

Maximum Entropy Model最大熵模型

时间：2023-01-18 10:35:45浏览次数：68

标签：似然最大 IIS 模型 Maximum Entropy 对数 Model 函数

Welcome To My Blog
最大熵模型(Maximum Entropy Model)属于对数线性模型,由最大熵原理推导实现.

最大熵原理

最大熵原理是概率模型学习的一个准则.

最大熵原理认为,学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型是最好的模型.

通常用约束条件来确定概率模型的集合,所以,最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型

Maximum Entropy Model最大熵模型_最大熵模型

直观地,

+ 最大熵原理认为要选择的概率模型首先必须满足已有的事实,即约束条件,在没有更多信息的情况下,那些不确定的部分都是”等可能的”

+ 等概率表示了对事实的无知.因为没有更多信息,所以取等概率是合理的

+ 最大熵原理通过熵的最大化来表示等可能性

+ “等可能性”不容易操作,而熵则是一个可优化的数值指标

最大熵模型的定义

将最大熵原理应用到分类得到最大熵模型

假设分类模型是一个条件概率分布P(Y|X),

Maximum Entropy Model最大熵模型_IIS_02

这个模型表示的是,对于给定的输入X,以条件概率P(Y|X)输出Y

给定一个训练集T={(x1,y1),…,(xn,yn)},学习的目标是用最大熵原理选择最好的分类模型

首先考虑模型应该满足的条件.给定训练数据集,可以确定联合分布P(X,Y)的经验分布和边缘分布P(X)的经验分布,表示为:

Maximum Entropy Model最大熵模型_最大熵_03

引入约束

Maximum Entropy Model最大熵模型_最大熵_04

联合分布的期望:

Maximum Entropy Model最大熵模型_IIS_05

期望作为约束:

Maximum Entropy Model最大熵模型_最大熵_06

最大熵模型的定义:

Maximum Entropy Model最大熵模型_最大熵_07

最大熵模型的学习

拉格朗日对偶性

最大熵模型的学习可形式化为约束最优化问题.

Maximum Entropy Model最大熵模型_最大熵_08

Maximum Entropy Model最大熵模型_最大熵模型_09

Maximum Entropy Model最大熵模型_IIS_10

Maximum Entropy Model最大熵模型_IIS_11

由于拉格朗日函数L(P,w)是P的凸函数,等式约束是仿射的,所以原始问题的解与对偶问题的解是等价的.这样就可以通过求解对偶问题来求解原始问题

Maximum Entropy Model最大熵模型_最大熵_12

Maximum Entropy Model最大熵模型_IIS_13

Maximum Entropy Model最大熵模型_最大熵_14

Maximum Entropy Model最大熵模型_最大熵模型_15

Maximum Entropy Model最大熵模型_IIS_16

最大化Ψ(x)等价于MLE

下面证明对偶函数的极大化等价于最大熵模型的极大似然估计

Maximum Entropy Model最大熵模型_IIS_17

Maximum Entropy Model最大熵模型_IIS_18

Maximum Entropy Model最大熵模型_最大熵_19

Maximum Entropy Model最大熵模型_最大熵模型_20

Maximum Entropy Model最大熵模型_IIS_21

这样,最大熵模型的学习问题就转换为具体求解对数似然函数极大化或对偶函数极大化的问题

可以将最大熵模型写成更一般的形式

Maximum Entropy Model最大熵模型_IIS_22

最大熵模型与logistic回归模型有类似的形式,它们又称为对数线性模型(log linear model).模型学习就是在给定的训练集下对模型进行极大似然估计或正则化的极大似然估计

模型学习的最优化算法

改进的迭代尺度法

改进的迭代尺度法(improved iterative scaling,IIS)的想法是:假设最大熵模型当前的参数向量是w=(w1,w2,…,wn)^T,我们希望找到一个新的参数向量w+δ=(w1+δ1,w2+δ2,…,wn+δn)^T,使得模型的对数似然函数值增大.如果能有这样一种参数向量更新的方法τ:w→w+δ,那么就可以重复使用这一方法,直至找到对数似然函数的最大值.

Jensen 不等式

先引出Jensen不等式,它是凸函数必满足的不等式,下面的推导过程会用到

Maximum Entropy Model最大熵模型_IIS_23

Maximum Entropy Model最大熵模型_IIS_24

IIS推导过程

对数似然为:

Maximum Entropy Model最大熵模型_最大熵_25

Maximum Entropy Model最大熵模型_最大熵_26

注意:Z_(w+δ)与Z_(w)之间有这样的关系:

Maximum Entropy Model最大熵模型_最大熵_27

推导似然函数改变量的下界:

Maximum Entropy Model最大熵模型_最大熵模型_28

如果能找到适当的δ使下界A(δ|w)提高,那么对数似然函数也会提高.然而,函数A(δ|w)中的δ是一个向量,含有多个变量,不易同时优化.

IIS试图一次只优化其中一个变量δi,而固定其它变量δj,j≠i.

为达到这一目的,IIS进一步降低下界A(δ|w),下降后方便提升.具体地,IIS引进一个量f^#(x,y)

Maximum Entropy Model最大熵模型_最大熵模型_29

因为fi(x,y)是二值函数,故f^#(x,y)表示所有特征函数中fi(x,y)值为1的个数

将A(δ|w)改写为:

Maximum Entropy Model最大熵模型_最大熵_30

降低下界后:

Maximum Entropy Model最大熵模型_IIS_31

这里,B(δ|w)是对数似然函数改变量的一个新的(相对不紧的)下界.

Maximum Entropy Model最大熵模型_最大熵模型_32

IIS算法流程

Maximum Entropy Model最大熵模型_最大熵_33

Maximum Entropy Model最大熵模型_最大熵_34

关于牛顿法,可参考之前的文章,牛顿法

拟牛顿法

最大熵模型学习还可以应用拟牛顿法.关于拟牛顿法,可参考之前的文章,拟牛顿法

Maximum Entropy Model最大熵模型_最大熵_35

Maximum Entropy Model最大熵模型_最大熵_36

Maximum Entropy Model最大熵模型_IIS_37

算法流程

Maximum Entropy Model最大熵模型_最大熵_38

参考:
李航,统计学习方法

标签：似然,最大,IIS,模型,Maximum,Entropy,对数,Model,函数
From： https://blog.51cto.com/u_2420922/6019032

相关文章

Maximum Likelihood Estimation极大似然估计
WelcomeToMyBlog贝叶斯公式现通过分类问题解释贝叶斯公式:P(c)是类别c的先验(prior)概率P(x|c)是似然概率(likelihoodprobability),或者说是样本x相对于类......
交叉熵（Cross-Entropy）损失
损失函数和误差函数在大多数时候，损失函数和误差函数代表了差不多的意思，但他们仍有细微的差别。误差函数计算我们的模型偏离正确预测的程度。损失函数对误差进行操作，以量化......
CF280D k-Maximum Subsequence Sum
CF280Dk-MaximumSubsequenceSumWC现在正在讲网络流，我也来写一题网络流！一开始真想不到这题能费用流。但是\(k\)规模较小告诉我们可以先从一个一个区间贪心做入手。但......
特斯拉把超级工厂开到印尼，能让Model 3再降价1万
控制成本，从掌握上游原材料做起。根据彭博社消息，特斯拉第四个超级工厂的选址有了新动向。消息称，特斯拉与印尼政府就在印尼建立超级工厂达成初步协议。特斯拉以及印......
如何用潜类别混合效应模型(Latent Class Mixed Model ,LCMM)分析老年痴呆年龄数据|附
全文下载链接：http://tecdat.cn/?p=24647最近我们被客户要求撰写关于LCMM的研究报告，包括一些图形和统计输出。线性混合模型假设N个受试者的群体是同质的，并且在群体水平......
【论文阅读｜浅读】DMER：Deep Mutual Encode Model for Network Embedding From Structur
目录前言简介ABSTRACTI.INTRODUCTIONII.RELATEDWORKA.NETWORKEMBEDDINGB.TRADITIONALMETHODSFORSTRUCTURAL......
【论文阅读｜深读】Net2Net-NE：Learning Network-to-Network Model for Content-rich Net
目录前言简介ABSTRACT1INTRODUCTION2RELATEDWORK3PROBLEMFORMULATION4METHODOLOGY4.1ContentEmbedd......
【每日一读】SWOPE:Efficient Approximate Algorithms for Empirical Entropy and Mut
目录简介简介ABSTRACT1INTRODUCTION2PRELIMINARIES2.1ProblemDefinition2.2ExistingSolutions6EXPER......
【每日一读】Dynamic Structural Role Node Embedding for User Modeling in Evolving
目录简介论文简介Abstract1INTRODUCTION2RELATEDWORK2.1MicroscopicStructurePreservingEmbedding2.2Tempor......
Pytorch的cross_entropy为什么等于log_softmax加nll_loss
首先我们要知道nll_loss是怎么算的，看下面的代码label1=torch.tensor([0,3])pred1=torch.tensor([[0.2,0.7,0.8,0.1],[0.1,0.3,0.5,0.7]])lo......

赞助商

阅读排行