最大似然估计是机器学习的核心组件之一,承上启下,和大量知识相关。通过EM算法可以求解某些复杂情况下的MLE[1];MLE可以视为GMM的一种特例;通过负对数似然是定义在训练集上的经验分布与定义在模型分布上的概率分布之间的交叉熵,如均方误差是经验分布和高斯分布之间的交叉熵。
最大似然估计基本介绍
MLE的基本流程
- 列出似然函数$L(\boldsymbol \theta)$
- 取对数$ln(L(\boldsymbol \theta))$
- 令其导数为0
- 估计参数$\boldsymbol {\hat\theta}$
似然函数
设总体的概率函数为$P(\boldsymbol X;\boldsymbol \theta), \boldsymbol \theta \in \boldsymbol \Theta$,其中$\boldsymbol \theta$是未知参数向量,$\boldsymbol \Theta$是参数空间。$\boldsymbol x_1,…,\boldsymbol x_n$是来自该总体的样本。
将样本的联合概率分布函数看成$\boldsymbol \theta$的函数:$L(\boldsymbol \theta;\boldsymbol x_1,…,\boldsymbol x_n)$,记为$L(\boldsymbol \theta)$,称为样本的似然函数:
最大似然估计
若$ \hat{\boldsymbol \theta} =\hat{\boldsymbol \theta} (\boldsymbol x_1,…,\boldsymbol x_n)$满足下式,则成$\hat{\boldsymbol \theta}$是$\boldsymbol \theta$的最大似然估计MLE(Maximum Likelihood Estimate)。
最大化对数似然函数$ln\ L(\boldsymbol \theta)$与最大化$ L(\boldsymbol \theta)$等价。
用分布表示
其含义也可以理解为:最小化经验分布和模型分布之间的交叉熵
备注
- $ L(\boldsymbol \theta)$可微时,求导是MLE最常用的方法,对$ln\ L(\boldsymbol \theta)$求导更简单,但并不是所有场合求导都有效
- 不变性:若$\hat{\boldsymbol \theta}$是$\boldsymbol \theta$的最大似然估计MLE,则对于任意函数$g(\boldsymbol \theta)$,其最大似然估计是$g(\hat{\boldsymbol \theta})$
推导损失函数
负对数似然函数等价于交叉熵损失函数,当