最大似然估计

最大似然估计是机器学习的核心组件之一，承上启下，和大量知识相关。通过EM算法可以求解某些复杂情况下的MLE^[1]；MLE可以视为GMM的一种特例；通过负对数似然是定义在训练集上的经验分布与定义在模型分布上的概率分布之间的交叉熵，如均方误差是经验分布和高斯分布之间的交叉熵。

最大似然估计基本介绍

MLE的基本流程

列出似然函数$L(\boldsymbol \theta)$
取对数$ln(L(\boldsymbol \theta))$
令其导数为0
估计参数$\boldsymbol {\hat\theta}$

似然函数

设总体的概率函数为$P(\boldsymbol X;\boldsymbol \theta), \boldsymbol \theta \in \boldsymbol \Theta$，其中$\boldsymbol \theta$是未知参数向量，$\boldsymbol \Theta$是参数空间。$\boldsymbol x_1,…,\boldsymbol x_n$是来自该总体的样本。

将样本的联合概率分布函数看成$\boldsymbol \theta$的函数：$L(\boldsymbol \theta;\boldsymbol x_1,…,\boldsymbol x_n)$，记为$L(\boldsymbol \theta)$，称为样本的似然函数：

$L(\boldsymbol \theta)=p(\boldsymbol x_1;\boldsymbol \theta)p(\boldsymbol x_2;\boldsymbol \theta)...p(\boldsymbol x_n;\boldsymbol \theta)$

最大似然估计

若$ \hat{\boldsymbol \theta} =\hat{\boldsymbol \theta} (\boldsymbol x_1,…,\boldsymbol x_n)$满足下式，则成$\hat{\boldsymbol \theta}$是$\boldsymbol \theta$的最大似然估计MLE(Maximum Likelihood Estimate)。

$\begin{eqnarray*} L(\hat{\boldsymbol \theta}) &=& {arg\underset {\boldsymbol \theta \in \boldsymbol \Theta}{\operatorname {max} }} \ L(\boldsymbol \theta) \\ \\ &=&{arg\underset {\boldsymbol \theta \in \boldsymbol \Theta}{\operatorname {max} }} \prod^m_{i=1}P_{model}(\boldsymbol x_i,\boldsymbol \theta) \end{eqnarray*}$

最大化对数似然函数$ln\ L(\boldsymbol \theta)$与最大化$ L(\boldsymbol \theta)$等价。

用分布表示

$\hat{\boldsymbol \theta}= {arg\underset {\boldsymbol \theta \in \boldsymbol \Theta}{\operatorname {max} }} \ E_{\boldsymbol X \sim \hat p_{data}} [log\ p_{model}(\boldsymbol X;\boldsymbol \theta)]$

其含义也可以理解为：最小化经验分布和模型分布之间的交叉熵

备注

$ L(\boldsymbol \theta)$可微时，求导是MLE最常用的方法，对$ln\ L(\boldsymbol \theta)$求导更简单，但并不是所有场合求导都有效
不变性：若$\hat{\boldsymbol \theta}$是$\boldsymbol \theta$的最大似然估计MLE，则对于任意函数$g(\boldsymbol \theta)$，其最大似然估计是$g(\hat{\boldsymbol \theta})$

凛冬将至

最大似然估计

最大似然估计基本介绍

MLE的基本流程

似然函数

最大似然估计

用分布表示

推导损失函数

与EM

与GMM

推广至MAP