凛冬将至

从简单的例子开始

0%

熵是信息论中的概念,在机器学习中也被广泛应用,比如交叉熵KL散度等。本文总结一下各种熵有关的概念,并总结他们的各种形式变种。

阅读全文 »

最大似然估计是机器学习的核心组件之一,承上启下,和大量知识相关。通过EM算法可以求解某些复杂情况下的MLE[1];MLE可以视为GMM的一种特例;通过负对数似然是定义在训练集上的经验分布与定义在模型分布上的概率分布之间的交叉熵,如均方误差是经验分布和高斯分布之间的交叉熵。

阅读全文 »

代价函数和输出单元的选择密切相关,两者都需要根据输出的分布确定。如何选择输出单元,要看预测值的分布,这跟指数族分布和广义线性回归中的结论一致。如何选择代价函数,大多数时候,可以简单地使用数据分布和模型分布间的交叉熵,这实际上等同于最大似然。本文的主要内容参考花书的第6章。

阅读全文 »

在深度学习中,激活函数提供了非线性变换的能力,提高了神经网络的表达能力。根据万能近似定理,这种非线性表达能力赋予了神经网络拟合一切函数的能力!当然也让大多数我们感兴趣的代价函数都变得非凸。

阅读全文 »

二项分布的概率$p$的置信区间、置信度和样本量之间的关系,可以用正态区间来统计,但在样本量较小是正态置信区间往往有准确性较差。因此在小样本下可以用威尔逊置信区间。

阅读全文 »

人们对概率的认识不断变化,也有很多派系,相应地有不同的概念和术语,大家学习的时候常常混为一谈,导致理解难度增大。理解贝叶斯派的概念时需要注意两点,第一,在贝叶斯派中,概率是信念的强度,其会随认识(条件)的改变而变化;第二是要和因果区分开,在贝叶斯的语境中并不真的有因果关系。注:本文中有大量自己的民科理解,其中观点都有可能是错的。

阅读全文 »