人们对概率的认识不断变化,也有很多派系,相应地有不同的概念和术语,大家学习的时候常常混为一谈,导致理解难度增大。理解贝叶斯派的概念时需要注意两点,第一,在贝叶斯派中,概率是信念的强度,其会随认识(条件)的改变而变化;第二是要和因果区分开,在贝叶斯的语境中并不真的有因果关系。注:本文中有大量自己的民科理解,其中观点都有可能是错的。
主观概率
贝叶斯派:用信念的强度定义概率。用户点击广告的概率到底是多少?随我们掌握的信息逐渐增加,这个概率会由平均概率不断变化。
所谓置信度、倾向性得分、信念,都是不同学派对概率的不同的称呼。
与因果的区分
其相关的概念是从推理过程来理解的。贝叶斯相关的文章或书里常常也将“证据→假设”的关系说成是“果→因”的关系,这导致了读者理解的混乱,仿佛因和果不存在客观上的区别,将贝叶斯推断的变量互换就可以随意颠倒因和果。贝叶斯推断过程只是数学公式,并不真正涉及物理世界的因果,其表示的是一个推理过程,由一件事(证据)推理另一件事(假设)。所谓贝叶斯可以“由果推因”,更准确的说法应该是“由证据推假设”。但由于现实世界中往往由因到果的概率$P(果|因)$比较容易得到,而由果到因的概率$P(因|果)$更需要贝叶斯法则。
举个例子
女士做了癌症检查,结果为阳性,她应该多大程度上相信自己得了癌症。
- 假设D(疾病):她得了癌症
- 证据T(检测):检测结果为阳性
按照贝叶斯法则
涉及概念
likelihood(似然)
- 给出某个假设D后,其依据(证据)T发生概率,$P(T|D)$
- 给定某一假设后,其某一参数值的可能性
- 给定患癌症的结论后,其检测呈阳性的概率
likelihood ratio(似然比)
- 给定结果D后,证据T发生概率会高出多少倍,$P(T|D)/P(T)$
其他问题
条件概率问题
条件概率其实是个很容易让人混淆的问题。$P(A|B)$表示给定$B$,后$A$发生的概率,而“给定$B$”实际上指的是观测到$B$,而不是干预。比如给定$B$:“小孩的衣服size很小”,则$A$:“小孩年龄很小”的概率会增大,即$P(A|B)>P(A)$,这个含义是你观测到小孩穿的衣服小,对他年龄很小的信念会提升(贝叶斯派的描述方式),但并不代表给小孩换个小的衣服,会使其年龄小的概率增大。
事件的概率
由于符号的误用,大家在表示概率时常常看见一个大写字母就喜欢加上个概率,常常会把自己绕进去。最常见的比如$P(X),P(Y),P(W)$,分别代表着变量$X,Y,W$的分布,在机器学习中,一般指特征分布、标签分布、模型参数的分布。其完整含义是$P(X=x)$,表示成条件概率时,$P(Y|X)$实际上是指$P(Y=y|X=x)$,这是一个二元函数,画出图来是个曲面。
比如,在MAP中
实际上表示的是