重温贝叶斯定理
公式推导 若 A 事件发生的概率为 P(A),B 事件发生的概率为 P(B),则 A 和 B 同时发生的概率为: $$ P(A|B)*P(B)=P(B|A)*P(A) $$ 移项之后可以得到: $$ P(A|B)=\frac{P(B|A)*P(A)}{P(B)} $$ 这就是贝叶斯公式了,不过一般习惯将 P(A) 写成 P(H),P(B) 写成 P(D),H 就是 Hypothesis 假设的意思,D 就是 Data 数据的意思。 $$ P(H|D)=\frac{P(H)*P(D|H)}{P(D)} $$ 公式解释 左边的 P(H|D) 是后验概率,右边的 P(H) 是先验概率,P(D|H) 是似然度。先验概率指的是关于假设 H 发生概率的先验认知,比方说国足出线的概率;后验概率指的是在观察到一些数据之后,对假设 H 发生的概率进行了更新,比方说国足踢平两场之后的出线的概率,它强调的是数据对先验概率的更新;似然度指的是在假设 H 发生的前提下,观察到数据 D 的概率,它强调的是事件能不能很好地解释观察到的数据。 先验概率 先验概率其实是一个比较主观化的数据。有些时候,先验概率有一个确定的唯一的值,比方说国足出线的概率,根据历史数据就可以算出来一个确定的值。而大多数时候,并不存在一个客观的值;比方说天空中出现的不明飞行物是外星人的飞船的概率,我可能认为概率很低,非要说的话,大概百万分之一;而你可能认为这个概率是零。先验概率也受一些客观条件的影响,比方说在亚洲,人们以米饭为主食的概率比较高;而在欧洲,这个概率就比较低了。因此,在使用先验概率的时候,需要先确定好相关的客观条件。 似然度 似然度代表的是假设对于数据的解释力。外星人降临地球的假设可以完美地解释天空中出现的飞碟,即 P(D|H) = 1;而军方在实验新型飞行器的假设并不能令人信服地解释飞碟,因为人类还没有掌握这种技术,即 P(D|H) « 1。当一种假设 A 比另一种假设 B 能更好地解释观察到的现象时,那么似然度就更大,后验概率就更大。