先看传统意义上全概率公式的写法:

P(B)=∑i=1nP(B|Ai)P(Ai)

等号左边的P(B)是一个状态量,右边的∑是一个过程量!这个表示和积分的表示是一致的:

F(n)=∫n0f(x)dx

其实,这种过程量叠加成状态量的方式是如此的普遍,以至于可以随便给出几个例子,先不说什么牛顿-莱布尼兹公式,斯托克斯公式了,我用信息熵的表示来举例:

H=−∑0npi×logapi

看看和上面定积分,全概率公式是不是很一致呢?

不扯信息熵了,不然本文会无限拉长,余下来的篇幅我来扯扯全概率和定积分吧。

其实全概率公式右边的过程量就是结果对原因的积分!虽然有失严谨性,但是我还是把它写成定积分的形式:

P(B)=∫n0P(B|x)dP(x)

嗯,还算合理。我们来看看根据这个还算不错的想法能得到什么结论。首先,有以下的结论:

∫n0P(B|x)dP(x)=−∫0nP(B|x)dP(x)

即:

∫n0P(B|x)dP(x)+∫0nP(B|x)dP(x)=0 –式子(1)

如果按照∑符号,两个恒为正的概率和相加怎么可能是0,然而,当我们推而广之使用∫符号后,就会发现这是一个积分环路,结果为0当然是正确无疑的了。

  这里,我主要是根据形式的相似性将全概率公式在积分意义上做了推广,然后导出了上面的式子(1)
,然而仅仅得到这个除了看起来抖机灵之外,没有别的什么用,我们看看最精彩的是什么。

上面式子(1)的物理意义是,如果事件x
发生了,那就让它沿着时间线倒回去,时间回到了原点,什么都没有发生。前面一个积分是沿着时间发生的事件序列,后面一个积分相当于一次事件的倒放。

  那么,如果我们把过程中的事件一一打点记录,比如第一个积分中的事件序列是A0,A1,A2...An,那么第二个积分里的事件序列显然就是An,An−1,An−
2..A0,看到了吗?因果倒置了,最终归零。

  这是什么?这不就是贝叶斯公式的另一种解释吗?

贝叶斯公式不重要,重要的是,它将拿着确定的结果逼近原因的这种我们一直在用的思维方式给规则化了,它可以让机器学习step by step化
,让一个模糊的东西变成了Howto,为火爆的AI算法提供了一份说明书。


  其实本文还可以说的再多些的,关于理查德.费曼的路径积分的。我们知道量子物理就是在玩概率的,一个粒子到底处在什么状态,不是确定的,然后路径积分却提供了一个很好用的方法,这个事情我在2013年冬天研究过,差一点就转入理论物理了,然而,也就没有以后了…

  有时间我一定好好说说费曼的路径积分以及狄拉克的算符的故事。