极大似然估计就是最大化对数似然。

假设第c类有K个样本。属性取值为N种,表示为集合X,且取第i个属性值的样本共有kiki个,显然有
∑i=1Nki=K.∑i=1Nki=K.


极大似然估计首先假设P(x|c)=f(x,θc)P(x|c)=f(x,θc),这个f(x,θc)f(x,θc)是自己设定的,比如对于连续的属性,可以假设ff
是高斯概率密度函数。但是这里是离散的情况,所以假设
f(x,θc)=θxc,f(x,θc)=θcx,


注意,ff是概率密度函数,要满足概率条件,即∑x∈Xθxc=1∑x∈Xθcx=1。上面已经假设了xx总共有N种情况。

然后,极大似然估计希望概率分布最大化对数似然:

LL(θc)=logP(Dc|θc)=∑x∈DclogP(x|θc).LL(θc)=log⁡P(Dc|θc)=∑x∈Dclog⁡P(x|θc).


于是我们得到离散属性情况下的优化目标:

minθcs.t.−∑x∈DclogP(x|θc)=−∑xi∈XkilogP(xi|θc)=−∑xi∈Xkiθxic∑xi∈Xθxic=1(3)(4)(3)
minθc−∑x∈Dclog⁡P(x|θc)=−∑xi∈Xkilog⁡P(xi|θc)=−∑xi∈Xkiθcxi(4)s.t.∑xi∈Xθcxi=1


解这个优化问题,得到最优解为

θxic=kiK,θcxi=kiK,


也就是在离散情况下,极大似然估计得到的概率就是频率。

对于高斯分布,同样的方法进行推理,只是ff的形式不同而已。