极大似然估计就是最大化对数似然。
假设第c类有K个样本。属性取值为N种,表示为集合X,且取第i个属性值的样本共有kiki个,显然有
∑i=1Nki=K.∑i=1Nki=K.
极大似然估计首先假设P(x|c)=f(x,θc)P(x|c)=f(x,θc),这个f(x,θc)f(x,θc)是自己设定的,比如对于连续的属性,可以假设ff
是高斯概率密度函数。但是这里是离散的情况,所以假设
f(x,θc)=θxc,f(x,θc)=θcx,
注意,ff是概率密度函数,要满足概率条件,即∑x∈Xθxc=1∑x∈Xθcx=1。上面已经假设了xx总共有N种情况。
然后,极大似然估计希望概率分布最大化对数似然:
LL(θc)=logP(Dc|θc)=∑x∈DclogP(x|θc).LL(θc)=logP(Dc|θc)=∑x∈DclogP(x|θc).
于是我们得到离散属性情况下的优化目标:
minθcs.t.−∑x∈DclogP(x|θc)=−∑xi∈XkilogP(xi|θc)=−∑xi∈Xkiθxic∑xi∈Xθxic=1(3)(4)(3)
minθc−∑x∈DclogP(x|θc)=−∑xi∈XkilogP(xi|θc)=−∑xi∈Xkiθcxi(4)s.t.∑xi∈Xθcxi=1
解这个优化问题,得到最优解为
θxic=kiK,θcxi=kiK,
也就是在离散情况下,极大似然估计得到的概率就是频率。
对于高斯分布,同样的方法进行推理,只是ff的形式不同而已。
热门工具 换一换