极大似然估计的一些学习整理 - 好文

尊重原创，尊重每个人的成果，所以把参考的博文放在首位：

这篇博文讲的很肤浅但是很通透：https://blog.csdn.net/u011058765/article/details/51435502
<https://blog.csdn.net/u011058765/article/details/51435502>

这篇博文讲的很到位，很深刻，本文的大部分也是摘自此博文：
https://blog.csdn.net/zengxiantao1994/article/details/72787849
<https://blog.csdn.net/zengxiantao1994/article/details/72787849>

极大似然估计法：

思想：利用已知的样本结果，反推最有可能（最大概率）导致这样结果的参数值！

例子：

设有一批产品，甲认为次品率为0.1，乙认为次品率为0.3，现从产品中随机抽取15件，发现有5件词频，问甲乙谁的估计更准一些？

解：记词频数为X，则X~B（n,p）

若次品率 p = 0.1，则15件中有5件次品的概率为：

若次品率p = 0.3，则15件中有5件次品的概率为：

则，后一概率明显大于前一概率，因此用次品率为0.3的估计值更可靠一些。

前提：训练样本的分布能代表样本的真实分布。每个样本集中的样本都是所谓独立同分布的随机变量 (iid条件)，且有充分的训练样本。

推导：

由于样本集中的样本都是独立同分布，可以只考虑一类样本集D，来估计参数向量θ。记已知的样本集为：

似然函数（linkehood function）：联合概率密度函数称为相对于的θ的似然函数。

如果是参数空间中能使似然函数最大的θ值，则应该是“最可能”的参数值，那么就是θ的极大似然估计量。它是样本集的函数，记作：

<>求解极大似然函数

ML估计：求使得出现该组样本的概率最大的θ值。

         实际中为了便于分析，定义了对数似然函数：

1. 未知参数只有一个（θ为标量）

在似然函数满足连续、可微的正则条件下，极大似然估计量是下面微分方程的解：

2.未知参数有多个（θ为向量）

则θ可表示为具有S个分量的未知向量：

         记梯度算子：

         若似然函数满足连续可导的条件，则最大似然估计量就是如下方程的解。

         方程的解只是一个估计值，只有在样本数趋于无限多的时候，它才会接近于真实值。

<>极大似然估计的例子

例1：设样本服从正态分布，则似然函数为：

它的对数：

求导，得方程组：

联合解得：

似然方程有唯一解：，而且它一定是最大值点，这是因为当或时，非负函数。于是U和的极大似然估计为。

例2：设样本服从均匀分布[a, b]。则X的概率密度函数：

对样本：

很显然，L(a,b)作为a和b的二元函数是不连续的，这时不能用导数来求解。而必须从极大似然估计的定义出发，求L(a,b)的最大值，为使L(a,b)达到最大，b-a应该尽可能地小，但b又不能小于
，否则，L(a,b)=0。类似地a不能大过，因此，a和b的极大似然估计：

求最大似然估计量的一般步骤：

（1）写出似然函数；

（2）对似然函数取对数；

（3）求导数(偏导)；

（4）解似然方程。

最大似然估计的特点：

1.比其他估计方法更加简单；

2.收敛性：无偏或者渐近无偏，当样本数目增加时，收敛性质会更好；

3.如果假设的类条件概率模型正确，则通常能获得较好的结果。但如果假设模型出现偏差，将导致非常差的估计结果。

经典算法模型例子：

逻辑回归原理及公式推导

1.线性回归的主要思想是通过历史数据拟合出一条直线，来进行预测

2.逻辑回归是基于线性回归，将线性回归的值映射到（0,1）上

其中，为sigmoid函数

当  ,x属于A类

当 ,x属于B类

概率函数为：

因为样本数据独立，所以它们的联合分布可以表示为各边际分布的乘积，取似然函数为：

取对数似然函数：

最大似然估计就是要求的值最大时的，这里可以使用梯度上升法。

因乘了一个负的系数，所以可以用梯度下降求解！

热门工具换一换