神经网络损失函数总结 - 好文

常见的损失函数

1.均方误差损失函数（MSE）

J(θ)=∑ni=1(y(i)−y(i)′)2nJ(θ)=∑i=1n(y(i)−y(i)′)2n 其中yy是真值，y′y′是预测值，它是W,b,xW,b,x
的函数。

2.交叉熵损失函数（cross-entropy）

J(θ)=−1m∑mi=1y(i)log(hθ(x(i)))+(1−y(i))log(1−hθ(x(i))),J(θ)=−1m∑i=1my(i)log⁡(hθ
(x(i)))+(1−y(i))log⁡(1−hθ(x(i))),
首先熵是香农信息量(log1p)(log1p)的期望。可以这样理解yy表示真实标记的分布，h(x)h(x)
则为训练后的模型的预测标记分布，交叉熵损失函数可以衡量yy与h(x)h(x)的相似性。即两个分布的交叉熵越小越相似。

在上一次激活函数中我们聊到sigmoid激活函数，因为其本身的特性（饱和区），导致网络BP时会出现收敛很慢，怎么解决这个问题呢？
我们使用交叉熵损失函数代替MSE损失函数，先来回顾一下DNN反向传播的时候δLδL：

∂J(W,b,x,y)∂zL=(aL−y)⊙σ′(z)∂J(W,b,x,y)∂zL=(aL−y)⊙σ′(z)
而我们损失函数改为交叉熵之后：
δL=∂J(W,b,aL,y)∂zL=−y1aL(aL)(1−aL)+(1−y)11−aL(aL)(1−aL)=−y(1−aL)+(1−y)aL=aL−y
(433)(434)(435)(436)(433)δL=∂J(W,b,aL,y)∂zL(434)=−y1aL(aL)(1−aL)+(1−y)11−aL(aL)(
1−aL)(435)=−y(1−aL)+(1−y)aL(436)=aL−y
此时的梯度表达式已经没有σ′σ′
了，也就是说没有sigmoid函数的导数了，所以可以避免那个问题。但是sigmoid激活函数在网络变深之后依然存在梯度弥散现象，在现在普遍用Relu激活函数取代sigmoid激活函数，Relu在网络很深的情况可以一定程度的避免梯度弥散。

3.对数似然损失函数

J(W,b,aL,y)=−∑kyklnaLkJ(W,b,aL,y)=−∑kyklnakL 其中aLkakL表示网络的输出值，ykyk表示真值，取0或1.

对数似然损失一般用于多分类问题，在输出层加softmax激活，然后求对数似然损失。其本质就是，一组参数在一堆数据下的似然值，等于每一条数据在这组参数下的条件概率之积，而损失函数一般是每条数据的损失之和，为了把积变为和，就取了对数，再加个负号是为了让最大似然值和最小损失对应起来。
如果某一训练样本的输出为第i类。则yi=1yi=1,其余的j≠ij≠i都有yj=0yj=0。由于每个样本只属于一个类别，所以这个对数似然函数可以简化为：J(
W,b,aL,y)=−lnaLiJ(W,b,aL,y)=−lnaiL
可见损失函数只和真实类别对应的输出有关，这样假设真实类别是第i类，则其他不属于第i类序号对应的神经元的梯度导数直接为0。对于真实类别第i类，它的WLiWiL
对应的梯度计算为：

∂J(W,b,aL,y)∂WLi=∂J(W,b,aL,y)∂aLi∂aLi∂zLi∂zLi∂wLi=−1aLi(ezLi)∑j=1nLezLj−ezLiezL
i(∑j=1nLezLj)2aL−1i=−1aLi(ezLi∑j=1nLezLj−ezLi∑j=1nLezLjezLi∑j=1nLezLj)aL−1i=−1aL
iaLi(1−aLi)aL−1i=(aLi−1)aL−1i(537)(538)(539)(540)(541)(537)∂J(W,b,aL,y)∂WiL=∂J(W
,b,aL,y)∂aiL∂aiL∂ziL∂ziL∂wiL(538)=−1aiL(eziL)∑j=1nLezjL−eziLeziL(∑j=1nLezjL)2aiL
−1(539)=−1aiL(eziL∑j=1nLezjL−eziL∑j=1nLezjLeziL∑j=1nLezjL)aiL−1(540)=−1aiLaiL(1−
aiL)aiL−1(541)=(aiL−1)aiL−1
同样的可以得到bLibiL的梯度表达式为：
∂J(W,b,aL,y)∂bLi=aLi−1∂J(W,b,aL,y)∂biL=aiL−1

可见，梯度计算也很简洁，也没有第一节说的训练速度慢的问题。举个例子，假如我们对于第2类的训练样本，通过前向算法计算的未激活输出为（1,5,3），则我们得到softmax激活后的概率输出为：(0.015,0.866,0.117)。由于我们的类别是第二类，则反向传播的梯度应该为：(0.015,0.866-1,0.117)。

参考

http://www.cnblogs.com/pinard/p/6437495.html
<http://www.cnblogs.com/pinard/p/6437495.html>
https://www.zhihu.com/question/27126057
<https://www.zhihu.com/question/27126057>

热门工具换一换