Logistic回归和Softmax回归理解 - 好文

1. Logistic与Softmax简述

谈到Logistic回归首先谈到便是逻辑思谛分布，其概率分布如下图所示：

可以看出该分布函数是一条S形曲线，曲线以点(0,12)(0,12)作为对称中心，且其值的范围是从[0,1][0,1]
的。而二项Logistic回归便是参数化的逻辑思谛分布。则对于有mm个已经标记好的样本构成：(x1,y1),(x2,y2),(x3,y3),…(xm,ym)(x
1,y1),(x2,y2),(x3,y3),…(xm,ym)（其中特征向量xx是进行了增广操作，将偏置bb添加进去了的），对应的分类y∈{0,1}y∈{0,1}
，则可以将概率描述为：

hθ(x)=11+exp(−θx)hθ(x)=11+exp(−θx)
需要通过训练确定参数θθ，使得下面的最小化损失函数最小化：
J(θ)=−1m[∑i=1myilog(hθ(xi))+(1−yi)log(1−hθ(xi)]J(θ)=−1m[∑i=1myilog(hθ(xi))+(1−y
i)log(1−hθ(xi)]
而对于Softmax回归，其解决的是多分类问题。则对应的标记y∈{1,2,...k}y∈{1,2,...k}，其中k是分类的类型数目。对于给定的测试输入xx
，我们想用假设函数针对每一个类别jj估算出概率值p(y=j|x)p(y=j|x)。也就是说，我们想估计xx
的每一种分类结果出现的概率。因此，我们的假设函数将要输出一个kk维的向量（向量元素的和为1）来表示这kk个估计的概率值。具体地说，我们的假设函数hθ(x)hθ(
x)形式如下：

hθ(xi)=⎡⎣⎢⎢⎢⎢⎢p(yi=1|xi;θ)p(yi=2|xi;θ)⋮p(yi=k|xi;θ)⎤⎦⎥⎥⎥⎥⎥=1∑kj=1eθjxi⎡⎣⎢⎢⎢⎢⎢eθ
1xieθ2xi⋮eθkxi⎤⎦⎥⎥⎥⎥⎥(1)(1)hθ(xi)=[p(yi=1|xi;θ)p(yi=2|xi;θ)⋮p(yi=k|xi;θ)]=1∑j=1k
eθjxi[eθ1xieθ2xi⋮eθkxi]
其中θ1,θ2,…,θkθ1,θ2,…,θk是模型需要求解的参数。请注意 1∑kj=1eθjxi1∑j=1keθjxi
这一项对概率分布进行归一化，使得所有概率之和为1。也就是比较输出概率相对来说较大的那一个作为最后分类的结果。

2. 损失函数的定义

在本文讲述的回归模型中使用1{⋅}1{⋅}来代表事件发生与否，例如，1{1+2=3}=11{1+2=3}=1，而1{1+3=3}=01{1+3=3}=0
。则可以将损失函数定义为：

J(θ)=−1m[∑i=1m∑j=1k1{yi=j}logeθjxi∑kl=1eθlxi](2)(2)J(θ)=−1m[∑i=1m∑j=1k1{yi=j}
log⁡eθjxi∑l=1keθlxi]
其中，mm是训练样本的数量，kk是分类类型数目。上面是Softmax回归对应的损失函数定义，则对于前面的Logistic回归可以将其改写为：
J(θ)=−1m[∑i=1m(1−yi)log(1−hθ(xi))+yiloghθ(xi)]=−1m[∑i=1m∑j=011{yi=j}logp(yi=j|x
i;θ)](3)(4)(3)J(θ)=−1m[∑i=1m(1−yi)log⁡(1−hθ(xi))+yilog⁡hθ(xi)](4)=−1m[∑i=1m∑j=01
1{yi=j}log⁡p(yi=j|xi;θ)]

得到了上面所述的损失函数就可以使用梯度优化算子进行求解最优参数了，但是通常不是用上面的损失函数来作为计算的损失函数的，而是使用其改进。具体来说，就是和权重衰减(weight
decay)一起使用。

3. Softmax回归的参数特点

Softmax 回归有一个不寻常的特点：它有一个“冗余”的参数集。为了便于阐述这一特点，假设我们从参数向量θjθj中减去了向量ψψ，这时，每一个θjθj
都变成了θj−ψ(j=1,…,k)θj−ψ(j=1,…,k)。此时假设函数变成了以下的式子：

p(yi=j|xi;θ)=e(θj−ψ)xi∑kl=1e(θl−ψ)xi=eθjxie−ψxi∑kl=1eθlxie−ψxi=eθjxi∑kl=1eθlxi.
(5)(6)(7)(5)p(yi=j|xi;θ)=e(θj−ψ)xi∑l=1ke(θl−ψ)xi(6)=eθjxie−ψxi∑l=1keθlxie−ψxi(7)
=eθjxi∑l=1keθlxi.
换句话说，从θjθj中减去ψψ完全不影响假设函数的预测结果！这表明前面的 Softmax 回归模型中存在冗余的参数。更正式一点来说，Softmax
模型被过度参数化了。对于任意一个用于拟合数据的假设函数，可以求出多组参数值，这些参数得到的是完全相同的假设函数hθhθ。

进一步而言，如果参数 (θ1,θ2,…,θk)(θ1,θ2,…,θk)是代价函数J(θ)J(θ)的极小值点，那么(θ1−ψ,θ2−ψ,…,θk−ψ)(θ1−ψ
,θ2−ψ,…,θk−ψ)同样也是它的极小值点，其中ψψ可以为任意向量。因此使 J(θ)J(θ)最小化的解不是唯一的。（有趣的是，由于J(θ)J(θ)
仍然是一个凸函数，因此梯度下降时不会遇到局部最优解的问题。但是 Hessian 矩阵是奇异的/不可逆的，这会直接导致采用牛顿法优化就遇到数值计算的问题）

注意，当ψ=θ1ψ=θ1时，我们总是可以将θ1θ1替换为θ1−ψ=0⃗ θ1−ψ=0→
（即替换为全零向量），并且这种变换不会影响假设函数。因此我们可以去掉参数向量θ1θ1（或者其他 θjθj
中的任意一个）而不影响假设函数的表达能力。实际上，与其优化全部的k×(n+1)k×(n+1)个参数 (θ1,theta2,…,θk)(θ1,theta2,…,θ
k)，我们可以令 θ1=0⃗ θ1=0→，只优化剩余的(k−1)×(n+1)(k−1)×(n+1)个参数，这样算法依然能够正常工作。

在实际应用中，为了使算法实现更简单清楚，往往保留所有参数(θ1,θ2,…,θn)(θ1,θ2,…,θn)，而不任意地将某一参数设置为
0。但此时我们需要对代价函数做一个改动：加入权重衰减。权重衰减可以解决Softmax 回归的参数冗余所带来的数值问题。

4. 权重衰减

我们通过添加一个权重衰减项λ2∑ki=1∑nj=0θ2ijλ2∑i=1k∑j=0nθij2
来修改代价函数，这个衰减项会惩罚过大的参数值，现在我们的代价函数变为：

J(θ)=−1m[∑i=1m∑j=1k1{yi=j}logeθjxi∑kl=1eθlxi]+λ2∑i=1k∑j=0nθ2ij(26)(26)J(θ)=−1m[
∑i=1m∑j=1k1{yi=j}log⁡eθjxi∑l=1keθlxi]+λ2∑i=1k∑j=0nθij2
有了这个权重衰减项以后(λ>0)(λ>0)，代价函数就变成了严格的凸函数，这样就可以保证得到唯一的解了。此时的 Hessian矩阵变为可逆矩阵，并且因为J
(θ)J(θ)是凸函数，梯度下降法和 L-BFGS 等算法可以保证收敛到全局最优解。
为了使用优化算法，我们需要求得这个新函数J(θ)J(θ)的导数，如下：
∇θjJ(θ)=−1m∑i=1m[xi(1{yi=j}−p(yi=j|xi;θ))]+λθj(27)(27)∇θjJ(θ)=−1m∑i=1m[xi(1{yi=
j}−p(yi=j|xi;θ))]+λθj
通过最小化J(θ)J(θ)，我们就能实现一个可用的Softmax 回归模型。
这样做的好处：
（1）使得代价函数的Hessian矩阵可逆，保证算法收敛
（2）使得最后得到的参数θθ尽可能趋向0，减少模型复杂度，这样增加算法鲁棒

5. Logstic与Softmax比较

5.1 联系

对于Softmax回归当分类数目k=2k=2的时候，Softmax将会退化为Logistic回归，则其概率函数可以描述为：

hθ(x)=1eθ1x+eθ2x[eθ1x,eθ2x]hθ(x)=1eθ1x+eθ2x[eθ1x,eθ2x]
则根据Softmax的参数冗余性质，可以令θ1=ψθ1=ψ，则上面的式子就可以转换为：
hθ(x)=1e0⃗ x+e(θ2−θ1)x[e0⃗ x,eθ2−θ1)x]=[11+e(θ2−θ1)x,e(θ2−θ1)x1+e(θ2−θ1)x]=[11+
e(θ2−θ1)x,1−11+e(θ2−θ1)x]hθ(x)=1e0→x+e(θ2−θ1)x[e0→x,eθ2−θ1)x]=[11+e(θ2−θ1)x,e(θ2
−θ1)x1+e(θ2−θ1)x]=[11+e(θ2−θ1)x,1−11+e(θ2−θ1)x]
则使用αα来代表上式中的θ2−θ1θ2−θ1，则就是逻辑回归的形式了。

5.2 使用区别

简单将其描述为：
（1）对于分类中存在概念交叉的分类，使用多个Logistic回归
（2）对于分类中不存在概念交叉的分类，使用多分类的Softmax回归

6. 参考

* Softmax回归
<http://ufldl.stanford.edu/wiki/index.php/Softmax%E5%9B%9E%E5%BD%92>

热门工具换一换