梯度下降是很多机器学习算法中都要用到梯度下降法,是一个优化利器。但梯度下降本质上是一个贪心算法,容易陷入局部最有。本文参考文献[1]的Momentum方法帮助梯度下降法跳出局部最优解。
各种优化方法见[2]详解。
———————-我是优雅分割线,先洗洗睡了—————–

Ref:
1、http://ruder.io/optimizing-gradient-descent/index.html#momentum
<http://ruder.io/optimizing-gradient-descent/index.html#momentum>
2、https://zhuanlan.zhihu.com/p/22252270
<https://zhuanlan.zhihu.com/p/22252270>