1:AlexNet 
 
在这里写链接内容 <http://ethereon.github.io/netscope/#/editor>网络中将该模型画出来: 
 
AlexNet相比LeNet主要的改动在于: 
(1) Data Augmentation数据增长,现在的网络中已经大量使用了。最主要的是剪裁,光照变换和水平翻转。 
(2) Dropout 

Dropout方法和数据增强一样,都是防止过拟合的。Dropout应该算是AlexNet中一个很大的创新,以至于Hinton在后来很长一段时间里的Talk都拿Dropout说事,后来还出来了一些变种,比如DropConnect等。 
(3) ReLU激活函数 
用ReLU代替了传统的Tanh或者sigmoid。好处有: 
ReLU本质上是分段线性模型,前向计算非常简单,无需指数之类操作; 
ReLU的偏导也很简单,反向传播梯度,无需指数或者除法之类操作; 
ReLU不容易发生梯度发散问题,Tanh和sigmoid激活函数在两端的时候导数容易趋近于零,多级连乘后梯度更加约等于0; 
ReLU关闭了右边,从而会使得很多的隐层输出为0,即网络变得稀疏,起到了类似L1的正则化作用,可以在一定程度上缓解过拟合。 
当然,ReLU也是有缺点的,比如左边全部关了很容易导致某些隐藏节点永无翻身之日,所以后来又出现pReLU、random
ReLU等改进,而且ReLU会很容易改变数据的分布,因此ReLU后加Batch Normalization也是常用的改进的方法。 
(4) Local Response Normalization 
Local Response
Normalization要硬翻译的话是局部响应归一化,简称LRN,实际就是利用临近的数据做归一化。这个策略贡献了1.2%的Top-5错误率。 
(5) Overlapping Pooling 
Overlapping的意思是有重叠,即Pooling的步长比Pooling Kernel的对应边要小。这个策略贡献了0.3%的Top-5错误率。 

(6) 多GPU并行

(7)BN,加速收敛