densenet与resneXt的巧妙结合-DPN网络 - 好文

DPN是在resneXt,denseNet之后，对resnet系列的进一步创新，作者巧妙的将resnet与denseNet相结合，提出了dual path
architectures，构造了DPN网络结构。
那么DPN的创新点有哪些呢？如下：

DPN具有更小的模型以及更少的计算量，具有更好的训练速度。作者在论文中的描述为：[

In particular，on the ImageNet-1k dataset, a shallow DPN surpasses the best
ResNeXt-101 with 26% smaller model size, 25% less computational cost and 8%
lower memory consumption.]

那么DPN是如何做到这点的呢？

论文第二章、第三章详细介绍了DPN的理论基础，包含有较多的公式，简单而言就是借鉴了：
* resnet特征重用（因为前面特征被sum到了后面层上面）
* denseNet容易发现新特征（将前面特征均进行了concat组合）

的特点，并且受到HORNNs的启发，HORNNs我还没有仔细的研究，这里就不解释了。
该部分包含有较多的公式可供理解，感兴趣的读者可以在论文中查看。

下面我主要介绍DPN的网络结构，以及DPN在resnet以及densenet上面的改进。
下面这两张图我觉得画的让我眼前一亮，很好的描述了resnet与denseNet的特点。
下图中（a）是resnet示意图，其中“+”代表element-wise addition，即对应值相加。
（b）是densenet示意图，由于densenet采用的是concat方式进行特征图叠加，所以在网络中特征图的宽度会逐渐增加。
图中的1*1卷积主要是为了改变特征图的维度，起到了降维的作用。

那么，DPN是什么样子的呢？灯灯灯灯~来啦，如下图：

DPN跟resnet与densenet具有相似的结构均为： 1*1 + 3*3 +
1*1,但是DPN的最后一层被分成两部分，一部分交给resnet进行element-wisely
add另一部分进行densenet的concat，并且DPN采用的resneXt的group（分组卷积）结构，以提高DPN的分类能力。

下面是DPN网络的可视化结构（鉴于篇幅限制，这里只能截图一个block中的一部分啦），可以看出，网络经过3个卷积后进行分支，分成两部分，一部分执行resnet的elewise另一部分执行densenet的concat

DPN的参数结构如下图所示：

通过该结构图，我们同样可以看出DPN同resneXt也很像，都是几个block，并且以DPN92为例子，我们可以看出，dpn网络的参数量相比较于resneXt101（32*4d）要少很多。

如果要详细了解其结构，可以参考作者给出的代码
DPN的mxnet实现：https://github.com/cypw/DPNs/tree/master/settings
<https://github.com/cypw/DPNs/tree/master/settings>

另外需要补充说明的是：

DPN没有类似densenet结构中的pooling进行图像尺寸的缩小，而是通过conv中设置stride为2进行图像尺度的缩小。并且在不同的block之间

作者的实验部分介绍的也算很详细，实验结果就是DPN网络可以使用更少的参数量，达到更好的实验效果。如下图。

通过下图可以看出，DPN98在精度上和速度上以及内存利用率上均已经超过了ResNeXt101。

热门工具换一换