CVPR 2018 论文简单笔记（部分，待更新） - 好文

计算机视觉最具影响力的学术会议之一的 CVPR 将于 2018 年 6 月 18 日 - 22 日在美国盐湖城召开举行。据 CVPR
官网显示，今年大会有超过 3300 篇论文投稿，其中录取 979 篇；相比去年 783 篇论文，今年增长了近 25%。本次将介绍 CVPR
2018部分论文的简单笔记。

CVPR作为计算机视觉领域级别最高的研究会议，其录取论文代表了计算机视觉领域在2018年最新和最高的科技水平以及未来发展潮流。这些录取的最新科研成果，涵盖了计算机视觉领域各项前沿工作。CVPR
2018包括21场tutorials、48场workshops，并且有来自全球各地超过115家企业将入驻今年CVPR工业展览。

下面，我们就开始进入主题，正式学习高质量的paper。

*
An Analysis of Scale Invariance in Object Detection – SNIP

这篇文章主要是解决目标检测中的小目标的问题。小目标检测一直是目标检测中的难点，主要由于小目标面积过小，在RPN的Anchor内，容易通过IoU设置将其丢弃，还会存在CNN提取的高层语义特征容易与分辨率产生矛盾，致使检测的效果极差，如果有相关领域并且通过实验验证的您，一定会遇到相同的问题，最终的AP都比较低。

而，今天首先推选的这篇文章，就一定程度解决了该问题。

以COCO数据集为例，目前普遍使用的ImageNet网络训练得到的模型作为预训练模型。
COCO数据集90%的Instance的大小都在0.472以下，和ImageNet差别非常大，说明了COCO这样的数据集中存在着大量的小目标，另一方面也说明了ImageNet预训练的模型在迁移到样本大小差异较大的COCO数据集中时，很可能产生一定的偏差，泛化能力不够。因此作者产生这样的motivation：

*
为了提高对小目标的检测结果，采用upsample的方法，这个真的是必要的吗？其实，直接用低分辨率的图像来不训练网络（需要调小strides）可以吗？

*
能不能通过挑选样本的方式来增加网络效果的，比如用upsample调整了大小之后，只用一定尺寸范围内的ground
truth来训练？用所有的GT来训练真的会更好吗？

于是本文主要工作内容：

*
文章通过实验验证了upsampling对于提高小目标检测的效果；

*
提出了一种Scale Normalization for Image Pyramids的方法。

首先，主要探究的是低分辨率图像和特定网络结构结合是否会有较好的效果。

可以看出来，将图像样本先下采样降低分辨率，然后再用upsample还原回来，这过程使下采样的样本分辨率降低，再
upsample后分辨率其实不会得到提升，但是这样可以将小目标分辨率低和面积小的问题还原。

通过图可以看出，三个网络中：

*
CNN-B使用高分辨率图像训练，分类经过下采样和upsample的图片；

*
CNN-S使用低分辨率图像训练，分类经过下采样的图片；

*
CNN-B-FT使用高分辨率图像训练，然后在低分辨率图像上微调，分类经过下采样和upsample的图片。

如上面图示的三种网络的训练方式和效果。结论是：当我们要检测小的问题的时候，在输入是大的scale的网络上预训练、在高分辨率作为输入的网络上预训练、在upsample后的图片作为输入的网路上预训练，对检测小物体有益。

本质上，三个网络都是在对小目标进行分类，不过CNN-S因为本身网络结构就不同，输入比较小，不需要经过upsample。最后结果，CNN-B-FT准确率最高，CNN-S其次，作者认为这是因为模型从高分辨率图像中得到了充分的学习。这就说明了，训练样本和输入样本如果分辨率存在太大误差，性能肯定会有所下降。与其为了小目标而专门使用改进的网络结构（CNN-S），直接upsample和使用高分辨率图像预训练得到的模型是更好的选择（CNN-B-FT）。

不过这个实验没什么太大的用处。只是为了证明了fine-tune的必要性。然后做了第二个实验，主要是想研究图像分辨率对结果的影响：

作者想通过这个实验说明如下：

*
upsample在一定程度上可以提高性能，但是并不显著，这是因为upsample提高了小目标的检测效果，但会让本来正常大小或者本来就大的目标过大，性能下降；

*
训练网络需要使用大量样本，样本损失会导致性能下降；

*
随机在分辨率之间采样的效果也不好，虽然样本满足了多尺度条件，但是还有其它原因限制了性能。

本质上，这是因为CNN网络没有尺度不变性，只能通过大量样本训练，通过参数学习来硬记住不同尺寸的目标。所以下面就提出针对性的解决方案。

主要思路就是在训练和反向传播更新参数时，只考虑哪些在指定的尺度范围内的目标，由此提出了一种特别的多尺度训练方法，即SNIP（Scale
Normalization for Image Pyramids）。

在训练时，划分了三个尺度，对应三种不同分辨率的图像。每个分辨率下的RoI都有其指定范围，如果GT的bounding-box大小在这个范围内，就被标记做valid，否则就被标记为invalid。

这种做法，最终的检测效果大大提升，但是训练过程比较复杂：

*
作者使用的是Deformable RFCN detector而不是常见的一般卷积；

*
作者使用的网络结构是Dual path
networks（DPN）和ResNet-101，由于需要内存很大，为了适应GPU内存，作者对图像进行了采样，具体方法是选取一个1000x1000的包含最多目标的区域作为子图像，然后重复该步骤直到所有目标都被选取
；

*
作者为了提升RPN的效果，尝试了使用7个尺度，连接conv4和conv5的输出。

更多的详细设置见：代码链接：https://arxiv.org/abs/1711.08189

*
Relation Networks for Object Detection

该文章主要是在detection当中引入了relation的信息，个人感觉算是个很不错的切入点，而且motivation是源自NLP的，某种方面也说明了知识宽度的重要性。但是一个比较可惜的点就是，relation
module更像是拍脑袋思考了一个方法然后直接去实验验证了，对于relation到底学到了什么，能不能更好地理解这个信息，作者认为这还是个有待解决的问题。期待在relation问题上能看到更多有趣的思路吧。

这个文章虽然并没有什么巧妙的设计，但是思路很有趣，那就是引入了object的关联信息，在神经网络中对object的relations进行建模。主要贡献点有两条：

*
提出了一种relation module，可以在以往常见的物体特征中融合进物体之间的关联性信息，同时不改变特征的维数，能很好地嵌进目前各种检测框架，提高性能
；

*
在上面的基础上，提出了一种特别的代替NMS的去重模块，可以避免NMS需要手动设置参数的问题。

详细内容将在下一期详细讲解，未完待续！

如果想加入我们“计算机视觉战队”，请扫二维码加入学习群，我们一起学习进步，探索领域中更深奥更有趣的知识！

近期，又是新的一个毕业季，也有很多相关的会议在火热召开，希望在该领域的您积极参加，学习最先进的技术和知识，因为我们平时看到的paper，虽然是2017或2018，但是作者提出时可能是2016，因为期刊发行会推延一些，所以我们应该时刻跟随科研的步伐，时刻学习和探究最新的动态，这样我们才能知道该领域的趋势和方向，才能将自己科研落实在正确的轨道，在此，祝贺毕业生前途似锦，事事顺利，也在此祝贺自己顺利毕业

热门工具换一换