CVPR论文解读：全新的Mimic方法，效果远优于传统

来源：联合早报中文网作者：邵湖心更新时间：2020-09-06 04:20:03阅读：

本篇文章2112字，读完约5分钟

雷锋的人工智能技术评论出版社:cvpr 2017正在夏威夷如火如荼地进行，精彩的论文层出不穷。下面是姜云飞，穆明塔的高级R&D工程师，他解释了关于模仿非常有效的网络进行目标检测的论文。

背景

模拟机作为一种模型小型化的方法，韩丁在《干扰神经网络中的知识》一文中已有详细的定义和介绍。然而，近年来，大多数关于模拟机的论文主要局限于简单的分类任务，而对于更复杂的检测任务，不可能直接应用以前的方案。提出了一种学习特征映射来实现目标检测任务模拟的方法。

CVPR论文解读：全新的Mimic方法，效果远优于传统

在传统的模拟过程中，通常使用经过训练的大模型，模型的权重是固定的，设计小模型，学习大模型的软目标或逻辑的输出。大模型学习到的有效信息可以传递给小模型，这样小模型也可以有较好的性能，其损失函数如下:

w是小模型的重量，g(x；w)是小模型的输出，z是所学习的大模型的输出。

然而，将这种方法直接应用到检测任务中效果不佳，因此作者做了进一步的探索。首先，通过分析常见的检测网络，如fast-rcnn、rfcn、ssd等。我们可以发现，它们主要包括两个部分，即特征提取器和特征解码器。然而，不同的大网络与特征提取器有很大的不同，因此作者认为对特征图进行模拟可以得到更有效的结果。

CVPR论文解读：全新的Mimic方法，效果远优于传统

详细描述了模拟方法:

为此，本文提出了模拟算法，利用其自身的基础事实来监督小模型的训练，同时在大模型和小模型之间加入了特征映射的监督，这样模拟效果会更好。一般过程如下图所示:

但同时，作者也指出，简单地让小模型学习大模型的特征图是行不通的，因为特征图的维数太高，包含了太多的全局信息，而只有少量对象的特征图通常只有微弱的响应。为此，本文提出了一种新的卷积网络模拟方法，将整个特征图的学习转化为建议采样后的特征学习，以简化任务。

CVPR论文解读：全新的Mimic方法，效果远优于传统

在由小网络生成的建议中，使用空间金字塔汇集方法来对大网络和小网络上的局部特征进行采样(这被作者修正为直接使用逐像素学习)，然后使用l2损失来减小它们之间的差异。损失函数定义如下:

全损主要由两部分组成，即近似损失和真实损失。作者在实验中发现，归一化近似损失可以获得更稳定的近似结果:

同时，作者还提到，当小网络和大网络的特征图大小不同时(例如，小网络中的输入图像减半)，可以加入反卷积以保持大网络和小网络的最终模拟层一致，如下图所示:

此外，在快速rcnn中的第二阶段快速rcnn训练过程中，还可以加入大网络的监督信号(监督盒的分类和回归)，这样小网络可以学习到更有效的大网络信息，得到更好的结果。

结果分析:

在加州理工学院行人数据集和pascal voc 2007数据集上进行了实验。

加州理工学院使用每张图像假阳性的对数平均失败率作为评估标准。作者首先训练并获得了两个基线检测网络:

同时，将模拟小网络的结构定义为1/n增量网络，网络的深度和层数保持不变，从而减少了conv每层的信道数量，使网络更薄。

可以看出，用传统的模拟方法直接训练模型，结果非常糟糕，甚至比用数据集直接训练小网络还要糟糕:

之后，作者用这种方法进行模拟训练，并取得了相当大的成绩增长:

从上面的结果，我们可以看到，使用模拟的结果几乎或甚至优于原来的网络。

同样，我们可以从挥发性有机化合物数据集的测试结果中看出，模拟方法取得了非常有竞争力的结果。

现场问答

与作者李在2017年cvpr网站上的讨论和交流:

问:为什么我们在本文中使用空间金字塔池来对要素图进行采样，并考虑使用其他方法，如roi池？

答:经李证实，他在后期直接使用roi，即两个特征图的逐像素相减，而不是空间金字塔汇集；；使用spp的效果应该比单一规模的投资回报率池更好。

问:为什么使用单层(最后一层)要素图进行模拟？多个要素图可以融合吗？

答:我们可以尝试整合多个要素图进行监管。理论上，效果应该更好，但是我们没有这样做，因为时间紧迫。为了稳定起见，本文采用了归一化的方法，因为建议的大小每次都在不断变化，所以计算损失时像素的数量会有很大的变化，所以需要归一化。

CVPR论文解读：全新的Mimic方法，效果远优于传统

问:你为什么使用反卷积？您能直接线性缩放要素地图吗？

答:直接缩放要素地图是可行的。同时，这种结构本身将有助于探测小物体。如果解卷层被分成一个分支(这个分支在部署时被移除)，效果可能不如扩大这个小网络。目前，大的特征层似乎有利于小目标的检测。

问:为什么使用小型网络生成的建议书？你曾经尝试过直接使用基本真理盒子吗？

答:我希望模型能更多地关注对象在要素地图上的反应，所以我使用了顶部建议。具体而言，在顶部提议方法中，提议的数量被设置为256或512，并且正样本和负样本的比率被设置为1∶1；然而，用“基础真理”框架进行监测的效果并不好。作者做了类似的实验:对阴性样本使用随机样本，对阳性样本直接使用基础真值，结果比用顶建议法差。

CVPR论文解读：全新的Mimic方法，效果远优于传统