Author: 许宏伟
这篇论文是发表在 WACV2019 上,A类会议。
从论文题目就可知,本文做的是 相似网络的可视化工作。相似网络可以直接理解为孪生网络。
在以前做 focus area 区域的任务有:cam, gradcam, gradcam++等,但是这些网络针对是单分类网络。这篇论文作者另辟蹊径,瞄上了孪生网络这种结构,可以对成对图像中寻找相似的关注区域。
下面是一张结果图:
相关工作
本文的相关工作,主要是两部分。
- CNN Visualization ( 不再解释)
- Similarity learning (主要是一些度量学习的方法,例如 triplet loss等)
本文方法
如图所示,对一个孪生网络来说。送进去的一对图片(\(i\) 和 \(j\))分别做卷积,得到最后一层的 feature map \(a^{i}\) 和 \(a^{j}\) 。然后分别做池化,得到 \(b^{i}\) 和 \(b^{j}\)。其中 \(a\) 是 Channel K K 的 tensor,池化后,\(b\) 是 Channel * 1 的tensor。作者为了比较两张图片,最相似的 area,做了一个非常简单暴力的比较。
即: 把 \(b^{i}\) 和 \(a^{j}\) 中的每个像素通道的 tensor 都做 dot product, \(b^{j}\) 与 \(a^{i}\)同理。这样就得到了 两个 K * K 的图,再对应回原图,就得到热图的形式了。
why 可以找到相似区域???
这里的 dot product (论文中说 dot product 不太合适,应该是余弦相似度,因为dot product 是余弦相似的逆运算)。
dot product : \(\hat{a} \cdot\hat{b}=\sum {a_i}{b_i}\)也可以写作 \(\hat{a}\cdot\hat{b}=|a||b|cos\theta\)
余弦相似度 : \(cos\theta=\frac{\hat{a} \cdot\hat{b}}{|a||b|}\)
作者论文的公式是:
所以它是计算了池化后的特征向量和另一张图片特征图各个通道信息的余弦相似,最后得到 similarity maps。
实验
实验部分,作者还探究了 avgpool 和 max pool 对相似特征区域的差异,以及检索的实验。
但是本篇论文,表格对比都没有。不过思想上很简单,而且角度刁钻,也是本文的特点吧