论文阅读系列–CNN网络架构篇

1. Towards a General Purpose CNN for Long Range Dependencies in ND

一句话摘要: 使用小网络来生成kernel实现连续的卷积神经网络每层的Long range dependency

论文之我问:

1.1 这个论文的动机是什么

众所周知，计算机视觉中的具有良好性能的CNN架构都需要针对特定任务进行定制，比方说要考虑输入长度啊，分辨率以及输入维度等等。该论文目的是克服这个基于问题定制化的CNN架构。

如图1所示。 (a) 表示一个小神经网络$G_{Kernel}$，它的输入是 $corrd_{i}$ , 然后它的输出是在位置K处的卷积核

简而言之，这就是个它可以理解为一个卷积核生成网络

如图2所示。Continues CNN 架构。

架构的形成: Res block + Position normalization layers + FlexNet ~ S4 networks
深度可分离连续核卷积：分离卷积可以提升计算效率，并可以优化卷积，通过对spatial和channel的分离，先少了计算复杂度和参数复杂度。
核生成网络的初始化：初始化时，为避免出现梯度爆炸或者梯度消失，通常会让卷积层的输入方差等于输出方差。为避免上述情况，在核生成网络的最后一层，重新加权: $gain/\sqrt{in_ channels\cdot kernel_ size}$

CCNN在多种任务上都表现良好，并在一些任务上达到了SOTA