微软亚洲研究院的研究人员最近在 ICCV2023上发表了一篇论文,提出了一种名为 Adaptive Fourier Filter(AFF)的轻量高效 Token Mixer,可以显著降低视觉神经网络的计算复杂度。论文显示,通过傅立叶变换可以等效地实现 Token 的融合,而计算量远小于直接使用大内核卷积进行 Token 融合。基于该核心思想,研究员设计了 AFF Token Mixer,可以将 Token 融合的计算复杂度从 O(N^2) 降低到 O(NlogN),同时实现全局自适应的 Token 融合。
论文的主要贡献包括:1)证明了频域卷积可以实现与大内核卷积等效的 Token 融合,但计算量更低;2)设计了 AFF Token Mixer,可以高效全局融合 Token;3)基于 AFF Mixer 构建了轻量级神经网络 AFFNet。
AFF Token Mixer 的设计思路是:首先通过 FFT 把 Token 映射到频域,然后在频域学习一个内容自适应的滤波掩模,最后对频域进行滤波来实现 Token 的自适应融合。根据频域卷积定理,这在数学上等价于在原始域使用一个与 Token 集大小相同的大动态卷积核进行卷积。但频域滤波的计算量仅为 O(NlogN),远小于 O(N^2) 的空间卷积。
基于 AFF Token Mixer,研究人员构建了轻量级的全卷积网络 AFFNet,以其作为主干网络。在 ImageNet 图像分类任务上,AFFNet 仅使用550万参数就达到了79.8% 的准确率,优于其他轻量级模型如 VoVNet 和 RegNet 等。更令人惊讶的是,AFFNet 在多个下游任务上也展现出色的性能,如在 COCO 检测和 ADE20K 分割上明显超过了使用相近复杂度的模型。
本研究验证了频域变换在降低 Token 融合计算复杂度方面的有效性。AFF Token Mixer 为轻量级全局信息融合提供了新的有效途径。基于该 Token Mixer 构建的 AFFNet 作为新的轻量级 CNN 主干网络,有望推动更多视觉模型在边缘设备上的应用。本研究为探索有效的轻量级视觉网络结构提供了新的思路和范式。
本文章系本站编辑转载,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!