< >

微软亚洲研究院推轻量级视觉网络新主干 AFF Token Mixer

发表日期：2023-8-24 作者来源：派谷网络浏览次数：

微软亚洲研究院的研究人员最近在 ICCV2023上发表了一篇论文，提出了一种名为 Adaptive Fourier Filter（AFF）的轻量高效 Token Mixer，可以显著降低视觉神经网络的计算复杂度。论文显示，通过傅立叶变换可以等效地实现 Token 的融合，而计算量远小于直接使用大内核卷积进行 Token 融合。基于该核心思想，研究员设计了 AFF Token Mixer，可以将 Token 融合的计算复杂度从 O(N^2) 降低到 O(NlogN)，同时实现全局自适应的 Token 融合。

论文的主要贡献包括:1）证明了频域卷积可以实现与大内核卷积等效的 Token 融合，但计算量更低;2)设计了 AFF Token Mixer，可以高效全局融合 Token;3)基于 AFF Mixer 构建了轻量级神经网络 AFFNet。

AFF Token Mixer 的设计思路是:首先通过 FFT 把 Token 映射到频域，然后在频域学习一个内容自适应的滤波掩模，最后对频域进行滤波来实现 Token 的自适应融合。根据频域卷积定理，这在数学上等价于在原始域使用一个与 Token 集大小相同的大动态卷积核进行卷积。但频域滤波的计算量仅为 O（NlogN），远小于 O(N^2) 的空间卷积。

基于 AFF Token Mixer，研究人员构建了轻量级的全卷积网络 AFFNet，以其作为主干网络。在 ImageNet 图像分类任务上，AFFNet 仅使用550万参数就达到了79.8% 的准确率，优于其他轻量级模型如 VoVNet 和 RegNet 等。更令人惊讶的是，AFFNet 在多个下游任务上也展现出色的性能，如在 COCO 检测和 ADE20K 分割上明显超过了使用相近复杂度的模型。

本研究验证了频域变换在降低 Token 融合计算复杂度方面的有效性。AFF Token Mixer 为轻量级全局信息融合提供了新的有效途径。基于该 Token Mixer 构建的 AFFNet 作为新的轻量级 CNN 主干网络，有望推动更多视觉模型在边缘设备上的应用。本研究为探索有效的轻量级视觉网络结构提供了新的思路和范式。

本文章系本站编辑转载，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容！

返回列表

下一篇：微软Edge浏览器推出AI智能搜索Smart Find功能
上一篇： AI搜索引擎You.com宣布在WhatsApp推出搜索功能

微软亚洲研究院推轻量级视觉网络新主干 AFF Token Mixer

相关网站设计案例

行业动态

网站策划

网站制作

网站维护

网站推广

网站运营

网站安全

网站优化

网络营销

本站动态