1. BaseInfo
Title | Wavelet Convolutions for Large Receptive Fields |
Adress | https://arxiv.org/pdf/2407.05848 |
Journal/Time | ECCV 2024 |
Author | 以色列本古里安 |
Code | https://github.com/BGU-CS-VIL/WTConv |
2. Creative Q&A
- 卷积核 7x7 时性能饱和。 卷积层 CNN 响应高频较多,Attention head 响应低频较多。增加卷积的感受野,而不会受到过度参数化的影响 -> 利用小波变换(Wavelet Transform, WT)来放大卷积感受野,并通过级联引导CNN更好地响应低频。
对于 k × k 感受野,我们的可训练参数数量仅随 k 呈对数增长。
把 WTConv 替代 Depth-wise Conv
3. Concrete
3.1. Model
小波变换和逆小波变换。
WTConv/wtconv/wtconv2d.py
定义了 WTConv2d
from wtconv import WTConv2d
conv_dw = WTConv(32, 32, kernel_size=5, wt_levels=3)
3.2. Training
在 分类、分割和检测三个下游任务上实验。
3.3. Eval
-
ImageNet-1K Classification
-
Semantic Segmentation (ADE20K)
-
Object Detection
Cascade Mask R-CNN on the COCO dataset
3.4. Ablation
4. Reference
5. Additional
相关工作部分写的极其完善!
包括附录。
参数变多,运行时间长。可能因为是并行执行。