本周主要做的事情是找了最近几年发布的代码,大致看了一下网络结构以及实现,为下面替换做一个准备。
运行成功了deformer-detr的代码,将抽取出deformable attention放到模型上面效果非常差,误差是之前的几倍。
分析
1.可能是代码的问题,有一些参数没有设置好。
2.对于deformable attention叠加的层数,放置的位置,还有待进一步实验。
另外打算把deformable attention替换到其他使用注意力模型(如下图)的代码上看一下效果。
本周主要做的事情是找了最近几年发布的代码,大致看了一下网络结构以及实现,为下面替换做一个准备。
运行成功了deformer-detr的代码,将抽取出deformable attention放到模型上面效果非常差,误差是之前的几倍。
分析
1.可能是代码的问题,有一些参数没有设置好。
2.对于deformable attention叠加的层数,放置的位置,还有待进一步实验。
另外打算把deformable attention替换到其他使用注意力模型(如下图)的代码上看一下效果。