posted @ 2020-02-01 15:21
前段时间总算是向 IJCAI-20 会议投出了人生的第一篇论文。这篇投稿个人看来还是有很多漏洞和不足之处,但也算是完成了个人前进的一小步吧,后续还得继续加油努力,争取有更高质量的投稿。先来对上学期的科研经历做一下总结。
大四及研一两年一直把时间都浪费在了 Crowdsourcing 上。事实证明,选择了一个错误的课题,科研过程事倍功半。Crowdsourcing 领域要数据集没有数据集,又没有统一的对比算法,全是往上堆一些新的东西,根本不太好做。在读完了大量的 Crowdsourcing 领域的文献后,却没有一点头绪,确实感觉做不出来。
从2019年5月份起,大概就开始准备做 noisy label 方面的科研,于是读了大量的文章,暑假一直在尝试把 (ICML-18)Learning to reweighting for robust deep learning 的 idea 用来修改 noisy label,但发现似乎模型会严重地过拟合于一个小的 unbiased dataset,导致效果无法提升上去。
然后大概在 9月初,读 (ICML-19)Unsupervised Loss model 发现确实有 clean example 具有 small-loss 这一个特性,然后在结合半监督学习 MixMatch 技术发现有不小的提升。于是就兴致冲冲地准备就此写一个论文投 CVPR-20.
最初的第一个版本:
- 使用双峰间的距离作为 early-stopping 的准则来挑选一个 epoch 的loss values
- 构造了一个方法来估计 noisy rates
但后续试验发现:
- 在 structured 和 pair 下 loss distribution 根本不形成双峰分布
- 估计noisy rates 的方法在structured 以及 pairwise下也不太准确
因此,在后续版本中,
- 采用了 mean loss,从而避免了没有一个合理的准则来挑选某一轮的 loss 以及单轮 loss 存在波动的情形。
- 把估计 noise rate 的那部分给去掉了。
当时是准备投稿 CVPR-20 11.15号左右,但我当时没有做得特别好,并且实验也没有跑完。
后来王老师建议投 IJCAI 或者 ICML,然后让我加一个关于 small-loss 的理论分析上去。但其实最终关于 small-loss 的理论分析,王老师的贡献更大。
写论文是在是一个技术活,从 11月15号一直到1月22号,整整两个月一直在改论文,改来改去,改了好几版,最后仍然没有写到令自己满意的程度。
可能是我之前一直确定好这个工作的主要贡献,我先前一直认为主要贡献是修改了 small-loss trick, 但是王老师观察点和我并不一样。
最终我仍然觉得摘要写的平平无奇,理论部分的贡献似乎并不太够,不应该被强调,但王老师的写法还是强调了。
并且我先前费脑子想的写法,发现远远没有王老师帮忙修改后来得简洁精炼。我自己写得是真的烂,没有王老师帮忙改,根本投不出去。啥时候我要是能把写作功底练好,就好了。王老师帮我改到了1月22号凌晨2点多。然后说第二天还有其他事,确实是辛苦王老师了。
自己未来还有很长的路要走,加油。吸取目前一年来的经验和教训
1.做实验千万不要拖拉,赶紧做,是否 work 必须要有感觉
2.即使实验结果不好,不要沮丧失望,也要继续尝试,千万不要停下来
3.快,再快一点,一定要快,科研千万不要拖延,越拖延,内心越乱
4.认真科研,认真学习,认真生活
5.注意学习领悟导师的教导,多向他人学习。
6.做得差说明还有很大的提升空间,这未尝不是一件好事