首页 > 其他分享 >深度学习刷SOTA的trick

深度学习刷SOTA的trick

时间:2023-07-28 17:22:34浏览次数:38  
标签:loss 训练 参考 SOTA lingual trick 深度 语料

作者:Gordon Lee
https://www.zhihu.com/question/540433389/answer/2549775065

 

1.R-Drop:两次前向+KL loss约束

2. MLM: 在领域语料上用mlm进一步预训练 (Post-training)

3. EFL: 少样本下,把分类问题转为匹配问题,把输入构造为NSP任务形式.

4. 混合精度fp16: 加快训练速度,提高训练精度

5. 多卡ddp训练的时候,用到梯度累积时,可以使用no_sync减少不必要的梯度同步,加快速度

6. 对于验证集或者测试集特别大的情况,可以尝试多卡inference,需要用的就是dist.all_gather,对于非张量的话也可以用all_gather_object

7. PET: 少样本下,把分类转为mask位置预测,并构造verbalizer,参考EACL2021. PET

8. ArcFaceLoss:双塔句子匹配的loss把NT-Xent loss改成arccos的形式,参考ACL2022. ArcCSE

9. 数据增强在zero shot x-lingual transfer:code switch,machine translation..记得最后加一致性loss,参考consistency regularization for cross lingual finetuning

10. SimCSE:继续在领域语料上做simcse的预训练

11. Focal loss: 不平衡的处理

12. 双塔迟交互:maxsim操作:query和doc的每个token表征算相似度,取最大相似度再求和。速度和精度都有一个很好的平衡,参考colbert

13. 持续学习减轻遗忘:EWC方法+一个很强的预训练模型效果很不错。就是加一个正则让重要参数遗忘不太多,重要性用fisher信息度量。

14. 对抗训练:FGM,PGD,能提点,就是训练慢,

15. memory bank增大bsz,虽然我感觉有时候有点鸡肋

16. PolyLoss: -logpt + eps * (1-pt) 效果存疑,反正我试了没啥效果,有人试过效果不错

 

 

数据也是有章法的,不是什么数据都标,基本上的步骤流程都是分析模型bad case的规律,然后找类似的数据来标注。这个过程的最终结果是选了对于当前模型状态来说,最有价值的一批数据来进行标注,本质上其实就是进行人肉的主动学习

标签:loss,训练,参考,SOTA,lingual,trick,深度,语料
From: https://www.cnblogs.com/dwletsgo/p/17588461.html

相关文章

  • P1219 八皇后 Checker Challenge(深度搜索dfs经典问题+回溯)
    题目连接:P1219[USACO1.5]八皇后CheckerChallenge-洛谷|计算机科学教育新生态(luogu.com.cn) 典型的深度优先搜索的问题----》先付代码再来跟新java组代码packagePTACZW;importjava.util.Scanner;importjava.io.*;importjava.util.Set;importjava.util.Has......
  • Vue2的/deep/深度选择器失效了?
    /deep/在Vue2样式中的问题。太长不看:不要在VueSFC以外的地方使用/deep/。对于Vue3,请使用最新的:deep()伪类选择器。什么是/deep//deep/是Vue2中一个重要的样式选择器,可以用于选择封装好的组件内部的样式。如果直接在Vue组件上设置class属性,该属性只附加于子......
  • 基于LSTM深度学习网络的人员行走速度识别matlab仿真,以第一视角视频为样本进行跑或者
    1.算法理论概述      人员行走速度是衡量人体运动能力和身体健康的重要指标之一。目前,常见的人员行走速度识别方法主要基于传感器或摄像头获取的数据,如加速度计数据、GPS数据和视频数据等等。其中,基于视频数据的方法因为其易于获取和处理而备受关注。但是,传统的基于特征提......
  • 深度学习用什么卡比较给力?—— A100真的么有RTX4090好吗?
    近日看到这么一个帖子:https://www.zhihu.com/question/612568623/answer/3131709693     =================================================   ......
  • 基于深度学习的图像分割技术探究
    导言:图像分割是计算机视觉领域的重要任务,旨在将图像划分为不同的语义区域,实现对图像中感兴趣物体的定位和提取。深度学习作为图像分割的新兴技术,通过卷积神经网络(CNN)等模型,取得了显著的分割效果。本文将探究基于深度学习的图像分割技术的原理、应用以及面临的挑战。第一部分:基于......
  • 卖萌屋算法工程师思维导图part3—深度学习篇
    卖萌屋的妹子们(划掉)作者团整理的算法工程师思维导图,求职/自我提升/查漏补缺神器。该手册一共分为数据结构与算法、数学基础、统计机器学习和深度学习四个部分。下面是第三部分深度学习的内容~公众号后台回复【思维导图】获取完整手册(Xmind脑图源文件,学习起来更方便(ง•_•)ง编码......
  • 东方博宜 2166 - 子树的大小及深度
    题目描述现在有一棵n个结点的树,结点1为这棵树的根,结点1的深度为1,求出每棵子树的大小及每个结点的深度。比如,有如下图所示的树:该树中:结点1对应的子树大小为6,深度为1。结点2对应的子树大小为5,深度为2。结点3对应的子树大小为1,深度为3。结点4对应的子......
  • 关于深度学习、NLP和CV,我们写了一本1400页的全栈手册
    不知不觉写文章已经四年了。最开始是一个人,后来恰了恰饭,就招揽了很多比小夕厉害的小伙伴一起写。不知不觉已经积累了300多篇了。。三年以来,我跟小伙伴们原创的300+篇深度学习、NLP、CV、知识图谱、跨模态等领域的入门资料、子方向综述、2018~2022学术前沿解读、工业界炼丹经验与算......
  • 复习《动手学深度学习 pytorch版》
    向量的范数是表示一个向量有多大。这里考虑的大小(size)概念不涉及维度,而是分量的大小。定义了向量空间里的距离,它的出现使得向量之间的比较成为了可能。范数是一个函数对于向量来说常用的是L1、L2范数,对于矩阵来说常用的是反向传播(backpropagate)意味着跟踪整个计算图,填充关......
  • TVM编译深度学习模型
    QuickStartTutorialforCompilingDeepLearningModels本文将展示如何使用Relaypython前端构建神经网络,并使用TVM为NvidiaGPU创建实时运行库,需要有cuda版本的TVM和llvm。TVM支持的硬件后端图中展示了TVM目前支持的硬件后端将选择cuda和llvm后端,首先导入Relay和TVMimpo......