记录一次梯度爆炸+对比学习

时间：2022-10-11 21:24:30浏览次数：59

标签：loss 爆炸梯度样本学习对比

背景

对比学习，使用dropout构造正样本，出现对比学习loss越来越大最终nan。但是如果事先对向量进行l2正则化，loss正常下降。

解决过程

考虑有如下原因，一一排除并最终锁定：

batch_size太大，导致分母过大，负样本过多，log里面的项无限接近于0，loss项过大（但是对比学习一般说负样本越多越好，基本排除batch_size太大）
向量维度过大，导致直接点乘的结果过大
温度系数过小（温度系数设为1后，依然爆炸，排除）
dropout p=0.4设置的过大，导致正样本中含0元素过多，和负样本与正样本的乘积都差不多，很难优化。（设置p=0.1后，梯度爆炸现象消失，暂时解决）

标签：loss,爆炸,梯度,样本,学习,对比
From： https://www.cnblogs.com/carolsun/p/16782601.html

workerman/gatewayworker使用protobuffer和json的对比
作者回答“在websocket上传输json更通用一些，调试也更方便一些。”“快0.00001秒没有什么太大意义。另外最好压测下php的json和protobuffer到底哪个快，php下还真不一定prot......
git工作原理之记录快照而非差异对比
文件系统，点击进入快照理解，点击进入......
对比Python，看看Excel如何3步给证件照换底色！
Python完成证件照换底色注：该图片来源于百度图片，如果侵权，请联系我删除！图片仅用于知识交流。不久前，我写了一篇关于Python怎么给证件照换底色的文章，阅读2万+，评论102，点......
containerd和docker命令对比
命令dockercrictl（推荐）ctr查看容器列表dockerpscrictlpsctr-nk8s.iocls查看容器详情dockerinspectcrictlinspectctr-nk8s.iocinfo查看......
gradle项目对比maven项目的目录架构以及对gradle wrapper的理解
转载请注明出处：1.使用idea搭建gradle项目注意 type 选择 gradle 以及 language 选择 grooy ......
Go语言的接口和Rust的Trait的对比
go语言的接口是鸭子的方式，即struct本身拥有的方法如果包含某个接口里定义的所有方法声明，则认为这个struct实现了该接口，举例子：typeAstruct{Faceint}//A结构体......
分库分表 Sharding:8. 主流的数据库中间件实现对比
8. 主流的数据库中间件实现对比8.1 数据库代理与数据源代理典型的数据库中间件设计方案有2种：服务端代理(proxy：代理数据库)、客户端代理(datasource：代理数据......
思科与华为设备OSPF配置命令对比
思科与华为设备OSPF配置命令对比[Huawei]ospf1//启动OSPF进程，进入OSPF视图Cisco(config)#routerospf110[Huawei]ospf1router-id10.1.1.1//启动OSPF进程，进入OSPF......
AF协议DF协议以及无协作的系统误码率仿真分析对比
clc;clear;closeall;xindao_SD=2;xindao_SR=1;xindao_RD=1.5;M=16;%10种发射信噪比情况R=2;SNR_S=zeros(1,M);%源发射信噪比数组SNR=zeros(1,M);%......
cookie session token 对比
http是无状态，也就是说每次的http请求都是独立的。请求和响应无法维护，都是一次性的，比说在blog上留言发布都需要用户信息的，我们要存储登录用户的状态，**存储方式**1.......

记录一次梯度爆炸+对比学习

背景

解决过程

相关文章

赞助商

阅读排行