首页 > 其他分享 >2024-03-05 闲话

2024-03-05 闲话

时间:2024-03-05 17:35:42浏览次数:27  
标签:dots 03 05 2024 LLM input LoRA

昨天晚上南开量化社团群里发了一个小红书链接,title 是微观博易终面记录。这样的小红书群里分享了很多已经,我漠然地点进去,开幕雷击:Lrf 找工记。然后发现 nc 哥已经飞黄腾达了。然后思考了一下 qd 可能和 competitive programming 还是 intersection 多一些。

LoRAHub

做法是对于一个 LLM 对于 downstream tasks 训练一些 LoRA \(w_1=A_1B_1,\dots w_n= A_nB_n\),然后在少量样本中学习参数组合 \(c_1,\dots c_n\) 并将 \((\sum_{i=1}^n c_iA_i)(\sum_{i=1}^n c_iB_i)\) 和 LLM 合并进行 inference

这里 \(c_1,\dots c_n\) 的学习是依靠一个 gradient-free method 叫作 CMA-ES,这个方法留坑回头再学习。

现在看起来这个泛化性绝对是差点意思的。

ResLoRA

作者在提出 method 之前做了很多“防止 LoRA 反向传播过程中梯度消失/爆炸” 的描述,目前我不知道这些是不是杞人忧天

三种做法:

  • 和 ResNet 一样,将上一层的 input 加到这层的 input 上

  • 将前层 FFN 的 LoRA 加到当前层的的 LoRA 上

  • 注意到 LoRA 是 BA 去乘 x,所以可以把前几层的 Bx 加到当前层的结果上再和 A 相乘

那么你自然就要问一些问题,比如这是怎么和原 LLM 合并的?

标签:dots,03,05,2024,LLM,input,LoRA
From: https://www.cnblogs.com/yspm/p/18054513/WasteWords20240305

相关文章

  • 2024.3.5 软工日报
    今天满课(早八到晚上九点半)仅提交上课所完成的课堂练习01一、题目内容:大家经常玩成语接龙游戏,我们试一试英语的接龙吧:一个文本文件中有N个不同的英语单词,我们能否写一个程序,快速找出最长的能首尾相连的英语单词链,每个单词最多只能用一次。最长的定义是:最多单词数量,和单词中字......
  • 2024.3.5总结
    CF1933F题目既然他要求出最少用时,考虑bfs思路1我们发现,我们不知道石头的位置,所以我们要记录时间\(\bmodn\)的值,\(O(N^3)\)暴力bfs思路2我们为了不记录时间这一维度,石头都是同时向上移动,可以看作是石头不动,机器人动之后不由自主地向下掉一格,终点也向下......
  • day 05-3 数据类型(字符串)
    3.3公共功能1.字符串相加v1="linzai"+"是个好人"print(v1)#linzai是个好人2.字符串相乘v1="linzai"*3print(v1)#linzailinzailinzai3.计算字符串的长度v1="linzai"data=len(v1)#计算字符串的长度print(data)#64.获取字符串的字符,索引字符......
  • flask_05days __蓝图
    蓝图#blueprint翻译过来的---》把项目分到多个py文件---》以后常用 -划分项目目录 蓝图小项目目录划分(只有一个app)大型项目-目录划分(多个app)——————————————————————————蓝图就是把我们应用目录的模块注册到Flask类,充当一个中间人的角色通过......
  • 2024 年春节集训 _ 第二课 - 数据结构优化动态规划
    【例题\(1\)】递增子序列\(\color{white}{link}\)考虑\(dp.\)\(dp[i][j]\)表示以元素\(i\)为结尾,长度为\(k\)的方案数。那么显而易见就有一个转移方程:\[dp[i][j]=\sum_{a[k]<a[i],\k<i}dp[k][j-1]\]先抛去第二维度的\(j\),这是可以做一个关于\(a[i]\)值的大......
  • 2024.3.5 esp8266开发学习_arduino常用函数
    2024.3.5esp8266开发学习_arduino常用函数pinMode函数引脚模式选择,模式有INPUT(输入),OUTPUT(输出),INPUT_PULLUP(上拉输入,自动拉高电平)//GPIOFUNCTIONS#defineINPUT      0x00//输入#defineINPUT_PULLUP   0x02//上拉输入#defineINPUT_PULLDOWN_16......
  • 联合省选2024游记
    day-???THUWC和NOIWC都结束了,一个2=一个Cu,太失败了。面基了HE的其他几个oier,大家都好厉害。回家摆烂,跟上了NFLS的模拟赛,天天被吊打/jk在省选前三周下载米哈游最新力作崩坏星穹铁道然后愤怒开玩,两周过完了主线返校了。day-2教练问高一选手有没有想去体验一下省选的,竟然还可......
  • 2024GDOI邮寄
    省流:菜渣了Day0上午腐败中午在车上腐败下午试机,打了lct+sam,感觉状态不错(flag)晚上腐败Day1看题,然后发现T1就是愁长的柿子,T2不太会,T3题意似乎很像模拟赛原题然后划了一下,T1还是不太会,但性质感觉全会了,T3跟模拟赛原题无任何关系然后继续想无果,赶紧写性质和暴力,写的很慢写完......
  • 题解 P10220【[省选联考 2024] 迷宫守卫】
    \(\text{Link}\)葬送了我2024省选的一题。题意有一颗深度为\(n+1\)的完全二叉树,其叶子上依次标有一个长为\(2^n\)排列\(a\),非叶结点有选择代价\(b_i\)。Alice、Bob两人进行游戏。Alice可以选择一些选择代价和不超过\(m\)的非叶结点,此后Bob会从根开始深度优先搜索......
  • javaweb03-前端工程
    Ajax异步的Javascript和XML数据交换异步交互:在不重载页面的情况下,与服务器交换数据并更新部分网页Axios入门前后端分离开发需求分析->接口定义->前后端并行开发->测试->前后端联调开发YAPI接口管理平台前端工程化规范化、标准化前端开发环境准备vue-cli脚手架Vu......