昨天晚上南开量化社团群里发了一个小红书链接,title 是微观博易终面记录。这样的小红书群里分享了很多已经,我漠然地点进去,开幕雷击:Lrf 找工记。然后发现 nc 哥已经飞黄腾达了。然后思考了一下 qd 可能和 competitive programming 还是 intersection 多一些。
LoRAHub
做法是对于一个 LLM 对于 downstream tasks 训练一些 LoRA \(w_1=A_1B_1,\dots w_n= A_nB_n\),然后在少量样本中学习参数组合 \(c_1,\dots c_n\) 并将 \((\sum_{i=1}^n c_iA_i)(\sum_{i=1}^n c_iB_i)\) 和 LLM 合并进行 inference
这里 \(c_1,\dots c_n\) 的学习是依靠一个 gradient-free method 叫作 CMA-ES,这个方法留坑回头再学习。
现在看起来这个泛化性绝对是差点意思的。
ResLoRA
作者在提出 method 之前做了很多“防止 LoRA 反向传播过程中梯度消失/爆炸” 的描述,目前我不知道这些是不是杞人忧天
三种做法:
-
和 ResNet 一样,将上一层的 input 加到这层的 input 上
-
将前几层 FFN 的 LoRA 加到当前层的的 LoRA 上
-
注意到 LoRA 是 BA 去乘 x,所以可以把前几层的 Bx 加到当前层的结果上再和 A 相乘
那么你自然就要问一些问题,比如这是怎么和原 LLM 合并的?
标签:dots,03,05,2024,LLM,input,LoRA From: https://www.cnblogs.com/yspm/p/18054513/WasteWords20240305