1、前段时间国外某大学反向抄袭国内某团队的大模型闹得沸沸扬扬,国内被抄袭的大模型是MiniCPM,详细资料:https://github.com/OpenBMB/MiniCPM ; 能被国外同行抄袭,必定有过人之处,粗略看了一下https://github.com/OpenBMB/MiniCPM/blob/main/model/modeling_minicpm.py 模型文件,发现整个结构和llama类似,没啥特别的,如下:
既然模型整体的结构和llama接近,没啥特别的,效果好就看整个训练策略了!作者详细介绍了训练策略:https://shengdinghu.notion.site/MiniCPM-c805a17c5c8046398914e47f0542095a 主要是从这5个方面优化的:
- Hyper-parameters
- Batch size
- Learning Rate
- Learning Rate Scheduler
- Data Strategy
所以要想大模型效果好,有个大的改进方向:
- 改模型细节:比如llama用旋转位置编码代替绝对位置编码、采用flashAttention等
- 改训练策略:比如MiniCPM
MiniCPM训练策略介绍的文章中指出:采用DPO对齐后,MiniCPM的得分甚至超过了llama2-70b-chat,效果很好啊!这个DPO又是啥了?
2、目前市面上主流LLM,界面上都有反馈功能:觉得好的点赞,绝不不好的点倒赞!背后用的就是强化学习!现成已经实现的库在这里:https://github.com/huggingface/trl
参考:
1、https://www.bilibili.com/video/BV1vy4y1P7GT/?spm_id_from=333.788&vd_source=241a5bcb1c13e6828e519dd1f78f35b2 强化学习TRL包源码解读S2——PPO
2、https://shengdinghu.notion.site/MiniCPM-c805a17c5c8046398914e47f0542095a MiniCPM:揭示端侧大语言模型的无限潜力
3、https://zhuanlan.zhihu.com/p/686664720 如何从零开始训练大模型(minicpm分享&讨论)
4、https://www.bilibili.com/video/BV1Lt421V7K6/?spm_id_from=333.337.search-card.all.click&vd_source=241a5bcb1c13e6828e519dd1f78f35b2 MiniCPM-2B-dpo-bf16MiniCPM-2B-dpo-fp32gradio webdemo演示系统及GPU占用情况
标签:MiniCPM,模型,LLM,源码,https,DPO,com From: https://www.cnblogs.com/theseventhson/p/18252727