首页 > 其他分享 >LLaMA,LLaMA-2中的变化

LLaMA,LLaMA-2中的变化

时间:2023-09-28 13:55:39浏览次数:30  
标签:SwiGLU RMSNorm re LLaMA 变化 xW Norm

LLaMA

  • 预训练Token数量 1.4T

    • CommonCrawl,C4:互联网网页
    • github:代码
    • wikipedia:百科
    • books,arxiv:书籍论文
    • StackExchange:科学问答
  • pre-norm + RMSNorm

    • \(Pre Norm: x_{t+1}=x_t+F(Norm(x_t))\)
    • \(Post Norm: x_{t+1}=Norm(x_t+F(x_t))\)
    • 关于两者的讨论可以参考 博客
    • RMSNorm:计算减少,效果不差
      • layernorm:re-scale(方差)+ re-center(均值)
      • RMSNorm:re-scale(方差)
  • FFN->SwiGLU

    • FFN: $ max(0,xW_1 )W_2 $
    • SiLU:$ x*sigmoid(x)$,零点附近梯度较为友好
    • SwiGLU: $ (SiLU(xW_{gate}) ⊗ xW_1 )W_2 $
  • RoPE

  • 上下文长度2048

LLaMA-2

  • 预训练Token数量 2T
  • pre-norm + RMSNorm(layerNorm的简化版)
  • SwiGLU activation function
  • RoPE
  • 上下文长度4096
  • GQA(grouped-query attention)

标签:SwiGLU,RMSNorm,re,LLaMA,变化,xW,Norm
From: https://www.cnblogs.com/shiiiilong/p/17735572.html

相关文章

  • 数电票试点迎来新变化
    近日,黑龙江、河北、湖北、新疆四省分别发布了《关于开展全面数字化的电子发票试点工作的公告》(以下简称《通知》),数电票全国试点地区已达到28个。同时,随着四省上线,数电票试点也带来了一些全新变化。明确须归档保存XML电子文件《通知》明确了数电票三类文件中,含有数字签名的XML格式才......
  • Llama2-Chinese项目:2.3-预训练使用QA还是Text数据集?
      Llama2-Chinese项目给出pretrain的data为QA数据格式,可能会有疑问pretrain不应该是Text数据格式吗?而在Chinese-LLaMA-Alpaca-2和open-llama2预训练使用的LoRA技术,给出pretrain的data为Text数据格式。所以推测应该pretrain时QA和Text数据格式都应该支持。然后马上就会有一个疑问......
  • python,一个数组y1存放yolo的位置信息BBOX,一个y2数组存放识别的结果信息,根据y1数组按
    importnumpyasnp#示例数据y1=np.array([[50,100,200,300],[10,20,30,40],[60,70,80,90]])y2=np.array(['cat','dog','bird'])#按左上角点的坐标排序y1数组sorted_indices=np.lexsort((y1[:,1],y1[:,0]))y1_sorted=y1[sorted......
  • 使用QLoRA对Llama 2进行微调的详细笔记
    使用QLoRA对Llama2进行微调是我们常用的一个方法,但是在微调时会遇到各种各样的问题,所以在本文中,将尝试以详细注释的方式给出一些常见问题的答案。这些问题是特定于代码的,大多数注释都是针对所涉及的开源库以及所使用的方法和类的问题。 https://avoid.overfit.cn/post/903a50......
  • FPGA 让2个LED灯按照设置的模式各自在一个变化循环内独立亮灭变化
    代码如下://让多个LED灯按照设置的模式各自在一个变化循环内独立亮灭变化。modulecounter_led_5(Clk,Reset_n,CtrlA,CtrlB,Time,Led);inputClk;inputReset_n;input[7:0]CtrlA;input[7:0]CtrlB;input[31:0]Time;......
  • 【转载】Vue Provide / Inject 详细介绍(跨组件通信、响应式变化、版本变化)
    版权声明:本文为CSDN博主「前端不释卷leo」的原创文章,遵循CC4.0BY-SA版权协议,转载请附上原文出处链接及本声明。原文链接:https://blog.csdn.net/qq_41809113/article/details/122071958 一、背景通常,当我们需要从父组件向子组件传递数据时,我们使用props。想象一下这样的结......
  • R语言STAN贝叶斯线性回归模型分析气候变化影响北半球海冰范围和可视化检查模型收敛性|
    原文链接:http://tecdat.cn/?p=24334最近我们被客户要求撰写关于贝叶斯线性回归的研究报告,包括一些图形和统计输出。像任何统计建模一样,贝叶斯建模可能需要为你的研究问题设计合适的模型,然后开发该模型,使其符合你的数据假设并运行1.了解 Stan统计模型可以在R或其他统计语言的......
  • 只要了解FPmarkets澳福使用的Renko图表,价格变化还是问题吗
    所有人都在告诉你知道了价格走势变化,就可以在交易市场中盈利,但没有人告诉你如何清晰明了的知道价格走势。其实很简单,只要了解FPmarkets澳福一直在使用的Renko图表,如果不好使,评论区留言,给您充值1000.Renko是一种显示资产价格变动的图表。这是代表价格变化的日本烛台的替代物。Renko......
  • 查找范围动态变化
    问题:查找范围在不同列,如何使用一个公式下拉完成函数公式解决:=VLOOKUP(E3,OFFSET(AM$1:AN$17,,MATCH("高"&LEFT(B3)&"赋分",AN$1:AQ$1,)),2,)使用Offset函数,以AM1:AN17为起点,向下不偏移,向右偏移由B列最左的汉字决定。使用Match函数,查找"高"&LEFT(B3)&"赋分"在AN1:AQ1中的......
  • Llama2-Chinese项目:2.1-Atom-7B预训练
      虽然Llama2的预训练数据相对于第一代LLaMA扩大了一倍,但是中文预训练数据的比例依然非常少,仅占0.13%,这也导致了原始Llama2的中文能力较弱。为了能够提升模型的中文能力,可以采用微调和预训练两种路径,其中:微调需要的算力资源少,能够快速实现一个中文Llama的雏形。但缺点也显而易......