首页 > 其他分享 >Pre-trained Model

Pre-trained Model

时间:2024-03-25 14:55:35浏览次数:18  
标签:Pre RMS LN trained Model Norm

What is pre-training?
Self-supervised learning on the large set of unlabeled data.

Pre-trained Model Architecture Pre-training task Task Type Example
Encoder-only (AutoEncoder) Masked Language Model NLU BERT Family
Decoder-only (AutoRegression) Causal Language Model or Prefix Language Model NLG GPT, Llama, Bloom
Encoder-Decoder (Seq2Seq) Sequence to Sequence Model Conditional-NLG T5, BART

Layer Normalization

  • Post-LN
  • Pre-LN
  • Sanwich-LN
Model Nomalization
GPT3 Pre Layer Norm
Llama Pre RMS Norm
baichuan Pre RMS Norm
ChatGLM-6B Post Deep Norm
ChatGLM2-6B Post RMS Norm
Bloom Pre Layer Norm

Attention

  • Bidirectional attention: Encoder
  • unidirectional or one-way attention: Decoder

注意力得分矩阵是下三角矩阵

标签:Pre,RMS,LN,trained,Model,Norm
From: https://www.cnblogs.com/forhheart/p/18094372

相关文章

  • express的路由学习
    什么是路由广义地说,就是映射关系。在Express中的路由,指的是客户端的请求与服务器处理函数之间的映射关系。Express中的路由由三部分组成,分别是请求的类型、请求的URL地址、处理函数,格式如下:app.METHOD(PATH,HANDLER)其实看到这里,大家可能已经很熟悉路由在express中是个什么东......
  • 捏妈妈的,学了两天的node.js才学到express,之前白雪了呗!
    Express的基本使用1、老样子,先导入constexpress=require(‘express’)2、然后创建一个服务器constapp=express()3、启动服务器app.listen(80,()=>{console.log('expressserverrunningathttp://127.0.0.1') }) 下面我们继续学习用法监听Get请求:可以使用app.g......
  • non constant or forward reference address expression for section .ARM.extab 错误
    编译时报错:FAILED:STM32F103RET6_Test001.elfcmd.exe/C"cd.&&D:\ProgramFiles\gcc-arm-none-eabi\bin\arm-none-eabi-gcc.exe-g-Wl,-gc-sections,--print-memory-usage,-Map=D:/ProjectCode/CLion/test/STM32F103RET6_Test001/cmake-build-debug-arm-......
  • 解决主流办法没能HttpMediaTypeNotAcceptableException: No acceptable representatio
    问题描述:        写web项目时遇到一些小问题,前端请求后端死活报406错误问题,一些网络上主流的方法试过之后仍然无法解决问题。问题分析:        @RestController会在返回结果时直接返回对象,再由Spring将对象转为json,如果结果对象没有get方法,就会报以上错误......
  • 中考英语首字母快速突破014-2021上海徐汇英语二模-Future Changes: Predictions and P
    PDF格式公众号回复关键字:ZKSZM014原文​Readthecommentsaboutchangesinthefuture.Howmuchdoyouagreewiththem?​Thedays,somepeopleworkathomeoneortwodaysaweekinsteadofgoingtoanofficeeveryday.Ithinkinthefuture......
  • 【附源码】Node.js毕业设计高校拼车系统(Express)
    本系统(程序+源码)带文档lw万字以上  文末可获取本课题的源码和程序系统程序文件列表系统的选题背景和意义选题背景:随着社会的发展与科技的进步,人们对于出行方式的需求日益多样化,尤其是在高校校园内,学生、教职工等群体的出行需求频繁而复杂。传统的出行方式如步行、自行车......
  • 【附源码】Node.js毕业设计高校排课系统设计(Express)
    本系统(程序+源码)带文档lw万字以上  文末可获取本课题的源码和程序系统程序文件列表系统的选题背景和意义选题背景:随着信息技术的飞速发展,高校教育管理逐渐向数字化、智能化方向迈进。在这一背景下,高校排课系统作为教育管理的重要组成部分,其优化与改进显得尤为重要。传统......
  • A Survey on Large Language Model Hallucination via a Creativity Perspective
    本文是LLM系列文章,针对《ASurveyonLargeLanguageModelHallucinationviaaCreativityPerspective》的翻译。从创造力的角度考察大型语言模型的幻觉摘要1引言2LLM时代的幻觉3幻觉中隐藏的创造力4大型语言模型的创造力5利用LLM幻觉进行创造6结论和未......
  • [HDU5396] Expression 题解
    每次合并两个数,做过石子合并的人都能看出来是区间dp。设状态\(dp_{i,j}\)表示区间\([i,j]\)中合并为一个数的所有情况之和。那么我们就可以枚举断点\(k\):\(b_k\)为\(+\):\([i,k]\)中的每种情况都要和\([k+1,j]\)中的每种情况产生一个贡献,所以总贡献为\(dp_{i,k}\ti......
  • prefer 组合 to 继承
    核心不要多继承,要通过组合的模式进行组合,解耦,非强绑定需求我已有一个CodingService的接口,同时有一个CodingServiceImpl的实现类,接口中定义了createReository,pullCode,pushCode三个方法,CodingServiceImpl实现类里面进行了实现,现在想通过prefer组合to继承的思想,将接口中的3......