首页 > 其他分享 >大语言模型LLM资料

大语言模型LLM资料

时间:2024-07-29 22:29:38浏览次数:16  
标签:语言 模型 能力 任务 阶段 LLM

模型:
有趣的是,当参数规模超过一定水平时,这个更大的语言模型实现了显著的性能提升,并出现了小模型中不存在的能力,比如上下文学习。为了区别于 PLM(预训练语言模型),这类模型被称为大型语言模型(LLMs)。

模型

LLM 的涌现能力被正式定义为「在小型模型中不存在但在大型模型中出现的能力」,这是 LLM 与以前的 PLM 区分开来的最显著特征之一。当出现这种新的能力时,它还引入了一个显著的特征:当规模达到一定水平时,性能显著高于随机的状态。以此类推,这种新模式与物理学中的相变现象密切相关。原则上,这种能力也可以与一些复杂的任务有关,而人们更关心可以应用于解决多个任务的通用能力。这里简要介绍了 LLM 的三种代表性的涌现能力:
  上下文学习。GPT-3 正式引入了上下文学习能力:假设语言模型已经提供了自然语言指令和多个任务描述,它可以通过完成输入文本的词序列来生成测试实例的预期输出,而无需额外的训练或梯度更新。
  指令遵循。通过对自然语言描述(即指令)格式化的多任务数据集的混合进行微调,LLM 在微小的任务上表现良好,这些任务也以指令的形式所描述。这种能力下,指令调优使 LLM 能够在不使用显式样本的情况下通过理解任务指令来执行新任务,这可以大大提高泛化能力。
  循序渐进的推理。对于小语言模型,通常很难解决涉及多个推理步骤的复杂任务,例如数学学科单词问题。同时,通过思维链推理策略,LLM 可以通过利用涉及中间推理步骤的 prompt 机制来解决此类任务得出最终答案。据推测,这种能力可能是通过代码训练获得的。
数据

数据分布

模型参数

算力
美国市场研究机构TrendForce在3月1日的报告中测算称,处理1800亿个参数的GPT-3.5大模型,需要的GPU芯片数量高达2万枚,未来GPT大模型商业化所需的GPU 芯片数量甚至超过3万枚。

自然语言处理发展到大型语言模型的历程分为五个阶段:规则、统计机器学习、深度学习、预训练、大型语言模型。

机器翻译是NLP中难度最高、综合性最强的任务。因此张俊林以机器翻译任务为例来对比不同阶段的特点以及技术栈、数据的变化,以此展示NLP如何一步步演进。

规则阶段大致从1956年到1992年,基于规则的机器翻译系统是在内部把各种功能的模块串到一起,由人先从数据中获取知识,归纳出规则,写出来教给机器,然后机器来执行这套规则,从而完成特定任务。

统计机器学习阶段大致从1993年到2012年,机器翻译系统可拆成语言模型和翻译模型,这里的语言模型与现在的GPT-3/3.5的技术手段一模一样。该阶段相比上一阶段突变性较高,由人转述知识变成机器自动从数据中学习知识,主流技术包括SVM、HMM、MaxEnt、CRF、LM等,当时人工标注数据量在百万级左右。
预训练阶段是从2018年到2022年,相比之前的最大变化是加入自监督学习,张俊林认为这是NLP领域最杰出的贡献,将可利用数据从标注数据拓展到了非标注数据。该阶段系统可分为预训练和微调两个阶段,将预训练数据量扩大3到5倍,典型技术栈包括Encoder-Decoder、Transformer、Attention等。
大型语言模型阶段从2023年起,目的是让机器能听懂人的命令、遵循人的价值观。其特性是在第一个阶段把过去的两个阶段缩成一个预训练阶段,第二阶段转换成与人的价值观对齐,而不是向领域迁移。这个阶段的突变性是很高的,已经从专用任务转向通用任务,或是以自然语言人机接口的方式呈现。

标签:语言,模型,能力,任务,阶段,LLM
From: https://blog.csdn.net/2401_85373396/article/details/140680762

相关文章

  • 100道大模型面试八股文
    算法暑期实习机会快结束了,校招大考即将来袭。当前就业环境已不再是那个双向奔赴时代了。求职者在变多,岗位在变少,要求还更高了。最近,我们陆续整理了很多大厂的面试题,帮助球友解惑答疑和职业规划,分享了面试中的那些弯弯绕绕。资料合集:你了解ReAct吗,它有什么优点?解释一......
  • LLM(大语言模型)和AIGC入门学习路线图
    01—学习路线图基础了解目标:理解人工智能、机器学习、深度学习的基本概念。资源:在线课程(如Coursera,edX上的入门课程)、博客文章、YouTube视频。专业知识目标:深入了解大型语言模型(如GPT-4)和人工智能生成内容的工作原理。资源:阅读相关的学术论文、技术......
  • AI造梦师,大模型正在孵化下一个黄金职业
    大模型每次一有突破,我们就会听到它又“摧毁了XX职业”“XX岗位要消失了”,也总能听到一些安慰,说不用担心,“AI会创造一些新职业”。但究竟将创造哪些新职业,答案似乎还比较含糊。有没有一些真实可见的例子呢?几年前,我在某自动驾驶企业参观时,发现了一个新职业:云代驾。操作员坐......
  • DRAM组件级故障预测模型,如何提升系统可靠性?-2
    一、DRAM原理与可靠性在深入探讨DRAM系统的可靠性问题前,我们需要明确几个基本概念。首先,故障指的是可能导致系统错误的物理缺陷,而错误则是系统实际状态与期望状态之间的差异。故障可分为暂时性故障和永久性故障:前者由外部因素如高能粒子撞击引发,后者则由持续存在的物理缺陷造......
  • 大模型算法岗常见面试题100道(值得收藏)
    大模型应该是目前当之无愧的最有影响力的AI技术,它正在革新各个行业,包括自然语言处理、机器翻译、内容创作和客户服务等等,正在成为未来商业环境的重要组成部分。截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来......
  • 大模型时代需要怎样的“新程序员”
    你是AI大模型时代需要的“新程序员”吗?《爱丽丝梦游仙境》里红桃皇后说过一句话:你只有努力奔跑,才能一直留在原地。不被时代抛弃的方法只有一个,就是永远的奔跑和折腾。AI大模型时代,必然会重塑程序员这个岗位。要想做“新”程序员,这里有几点建议。第1,了解主流的大模型,以及......
  • 如何去系统的学习大模型?
    随着大模型的飞速发展,在短短一年半间就有了大幅度的技术迭代更新,LoRA,QLoRA,AdaLoRa,ZeroQuant,FlashAttention,DPO等技术效果已经在工业界逐渐得到验证。过去半年又涌现出更多效果更好的技术和模型,从Mamba2,Jamab****a,TTT等基座模型,到Dora,LoftQ,GaLore等最新的微调技术;KTO,IPO,SimP......
  • 【ollama】手把手教你布置本地大语言模型 以及各种常见用途#如何加载guff模型到ollama
    ollama介绍Ollama是一个开源框架,专为在本地机器上便捷部署和运行大型语言模型(LLM)而设计。以下是其主要特点和功能概述:简化部署:Ollama目标在于简化在Docker容器中部署大型语言模型的过程,使得非专业用户也能方便地管理和运行这些复杂的模型。轻量级与可扩展:作为轻量级......
  • LLM并行训练7-混合并行总结
    概述根据前面的系列文章,对预训练大模型里用到的主要并行加速技术做了一系列拆分分析.但是在实际的训练里往往是多种并行混合训练.我们要怎么配置这些并行策略才能让训练框架尽可能的减少通信瓶颈,提升GPU计算利用率呢?这里的变量太多了,以最简单的3D并行为例:硬件层面有......
  • 嵌入式学习之路 6(C语言基础学习——循环控制)
    目录一、构成循环的要素二、循环语句1、while(表达式)2、do-while3、for循环4、break和continue一、构成循环的要素1、在C语言中,构成循环的要素主要包括以下几个方面:1. 循环控制变量:用于控制循环的执行次数和条件。它通常在循环开始前进行初始化,并在每次循环迭代中进......