首页 > 其他分享 >Large Language Models: A Survey

Large Language Models: A Survey

时间:2024-07-21 19:52:42浏览次数:10  
标签:语言 训练 Models 模型 Large LLMs AI Survey LLM

Large Language Models: A Survey

https://arxiv.org/pdf/2402.06196

 

导读

https://developer.volcengine.com/articles/7389111961612451866

 

1、介绍了语言建模的历史背景,从统计语言模型到神经网络模型,再到预训练语言模型和LLMs的发展。

流行语言模型类型 :Encoder-Only、Decoder-only、Encoder-Decoder 、GPT Family、LLaMA Family 、PaLM Family、Other Popular LLMs

一些流行语言模型的高级概述

picture.image

2、LLMs的兴起:讨论了通过在大规模文本数据上训练数十亿参数的LLMs,展现出强大的语言理解和生成能力。

大模型的强大能力矩阵

picture.image

LLM的能力可以分为三个主要类别:

  • 基础能力 : 编码(Coding)、理解(Comprehension)、世界知识(World knowledge)、多语言(Multilingual)。
  • 进阶能力 : 指令遵循(Instruction following)、上下文学习(In-context learning)、推理(Reasoning)。
  • 聚合能力 :与用户进行交互(Interacting with users)、工具利用(Tool utilization)、自我改进(Self-improvement)。

3、LLMs家族:详细回顾了三个主要的LLMs家族: GPT、LLaMA和PaLM ,以及它们的模型特性、贡献和局限性。

三个主要的LLM家族

picture.image

4、构建LLMs:探讨了构建LLMs的关键技术,包括数据准备、模型架构、预训练、微调和指令调优。

一些最具代表性的大型语言模型(LLM)框架的时间线

picture.image

 

5、LLMs的应用:描述了如何使用和增强LLMs,包括 LLM局限性、 Prompt工程、RAG、工具利用和LLM智能体

LLMs如何使用和增强

picture.image

 

7、提供了LLMs

开发和部署的开源工具和资源列表:

A. LLM训练/推理框架(LLM Training/Inference Frameworks):

  • DeepSpeed:一个优化库,简化了分布式训练和推理,支持大规模语言模型。
  • Transformers:由HuggingFace提供的库,包含数千个预训练模型,适用于文本、视觉和音频任务。
  • Megatron-LM:NVIDIA开发的高效、模型并行的Transformer模型。
  • BMTrain:一个高效的大型模型训练工具包,支持分布式训练。
  • GPT-NeoX:基于Megatron-DeepSpeed库,提供更高的可用性和优化。
  • LoRA:支持大型语言模型的低秩适应,减少可训练参数数量。
  • ColossalAI:提供分布式深度学习模型的并行组件。

B. 部署工具(Deployment Tools):

  • FastChat:一个开放平台,用于训练、服务和评估基于LLM的聊天机器人。
  • Skypilot:一个框架,用于在任何云上运行LLMs、AI和批处理作业。
  • vLLM:一个快速且易于使用的LLM推理和服务库。
  • text-generation-inference:一个部署和服务于LLMs的套件。
  • LangChain:一个框架,用于开发由语言模型驱动的应用程序。
  • OpenLLM:一个开源平台,用于在现实世界应用中部署和操作LLMs。
  • Embedchain:一个开源RAG框架,简化了AI应用的创建和部署。
  • Autogen:一个框架,允许使用多个代理来解决任务。
  • BabyAGI:一个自主AI代理,基于给定目标生成和执行任务。

C. 提示库(Prompting Libraries):

  • Guidance:一种编程范式,提供优于传统提示和链接的控制和效率。
  • PromptTools:一套开源工具,用于实验、测试和评估LLMs、向量数据库和提示。
  • PromptBench:一个基于PyTorch的Python包,用于评估LLMs。
  • Promptfoo:一个测试和评估LLM输出质量的工具。

D. 向量数据库(VectorDB):

  • Faiss:由Facebook AI Research开发的库,用于高效相似性搜索和聚类。

  • Milvus:一个开源向量数据库,用于支持嵌入相似性搜索和AI应用。

  • Qdrant:一个向量相似性搜索引擎和向量数据库。

  • Weaviate:一个基于GraphQL的向量搜索引擎,支持高维数据的相似性搜索。

标签:语言,训练,Models,模型,Large,LLMs,AI,Survey,LLM
From: https://www.cnblogs.com/lightsong/p/18314886

相关文章

  • 【论文阅读笔记】大模型微调——《LoRA: Low-Rank Adaptation of Large Language Mode
    论文地址:https://arxiv.org/abs/2106.09685代码地址:https://github.com/microsoft/LoRA目录IntroductionMotivationMethodExperimentsFurtherdiscusion感想IntroductionMotivationMethodExperimentsFurtherdiscusion个人认为本篇的精髓所在,能够引用5k+的原因之一感......
  • ChatRule: Mining Logical Rules with Large Language Models for Knowledge Graph Re
    文章目录题目摘要引言方法实验消融研究题目ChatRule:利用大型语言模型挖掘逻辑规则进行知识图推理论文地址:https://arxiv.org/abs/2309.01538摘要    逻辑规则对于揭示关系之间的逻辑联系至关重要,这可以提高推理性能并在知识图谱(KG)上提供可解释的结果。尽......
  • Lexicographically Largest
    看看官方题解,来用“exchangingargument”证明一下假设不选最小的满足条件的\(v\),选了个更大的\(v_1\),那么对于最终的序列如果没有\(a_i+i-v\),那么显然将\(v_1\)换成\(v\)更好,否则的话考虑\(a_j+j-v_j=a_i+i-v(i<j)\),那么如果位置\(j\)可以选出一个\(v^{'}\)使得\(a_j+j-v^{'}=a_......
  • Evaluating the Factuality of Large Language Models using Large-Scale Knowledge G
    本文是LLM系列文章,针对《EvaluatingtheFactualityofLargeLanguageModelsusingLarge-ScaleKnowledgeGraphs》的翻译。使用大规模知识图谱评估大型语言模型的真实性摘要1引言2相关工作3方法4实验5结论摘要大型语言模型(LLMs)的出现极大地改变了人......
  • SELF-DEMOS: Eliciting Out-of-Demonstration Generalizability in Large Language Mo
    本文是LLM系列文章,针对《SELF-DEMOS:ElicitingOut-of-DemonstrationGeneralizabilityinLargeLanguageModels》的翻译。SELF-DEMOS:在大型语言模型中引入非演示泛化能力摘要1引言2相关工作3方法4实验5讨论6结论局限性摘要大型语言模型(LLM)已经显......
  • 易优CMS模板标签modelsartlist频道循环输出顶级栏目列表
    [基础用法]标签:modelsartlist(channelartlist)备注:使用channelartlist也可以正常输出描述:获取当前栏目分类的下级栏目的文档列表用法:{eyou:modelsartlisttypeid='栏目ID'type='son'loop='20'}<ahref='{eyou:fieldname='typeurl'/}'>{eyou:fi......
  • Self-Supervised Learning for Point Clouds Data: A Survey
    摘要综述了自监督学习(SSL)在3D点云数据处理领域的最新进展,对现有SSL方法进行了细致的分类和评估,并在多个基准数据集上对代表性方法进行了性能比较。同时指出了现有研究的局限性,提出了未来研究的方向。Introduction文章主要是针对自监督学习的(SSL),详细阐述了3D点云数据由于其......
  • Self-supervised Learning for Pre-Training 3D Point Clouds: A Survey
    Abstract点云数据由于其紧凑的形式和表示复杂3D结构的灵活性而被广泛研究。点云数据准确捕获和表示复杂3D几何形状的能力使其成为广泛应用的理想选择,包括计算机视觉,机器人技术和自动驾驶,所有这些都需要了解底层空间结构。这种方法旨在从未标记的数据中学习通用和有用的点云表......
  • modelscope上的模型如何下载?
    modelscope上的模型如何下载?在ModelScope(魔搭)上下载模型,用户可以通过多种方式进行,主要包括直接通过网站界面下载、使用SDK(软件开发工具包)下载,以及通过Git方式下载。以下是详细的下载步骤:一、通过网站界面下载   访问ModelScope官网:       打开浏览器,访问ModelScope......
  • 大语言模型(Large Language Models, LLMs)是否需要进行数据校正
    大语言模型(LargeLanguageModels,LLMs),如GPT-3,并不总是免于数据校正的过程。实际上,即使是这些大语言模型,在数据预处理中也会涉及到一定的处理和调整。以下是为什么大语言模型在某些情况下不需要明显的批效应校正,同时在某些情况下仍然需要数据校正的原因:为什么大语言模型不需要显......