Large Language Models: A Survey

https://arxiv.org/pdf/2402.06196

导读

https://developer.volcengine.com/articles/7389111961612451866

1、介绍了语言建模的历史背景，从统计语言模型到神经网络模型，再到预训练语言模型和LLMs的发展。

流行语言模型类型 ：Encoder-Only、Decoder-only、Encoder-Decoder 、GPT Family、LLaMA Family 、PaLM Family、Other Popular LLMs

一些流行语言模型的高级概述

2、LLMs的兴起：讨论了通过在大规模文本数据上训练数十亿参数的LLMs，展现出强大的语言理解和生成能力。

大模型的强大能力矩阵

LLM的能力可以分为三个主要类别：

基础能力 ：编码（Coding）、理解（Comprehension）、世界知识（World knowledge）、多语言（Multilingual）。

进阶能力 ：指令遵循（Instruction following）、上下文学习（In-context learning）、推理（Reasoning）。

聚合能力 ：与用户进行交互（Interacting with users）、工具利用（Tool utilization）、自我改进（Self-improvement）。

3、LLMs家族：详细回顾了三个主要的LLMs家族： GPT、LLaMA和PaLM ，以及它们的模型特性、贡献和局限性。

三个主要的LLM家族

4、构建LLMs：探讨了构建LLMs的关键技术，包括数据准备、模型架构、预训练、微调和指令调优。

一些最具代表性的大型语言模型（LLM）框架的时间线

5、LLMs的应用：描述了如何使用和增强LLMs，包括 LLM局限性、 Prompt工程、RAG、工具利用和LLM智能体 。

LLMs如何使用和增强

7、提供了LLMs

开发和部署的开源工具和资源列表：

A. LLM训练/推理框架（LLM Training/Inference Frameworks）：

DeepSpeed：一个优化库，简化了分布式训练和推理，支持大规模语言模型。

Transformers：由HuggingFace提供的库，包含数千个预训练模型，适用于文本、视觉和音频任务。

Megatron-LM：NVIDIA开发的高效、模型并行的Transformer模型。

BMTrain：一个高效的大型模型训练工具包，支持分布式训练。

GPT-NeoX：基于Megatron-DeepSpeed库，提供更高的可用性和优化。

LoRA：支持大型语言模型的低秩适应，减少可训练参数数量。

ColossalAI：提供分布式深度学习模型的并行组件。

B. 部署工具（Deployment Tools）：

FastChat：一个开放平台，用于训练、服务和评估基于LLM的聊天机器人。

Skypilot：一个框架，用于在任何云上运行LLMs、AI和批处理作业。

vLLM：一个快速且易于使用的LLM推理和服务库。

text-generation-inference：一个部署和服务于LLMs的套件。

LangChain：一个框架，用于开发由语言模型驱动的应用程序。

OpenLLM：一个开源平台，用于在现实世界应用中部署和操作LLMs。

Embedchain：一个开源RAG框架，简化了AI应用的创建和部署。

Autogen：一个框架，允许使用多个代理来解决任务。

BabyAGI：一个自主AI代理，基于给定目标生成和执行任务。

C. 提示库（Prompting Libraries）：

Guidance：一种编程范式，提供优于传统提示和链接的控制和效率。

PromptTools：一套开源工具，用于实验、测试和评估LLMs、向量数据库和提示。

PromptBench：一个基于PyTorch的Python包，用于评估LLMs。

Promptfoo：一个测试和评估LLM输出质量的工具。

D. 向量数据库（VectorDB）：

Faiss：由Facebook AI Research开发的库，用于高效相似性搜索和聚类。

Milvus：一个开源向量数据库，用于支持嵌入相似性搜索和AI应用。

Qdrant：一个向量相似性搜索引擎和向量数据库。

Weaviate：一个基于GraphQL的向量搜索引擎，支持高维数据的相似性搜索。

标签：语言,训练,Models,模型,Large,LLMs,AI,Survey,LLM
From： https://www.cnblogs.com/lightsong/p/18314886

【论文阅读笔记】大模型微调——《LoRA: Low-Rank Adaptation of Large Language Mode
论文地址：https://arxiv.org/abs/2106.09685代码地址：https://github.com/microsoft/LoRA目录IntroductionMotivationMethodExperimentsFurtherdiscusion感想IntroductionMotivationMethodExperimentsFurtherdiscusion个人认为本篇的精髓所在，能够引用5k+的原因之一感......
ChatRule: Mining Logical Rules with Large Language Models for Knowledge Graph Re
文章目录题目摘要引言方法实验消融研究题目ChatRule：利用大型语言模型挖掘逻辑规则进行知识图推理论文地址：https://arxiv.org/abs/2309.01538摘要逻辑规则对于揭示关系之间的逻辑联系至关重要，这可以提高推理性能并在知识图谱（KG）上提供可解释的结果。尽......
Lexicographically Largest
看看官方题解，来用“exchangingargument”证明一下假设不选最小的满足条件的\(v\)，选了个更大的\(v_1\)，那么对于最终的序列如果没有\(a_i+i-v\)，那么显然将\(v_1\)换成\(v\)更好，否则的话考虑\(a_j+j-v_j=a_i+i-v(i<j)\)，那么如果位置\(j\)可以选出一个\(v^{'}\)使得\(a_j+j-v^{'}=a_......
Evaluating the Factuality of Large Language Models using Large-Scale Knowledge G
本文是LLM系列文章，针对《EvaluatingtheFactualityofLargeLanguageModelsusingLarge-ScaleKnowledgeGraphs》的翻译。使用大规模知识图谱评估大型语言模型的真实性摘要1引言2相关工作3方法4实验5结论摘要大型语言模型（LLMs）的出现极大地改变了人......
SELF-DEMOS: Eliciting Out-of-Demonstration Generalizability in Large Language Mo
本文是LLM系列文章，针对《SELF-DEMOS:ElicitingOut-of-DemonstrationGeneralizabilityinLargeLanguageModels》的翻译。SELF-DEMOS：在大型语言模型中引入非演示泛化能力摘要1引言2相关工作3方法4实验5讨论6结论局限性摘要大型语言模型（LLM）已经显......
易优CMS模板标签modelsartlist频道循环输出顶级栏目列表
[基础用法]标签：modelsartlist（channelartlist）备注：使用channelartlist也可以正常输出描述：获取当前栏目分类的下级栏目的文档列表用法：{eyou:modelsartlisttypeid='栏目ID'type='son'loop='20'}<ahref='{eyou:fieldname='typeurl'/}'>{eyou:fi......
Self-Supervised Learning for Point Clouds Data: A Survey
摘要综述了自监督学习（SSL）在3D点云数据处理领域的最新进展，对现有SSL方法进行了细致的分类和评估，并在多个基准数据集上对代表性方法进行了性能比较。同时指出了现有研究的局限性，提出了未来研究的方向。Introduction文章主要是针对自监督学习的（SSL），详细阐述了3D点云数据由于其......
Self-supervised Learning for Pre-Training 3D Point Clouds: A Survey
Abstract点云数据由于其紧凑的形式和表示复杂3D结构的灵活性而被广泛研究。点云数据准确捕获和表示复杂3D几何形状的能力使其成为广泛应用的理想选择，包括计算机视觉，机器人技术和自动驾驶，所有这些都需要了解底层空间结构。这种方法旨在从未标记的数据中学习通用和有用的点云表......
modelscope上的模型如何下载？
modelscope上的模型如何下载？在ModelScope（魔搭）上下载模型，用户可以通过多种方式进行，主要包括直接通过网站界面下载、使用SDK（软件开发工具包）下载，以及通过Git方式下载。以下是详细的下载步骤：一、通过网站界面下载访问ModelScope官网：打开浏览器，访问ModelScope......
大语言模型（Large Language Models, LLMs）是否需要进行数据校正
大语言模型（LargeLanguageModels,LLMs），如GPT-3，并不总是免于数据校正的过程。实际上，即使是这些大语言模型，在数据预处理中也会涉及到一定的处理和调整。以下是为什么大语言模型在某些情况下不需要明显的批效应校正，同时在某些情况下仍然需要数据校正的原因：为什么大语言模型不需要显......

Large Language Models: A Survey

Large Language Models: A Survey

导读

相关文章

赞助商

阅读排行