首页 > 系统相关 >大模型应用开发-大模型token等基本概念及参数和内存的关系

大模型应用开发-大模型token等基本概念及参数和内存的关系

时间:2024-03-15 11:32:45浏览次数:24  
标签:Diffusion AI 模型 微调 token 内存 文本

大模型相关目录

大模型,包括部署微调prompt/Agent应用开发、知识库增强、数据库增强、知识图谱增强、自然语言处理、多模态等大模型应用开发内容
从0起步,扬帆起航。

  1. 大模型应用向开发路径及一点个人思考
  2. 大模型应用开发实用开源项目汇总
  3. 大模型问答项目问答性能评估方法
  4. 大模型数据侧总结
  5. 大模型token等基本概念及参数和内存的关系

文章目录


SOTA:State of the Art 业内最优水平,最先进的技术。

AIGC:狭义概念是利用AI自动生成内容的生产方式。广义的AIGC可以看作是像人类一样具备生成创造能力的AI技术,即生成式AI,它可以基于训练数据和生成算法模型,自主生成创造新的文本、图像、音乐、视频、3D交互内容等各种形式的内容和数据,以及包括开启科学新发现、创造新的价值和意义等。

LLM:大语言模型(large language model ),基于海量文本数据训练的深度学习模型。

token:根据事先定义好的编码算法对应出来的最小文本输入单元,一个token可以是一个单词,也可以是字符块。因此文本数据集长度和token只是正相关而非严格对应。

prompt:“提示词”,在AI大模型中,Prompt的作用主要是给AI模型提示输入信息的上下文和输入模型的参数信息。本质是起到提示作用的长token。

chatGLM 7B:一般指参数的个数,B是Billion/十亿的意思,175B是1750亿参数。

int float:一般有fp32、fp16、bf16、int8等几种模型保存格式,主要是模型参数的保存精度。
在这里插入图片描述

CLIP : Contrastive Language-Image Pre-Training,大规模预训练图文表征模型,用大量来自网络的图文对数据集,将文本作为图像标签,进行训练。一张图像和它对应的文本描述,希望通过对比学习,模型能够学习到文本-图像对的匹配关系。

Stable Diffusion:Diffusion算法在去噪任意图片后,得到的结果往往是不可预测的。然而,如果我们能让Diffusion算法接受文字提示,以生成我们想要的图片,那将会是一个重大突破。这就是目前AIGC领域的一个热点——AI绘画:用户只需输入文字描述,系统即可自动生成相应的图像。其核心算法——Stable Diffusion,实际上是多模态算法CLIP和图像生成算法Diffusion的结合。在这个过程中,CLIP作为文字提示的输入,进一步影响Diffusion,从而生成我们需要的图片。

Fine-tuning (微调):微调(Fine-tuning)是一种常用的机器学习方法,主要用于对已经预训练过的模型进行调整,使其适应新的任务。

指令微调,指的是使用一些自然语言描述的指令形式样本去用监督学习的方式微调预训练大模型(base model),经过指令精调后,LLM能在一些未见过的任务上表现较好的能力,甚至是多语言场景。

增量微调,是指在神经网络中增加额外的层并基于一定的数据集进行训练,如lora,adapter。

LORA:Low-Rank Adapta-tion ,用于模型微调的一种新技术,在保持模型质量的同时显着减少下游任务的可训练参数数量,广泛应用于LLM和扩散模型微调。

Agent:人工智能代理,使用语言模型来选择要采取的一系列操作,Agent适用于具有记忆和对话功能的更复杂场景。解锁 LLM 的能力限制。特殊性在于它可以使用各种外部工具来完成我们给定的操作。

RAG:检索增强生成,AI和传统检索技术(Retrieval Technology)的有机结合,用AI总结知识检索内容,用于控制输出精确程度和扩展知识。

LangChain:用于开发大语言模型应用的开发框架。

标签:Diffusion,AI,模型,微调,token,内存,文本
From: https://blog.csdn.net/qq_43128256/article/details/136719711

相关文章

  • 大模型应用开发-华为大模型生态规划
    大模型相关目录大模型,包括部署微调prompt/Agent应用开发、知识库增强、数据库增强、知识图谱增强、自然语言处理、多模态等大模型应用开发内容从0起步,扬帆起航。大模型应用向开发路径及一点个人思考大模型应用开发实用开源项目汇总大模型问答项目问答性能评估方法大模型......
  • JVM内存结构
    JavaVirtualMachine(JVM)的内存结构通常被划分为以下几个部分:程序计数器(ProgramCounterRegister):程序计数器是一块较小的内存空间,它可以看作是当前线程所执行的字节码的行号指示器。在多线程环境下,每个线程都有自己的程序计数器,它们是线程私有的,互不干扰。Java虚......
  • JVM内存结构
    我们都知道,我们写的Java程序需要先经过编译,生成了.class文件(字节码文件)。然而,计算机并不能直接解释.class文件里面的内容,这时候就需要一个能加载、解释.class文件并且能按.class文件里的内容进行处理的一个东西--JVM。JVM,就是Java虚拟机。它是一种规范,有针对不同系统的特定实现(L......
  • 使用Nginx将大模型Web应用部署到公网
    使用Nginx将大模型Web应用部署到公网大模型训练完毕后,我们可以用SWIFT快速构建一个WebDemo大模型Web应用,本文将介绍如何使用Nginx将大模型Web应用部署到公网。在进行后续步骤之前,先按照搭建一个大模型API服务中的方法安装好SWIFT框架,并激活到你的conda环境。启动大模型Web应用......
  • MATLAB用GARCH-EVT-Copula模型VaR预测分析股票投资组合
    全文链接:http://tecdat.cn/?p=30426原文出处:拓端数据部落公众号对VaR计算方法的改进,以更好的度量开放式基金的风险。本文把基金所持股票看成是一个投资组合,引入Copula来描述多只股票间的非线性相关性,构建多元GARCH-EVT-Copula模型来度量开放式基金的风险,并与其他VaR估计方法的预......
  • 【论文阅读】Vision Mamba:双向状态空间模型的的高效视觉表示学习
    文章目录VisionMamba:双向状态空间模型的的高效视觉表示学习摘要介绍相关工作用于视觉应用的状态空间模型方法准备视觉MambaVim块结构细节高效分析计算效率实验图片分类语义分割目标检测和实例分割消融实验双向SSM分类设计总结和未来工作论文地址:VisionMam......
  • 内存操作函数
    1memcpy函数memcpy是内存操作函数,所在的头文件是#include<string.h>。1.1memcpy功能memcpy和strcpy有一点相似,但是strcpy只能进行字符串的拷贝,而它可以对各种类型都能进行拷贝,但是按字节去进行拷贝的,就比如你有2个整形数组:a1和a2;你想将a2里面四个元素拷贝进a1中,一个整形是4......
  • 8分SCI | 揭示随机森林的解释奥秘:探讨LIME技术如何提高模型的可解释性与可信度!
    一、引言LocalInterpretableModel-agnosticExplanations(LIME)技术作为一种局部可解释性方法,能够解释机器学习模型的预测结果,并提供针对单个样本的解释。通过生成局部线性模型来近似原始模型的预测,LIME技术可以帮助用户理解模型在特定样本上的决策过程,提高模型的可解......
  • 一文看懂 关系模型-完整性约束
            关系模型中有三类完整性约束:实体完整性、参照完整性和用户自定义的完整性。其中实体完整性和参照完整性是关系模型必须满足的完整性约束,被称为关系的两个不变性,由关系系统自动支持。      实体完整性详解:    若属性A是基本关系R的主属性,则A不......
  • 【聆思CSK6语音大模型AI开发套件试用】增加对语音控制电梯功能的显示
    目录任务简介图形界面功能的实现添加LVGL控件添加显示楼层的函数系统字体的使用完整代码下载演示效果任务简介在上一篇博文中,我们介绍了在聆思CSK6语音大模型AI开发套件的开发板实现对云平台返回的结果进行处理,我们已经通过日志文件看到了数据的正确接收和解析。今......