首页 > 其他分享 >大语言模型“祛魅”

大语言模型“祛魅”

时间:2023-12-11 10:37:06浏览次数:30  
标签:模态 语言 训练 模型 LLM 参数 祛魅 GPT

基于特斯拉前AI总监 Andrej Karpathy 的教程讲解 | 啥都会一点的研究生公众号


1. 概念解释

Large Language Models-大语言模型,LLMs

大模型的组成:参数文件 + 运行这些参数的代码文件

LLMs经验性的人工制品,目前尝试去解释参数运行的原理,但只能解释一部分,总的来说还是经验主义占优

大模型排名:UC 伯克利主导的「LLM排位赛」(Chatbot Arena Leaderboard)

  • 如何得到参数:通过数据训练得到参数,而大模型的训练就是对互联网数据进行有损压缩

  • 有了“压缩文件”,模型就世界形成了理解,进而表现为学到了东西;

  • 简单来说,大模型的工作原理就是依靠包含压缩数据的神经网络对所给序列中的下一个单词进行预测

  • 由于训练是一种有损压缩,神经网络给出的东西是不能保证 100% 准确的;

第一遍训练:预训练

  • 数据量庞大,以 TB 计算,低质量的;
  • 预训练基本是每年进行一次

第二遍训练:微调

  • 质量大于数量,需要输入人工精心挑选和标记的对话来投喂;
  • 微调可以为频率进行;

2. 发展趋势-新类型的操作系统

LLM 称为新的操作系统:类比传统的操作系统,在“大模型系统”中,LLM 作为核心(等同与CPU),包括了管理其他“软硬件”工具的接口;而内存、硬盘等模块,则分别对应大模型的窗口、嵌入。代码解释器、多模态、浏览器则是运行在这个系统上的应用程序,由大模型进行统筹调用,从而解决用户提出的需求。

1.学会使用工具

虽然大语言模型自身不能处理很多问题,但是大语言模型可以学会使用工具,从而调用其他工具完成对任务的处理

2.从单纯的文本模型到多模态的演变

  • 功能上的变化:如 ChatGPT 不只会处理文本,还会看、听、说,并持续增加多种功能;
  • 思考方式的变化:从“系统1”到“系统2”的改变,即从系统 1 快速产生直觉得到结果到系统 2 缓慢进行理性思考采得到结果;

3.模型的自我提升

强化学习

4.模型定制化

大模型正朝着定制化的方向发展,允许用户将它们定制,用于以特定“身份”完成特定的任务;


3.安全性问题

一些典型的让大模型越狱的方式(jailbreak)

  • “奶奶漏洞”:通过然 GPT 扮演奶奶角色哄人入睡,从而让模型回答本来拒绝作答的问题;

  • Base64 编码、通用可转移后缀等“乱码”攻击。通过乱码攻击,GPT 甚至可以把毁灭人类的步骤吐了出来;

  • 图片:多模态时代图片也变成了让大模型越狱的工具。在图片中添加有害的噪声信息,会产生有害的提示词;

  • 利用 GPT 的联网功能,造出包含注入信息的网页来迷惑 GPT,或者用谷歌文档来诱骗 Bard等等;

标签:模态,语言,训练,模型,LLM,参数,祛魅,GPT
From: https://www.cnblogs.com/fengxijlu/p/17893115.html

相关文章

  • Go 语言字符串使用方式与技巧
    Go语言字符串使用方式与技巧原创 frank Golang语言开发栈 2023-12-1023:00 发表于北京收录于合集#Golang语言156个#Golang进阶学习106个大家好,我是frank。欢迎大家点击标题下方蓝色文字「Golang语言开发栈」关注公众号。公众号主页点击右上角三个点图标,设......
  • 生成模型的两大代表:VAE和GAN
    生成模型给定数据集,希望生成模型产生与训练集同分布的新样本。对于训练数据服从\(p_{data}(x)\);对于产生样本服从\(p_{model}(x)\)。希望学到一个模型\(p_{model}(x)\)与\(p_{data}(x)\)尽可能接近。这也是无监督学习中的一个核心问题——密度估计问题。有两种典型的思路:显式......
  • C语言中的运算符优先级
    C语言中的运算符优先级前言这几天在调试一个程序,遇到了一个bug,就是需要读取寄存器的数据。该数据是一个16bit的数据,按照高8位一个byte和低8位一个byte分别存放在了不同的寄存器地址中。但是在我读取数据的时候,总是会出现数据不符合预期的情况。在程序中是这样子的,读取的高8位数......
  • c语言指针
    【C语言】中的指针说明:只是学习中的一些感悟,如有错误,欢迎指正一、指向指针的指针指向指针的指针是C语言中的一种数据类型,通常简称为"指针的指针",使用两个星号('**')表示。指向指针的指针是一个变量,其值是另一个指针的地址。|1.用法:1>如下定义了一个指向指针的指针char**......
  • 滑动窗口模型
    指针的本质是映射,使用一个地址保留我们想知道的东西。滑动窗口是双指针思想的一种实现,使用l,r两个指针来维护一个数组的子序列。滑动窗口问题可以分为两类,一类是固定大小的滑动窗口,一类是变长滑动窗口。 定长滑动窗口:求区间最大不定长滑动窗口:求最长,最短,子数组个数。 ......
  • 农业领域的AI大模型有哪些?
    目录AgriGPT精准农业-GPTChatAgriPigGPT小田(一亩田)耕云农业大模型(安徽省农业厅+科大讯飞))商汤AI遥感大模型AI遥感大模型(AIE-SEG)小编碎碎念AI大模型火了整整一年,那么在农业领域,目前有哪些企业做了哪些产品出来了呢?小编简单调研了下,分享给大家。首先,哪些农业场景适用AI大模型?第一,......
  • 【C语言】预处理
    1、预定义符号C语⾔设置了⼀些预定义符号,可以直接使⽤,预定义符号也是在预处理期间处理的。__FILE__//进⾏编译的源⽂件__LINE__//⽂件当前的⾏号__DATE__//⽂件被编译的⽇期__TIME__//⽂件被编译的时间__STDC__//如果编译器遵循ANSIC,其值为1,否则未定义举例:printf("fi......
  • Reactor模型
    目录1.Reactor模型是什么2.Reactor模型应用场景3.使用Reactor模型的软件4.Reactor模型与Actor模型的关系本文主要介绍Reactor模型基本概念以及应用场景。1.Reactor模型是什么Reactor模型是一种事件驱动的设计模式,用于处理服务请求,它是由一个或多个并发输入源同时发送给......
  • 使用双卡/8卡3090微调llama2-70B/13B模型
    写在前面本篇博文将会教大家如何在消费级的设备(或者各种超级便宜的洋垃圾上)实现13B/70B等无法在单张消费级显卡上加载(但可以在一台机器上的多张卡上加载)的模型的微调。由于绝大部分做实验,仅要求实现推理,或者在微调时没有资源上到全量/13B+级别的真·大模型的微调,没有涉及到将一......
  • 逻辑视图模型建模图片
                          ......