首页 > 其他分享 >Showrunner AI技术浅析(二):大型语言模型

Showrunner AI技术浅析(二):大型语言模型

时间:2024-12-16 19:26:57浏览次数:6  
标签:采样 文本 AI 浅析 生成 掩码 序列 Showrunner 注意力

1. GPT-3模型架构详解

GPT-3是基于Transformer架构的预训练语言模型,由OpenAI开发。其核心思想是通过自注意力机制(Self-Attention)处理输入序列,并生成自然语言文本。

1.1 Transformer架构基础

Transformer架构由Vaswani等人在2017年提出,主要由编码器(Encoder)和解码器(Decoder)组成。然而,GPT-3仅使用Transformer的解码器部分进行生成任务。

1.1.1 解码器(Decoder)

解码器是GPT-3的核心组件,负责生成自然语言文本。其主要组成部分包括多头自注意力机制、掩码自注意力机制和前馈神经网络。

1.1.1.1 多头自注意力机制(Multi-Head Self-Attention)

多头自注意力机制允许模型在不同的表示子空间里关注输入序列的不同部分。其计算过程如下:

1.输入表示:

  • 输入序列 X=[x_{1},x_{2},...,x_{n}],其中 x_{i} 是第 i 个词的嵌入向量。

2.线性变换:

  • 将输入 X 线性变换为查询(Q)、键(K)和值(V)矩阵:

    其中,W^{Q},W^{K},W^{V} 是可训练的权重矩阵。

3.自注意力计算:

  • 计算注意力得分:

    其中,d_{k} 是键的维度,用于缩放注意力得分,防止梯度消失或爆炸。

4.多头处理:

  • 对 h 个不同的头分别进行上述计算:

  • 将所有头的输出拼接起来,并通过线性变换得到最终输出:

1.1.1.2 掩码自注意力机制(Masked Self-Attention)

掩码自注意力机制防止模型在生成当前词时看到未来的词。其计算过程如下:

1.输入表示: 输入序列 Y=[y_{1},y_{2},...,y_{m}],其中 y_{i}​ 是第 i 个词的嵌入向量。

2.线性变换: 将输入 Y 线性变换为查询(Q)、键(K)和值(V)矩阵。

3.掩码处理: 在计算注意力得分时,屏蔽掉未来的词:

其中,MaskMatrix 是一个掩码矩阵,用于遮蔽未来的词。

1.1.1.3 前馈神经网络(Feed-Forward Neural Network)

前馈神经网络对每个位置的上下文表示进行非线性变换。其计算过程如下:

1.输入: 多头自注意力的输出 Z

2.线性变换和激活函数:

其中,W_{1},W_{2} 是权重矩阵,b_{1},b_{2}​ 是偏置向量,\textrm{max}\left ( 0,\cdot \right )是ReLU激活函数。

3.残差连接和层归一化:

  • 残差连接:

  • 层归一化:

1.2 位置编码(Positional Encoding)

由于Transformer模型本身不包含位置信息,GPT-3使用位置编码来提供序列中词的位置信息。位置编码通常使用正弦和余弦函数生成:

其中,pos 是位置,i 是维度索引,d_{model}​ 是嵌入向量的维度。

2. 模型训练

2.1 训练目标

GPT-3的训练目标是在给定前文的情况下预测下一个词。其损失函数为交叉熵损失:

其中,y_{t} 是目标序列中的第 t 个词,P\left ( y_{t}|y<t \right )是模型预测第 t 个词的条件概率。

2.2 训练过程

1.数据预处理:

  • 收集并清洗大量文本数据,包括书籍、文章、代码等。
  • 使用标记化技术将文本转换为标记序列。

2.模型初始化:

  • 初始化模型参数,使用Xavier或Kaiming初始化方法。

3.前向传播:

  • 输入序列通过解码器生成上下文向量。
  • 使用掩码自注意力机制防止模型看到未来的词。

4.计算损失:

  • 计算生成文本与真实文本之间的交叉熵损失。

5.反向传播:

  • 使用反向传播算法计算梯度。
  • 使用优化算法(如Adam)更新模型参数。

6.梯度裁剪:

  • 防止梯度爆炸,设置梯度裁剪阈值。

7.学习率调度:

  • 动态调整学习率,使用余弦退火或学习率衰减。

3. 生成过程

3.1 推理与生成

1.初始化:

  • 从起始标记(<START>)开始。

2.解码:

  • 使用掩码自注意力机制生成当前词的预测。
  • 使用前馈神经网络生成当前词的预测概率分布。

3.预测:

  • 使用束搜索或采样策略选择下一个词。

4.终止:

  • 当生成终止标记(<END>)时,终止生成过程。
3.2 束搜索(Beam Search)

束搜索通过保留多个候选序列来提高生成文本的质量。以下是束搜索的基本步骤:

1.初始化:

  • 从起始标记开始,生成前 kk 个最可能的词作为候选序列。

2.扩展:

  • 对每个候选序列,生成前 kk 个最可能的下一个词,生成新的候选序列。

3.剪枝:

  • 保留前 kk 个得分最高的候选序列。

4.终止:

  • 当所有候选序列生成终止标记时,终止搜索。
3.3 采样策略

采样策略通过随机采样生成文本,可以增加生成文本的多样性。以下是一些常见的采样策略:

  • Top-K采样: 从概率最高的 k 个词中随机选择一个。
  • Top-p采样(核采样): 从累积概率超过 p 的最小集合中随机选择一个词。
  • 温度采样: 通过调整温度参数 T(T>0)来控制生成文本的随机性。T 越小,生成文本越确定;T 越大,生成文本越随机。

标签:采样,文本,AI,浅析,生成,掩码,序列,Showrunner,注意力
From: https://blog.csdn.net/m0_75253143/article/details/144515977

相关文章

  • .net core中异步async await
    基本原理async,await是C#语言中用于简化异步操作的语法糖,实际会由编译器将代码翻译生成状态机来执行异步操作。状态机是一种数学模型,用于描述一个系统在不同状态之间的转换行为。它由一组状态和一组转换组成,在特定的输入条件下,系统从一个状态转换到另一个状态。例如如下的异......
  • AI应用实战课学习总结(1)必备AI基础理论
    大家好,我是Edison。由于公司的愿景逐渐调整为ONETechCompany,公司的IT战略也逐渐地朝着Data&AIDriven发展,因此近半年来我一直在学习大模型相关的东西,从ChatGPT到Agent都有所涉及。但是,未来的企业技术架构中会存在一个通用大模型和多个小模型以及多个IT系统协同配合的局面,单......
  • 11月AI榜单:洞察AI工具的流行趋势与商业价值
    2AGI.NET|探索AI无限潜力,2AGI为您带来最前沿资讯。AI榜单:11月随着人工智能技术的飞速发展,AI工具已经成为我们日常生活中不可或缺的一部分。本文将综合分析来自 2AGI.NET 的AI月榜、分类榜和收入榜,为您提供最新的AI工具流行趋势和商业价值的深度解析。AI月......
  • [BootstrapBlazor] Blazor 使用 Mermaid 渲染详细图表
    BootstrapBlazor是一套基于Bootstrap和Blazor的企业级组件库,无缝整合了Bootstrap框架与Blazor技术。它提供了一整套强大的工具,使开发者能够轻松创建响应式和交互式的Web应用程序。项目地址Gitee:https://gitee.com/LongbowEnterprise/BootstrapBlazorGitHub:https://g......
  • Moo University - Financial Aid POJ - 2010
    //MooUniversity-FinancialAidPOJ-2010.cpp:此文件包含"main"函数。程序执行将在此处开始并结束。///*https://vjudge.net/problem/POJ-2010#author=GPT_zh贝西注意到,尽管人类有许多大学可供就读,但奶牛却没有。为了解决这个问题,她和她的同伴们成立了一所新的大......
  • 【华为OD-E卷-ai面板识别 100分(python、java、c++、js、c)】
    【华为OD-E卷-ai面板识别100分(python、java、c++、js、c)】题目AI识别到面板上有N(1≤N≤100)个指示灯,灯大小一样,任意两个之间无重叠。由于AI识别误差,每次别到的指示灯位置可能有差异,以4个坐标值描述AI识别的指示灯的大小和位置(左上角x1,y1,右下角x2,y2),请输出先行后......
  • 【Mysql优化】EXPLAIN 返回列详解:深入 SQL 查询优化的工具
    文章目录什么是EXPLAIN?使用方法`EXPLAIN`返回的各列详解1.`id`列示例:简单查询示例:嵌套查询2.`select_type`列示例:UNION查询3.`table`列示例:4.`partitions`列5.`type`列示例:全表扫描示例:索引查询6.`possible_keys`列7.`key`列8.`key_len`列9.`re......
  • 街面环卫算法视频分析服务器浅析智能视频监控在智慧城市的应用与趋向
    在数字化浪潮的推动下,智慧城市的建设已成为全球范围内城市发展的重要趋势。智慧城市不仅仅是技术的集合,它更是一个系统工程,涉及到城市管理的各个方面,旨在通过高科技手段提升城市的运行效率和居民的生活质量。其中,智能视频监控技术作为智慧城市建设的关键组成部分,正逐渐渗透到城市......
  • SPICE协议浅析
    本文分享自天翼云开发者社区《SPICE协议浅析》,作者:王****均云环境中根据使用场景不同,有多种远程控制台传输协议,如SPICE、VNC、RDP等。SPICE是SimpleProtocolforindependentComputingEnvironment的缩写,表示独立计算环境的简单协议。SPICE协议由三个基本部分组成:Spice协议,S......
  • 人员乘坐皮带识别智慧矿山一体机:矿山达到智能化最终要求需要哪些AI算法及关键因素?
    在数字化转型的大潮中,非煤矿山行业正站在智能化升级的风口浪尖。随着人工智能、大数据、物联网等技术的飞速发展,矿山智能化已成为提升行业竞争力、保障作业安全、优化资源利用的关键路径。本文将深入探讨实现矿山智能化所需的AI算法及其应用,并分析在构建智能化矿山生态系统过程中......