首页 > 其他分享 >一文弄懂 LLM 结构化数据生成原理

一文弄懂 LLM 结构化数据生成原理

时间:2024-08-23 11:25:16浏览次数:8  
标签:解析器 字符 结构化 前缀 弄懂 词表 生成 token LLM

前言

目前 LLM(Large Language Model)从文本补全到内容创作,都展示出了强大的生成能力。然而通过 LLM 生成结构化的数据如 JSON 格式的输出,却仍然是一个有挑战性的任务。

生成结构化的数据不仅要求模型输出符合特定的语法规则,还需要确保数据的正确性和一致性。

虽然通过 prompt 工程可能可以实现指定格式的结构化数据生成,但是这也很大程度取决于模型的能力。

本文将探讨如何结合人工规则让 LLM 输出符合 JSON 格式的数据。

结构化生成原理

本文主要是结合 lm-format-enforcer ( https://github.com/noamgat/lm-format-enforcer ) 这个库来讲解如何让 LLM 生成指定格式的 JSON 数据。

目前该库也是被 vllm 作为 JSON 格式输出的后端之一:https://github.com/vllm-project/vllm/blob/main/vllm/model_executor/guided_decoding/lm_format_enforcer_decoding.py

结构化数据生成的原理用一句话概括就是:

每个 step 拿到当前 model 给出的 logits 之后,在采样下一个 token 之前,通过人工设定的规则可以得到当前 step 只允许采样的 token 集合,接着通过加 bias 的方式压制其他不允许采样的 token,从而实现指定的结构化数据生成。

那么怎么得到当前 step 可允许采样的 token 集合,就是本文重点讲解的内容了。

lm-format-enforcer 这个库包含两个核心模块,分别是 tokenizer 前缀树 和 字符级别的解析器,通过这两个模块就可以实现上述的功能。

构造 tokenizer 前缀树

lm-format-enforcer 这个库在初始化阶段,首先会根据 tokenizer 给出的词表,初始化一个字符级别的前缀树,这个前缀树怎么理解呢?

通过 tokenizer 给出的词表,我们可以得到一个词表中的 字符串 和 对应 token id 的映射。通过这些映射,就可以来构造这个前缀树。

树上每个节点对应词表中某个字符串的其中一个字符,每个节点的子节点就是连着的下一个字符,当字符串中的字符已经遍历完了,这时候就是填入该字符串对应的 token id。

现在通过具体的例子解释一下,这个前缀树是如何构造的。

我们用 llama2 模型的词表来解读,假设就取词表中的一个小子集:

在这里插入图片描述

下面用图展示树的构造过程:

遍历第1个映射:图片

遍历第2个映射:图片

遍历第3个映射:图片

遍历第4个映射:图片

遍历第5个映射:图片

遍历第6个映射:图片

遍历第7个映射:图片

通过上面图示,展示了如何通过词表子集构造前缀树,实际的前缀树比这个大多了,整个词表中的 字符串 和 token id 的映射都会通过这样的方式插入到前缀树中。

约束每个 step 可允许采样 token 范围

构造好前缀树之后,接下来就是讲解怎么得到每个 step 可允许采样的 token 集合。

lm-format-enforcer 还有另一个重要的模块就是 字符级别的解析器。

这个解析器的作用简单来理解就是,在初始化的时候,会接收用户指定的 json schema,接着在后续每一步生成过程中,会根据之前生成的内容,判断目前处于什么状态,然后根据当前所处的状态直接给出限定的字符集合。

下面举个简单的例子,比如用户指定的 json schema 是:

在这里插入图片描述

想要 LLM 生成一个 JSON object ,内容是包含一个 city 属性,该属性的内容是一个字符串,表示一个城市的名字,同时该 city 必须要在结果中出现。

解析器的作用就是,比如目前已经生成好的内容是 :

{
  "

那么下一步一定是要生成 city 这个字符串,解析器的作用就是根据目前的状态,会给出限定的字符集合 ['c', 'i', 't', 'y']

然后接下来比如生成到了:

{
  "city": "

那么接下就是要 LLM 生成一个城市的名字,但是其实对于解析器来说,他只知道接下来要生成的内容是字符串,而且内容只需要符合 JSON 格式就行了,所以这时候给出的限定字符集合就非常大了,词表中的 token 对应的字符串只要符合 JSON 格式的都可以。

最后具体能生成什么城市名字,还有这个城市是否真实存在,就得看 LLM 的能力了。

下面用一个具体的例子讲解一下,怎么结合 前缀树 和 解析器,获取每个 step 限定的 token 集合。

假设用户的输入 prompt 和指定的 json schema 是:

prompt = "Please output a JSON segment representing the name of a city, including fields for city name."
JSON_SCHEMA = {
    "type": "object",    
    "properties": {     
       "city": {        
           "type": "string",            
           "description": "Name of the city."        
       }    
   },    
   "required": ["city"]
}
第 1 个采样 step

有一点需要注意,获取可允许采样 token 集合在 lm-format-enforcer 库中是通过递归的方式实现的,下面为了讲解方便,会给每一层递归编个号:

第 0 层递归

首先解析器给出的限定字符集合就是

[' ', '\t', '\n', '\r', '{']

包括空格和大括号在内的5个字符。

然后将这个5个字符和前缀树根节点的所有第一层子节点对应的字符集合做一个交集。

获取得到的字符交集还是这 5 个字符:

[' ', '\t', '\n', '\r', '{']

接着遍历这个字符交集。

遍历每个字符的时候会假设目前已经生成了该字符,比如一开始遍历空格字符 ' ',会将空格当作已经生成的内容加入到解析器中,这时候解析器内部状态会变化,同时取前缀树中空格字符节点对应的所有子节点,进入下一轮递归。

下一轮递归开始的时候,首先将会该子节点包含的所有 token id 加入到当前 step 的候选 token 列表中,然后继续重复上述流程。

第 1 层递归

首先看目前遍历到的前缀树节点包含的 token id 集合是

[35, 29871]

分别对应 llama2 词表中的字符串

"<0x20>"
"▁"

其中, 0x20 表示 ASCII 编码表中的空格字符,所以 在 llam2 的词表中,空格对应的 token 有两个。

接着继续看第 1 层的递归,解析器在上一层添加了空格字符之后,给出的限定字符集合仍然是

[' ', '\t', '\n', '\r', '{']

因为假设前面生成的是空格的情况下,接下来的可生成的字符其实还是可以是之前的 5 个中选一个。

然后前缀树当前节点下的所有第一层子节点的字符集合:

[' ', 't', 'a', 's', 'd', 'c', 'w', 'p', 'f', 'm', 'o', 'b', 'i', 'h', 'l', 'n', 'I', '(', 'C', 'S', 'u', 'A', '\\', 'e', 'T', 'v', 'g', '*', 'r', 'M', 'y', 'P', 'B', '=', 'D', 'L', '"', 'H', 'E', 'F', 'R', '$', '#', 'W', 'G', 'N', 'k', '`', '{', 'j', 'J', 'O', 'q', '-', 'п', 'K', 'V', 'в', '}', 'U', 'z', '[', "'", '<', 'с', ':', 'и', 'Y', 'о', 'Q', 'д', 'н', '&', '+', '@', 'з', 'м', '–', 'Z', '—', 'à', 'б', '/', 'С', '«', 'у', '.', '|', '_', 'é', 'x', 'В', 'П', 'к', 'X', 'К', 'г', 'а', 'М', '%', 'А', 'р', '“', 'Б', 'Н', '>', 'Д', 'Р', '?', 'ф', 'Г', 'О', 'е', 'Т', 'т', ')', '!', '„', 'Л', 'і', ',', 'У', '»', ';', 'è', 'И', 'ä', 'я', 'э', 'З', 'ч', 'ü', 'Ф', 'ј', '·', 'î', 'Х', 'É', 'Е', 'ш', 'č', 'л', 'Ч', '~', 'ц', 'ú', 'ö', 'á', 'Ш', 'ș', 'х', 'ж', ']', 'Э', '‘', 'І', 'Ц', 'щ', 'Я', 'ž', 'ś', '^', 'Ö', 'š', '†', '°', '\r', 'Ю', 'Ж', 'Ü', 'Á', 'й', 'Č', 'ê', 'ю', 'À', '№', 'Š', 'å', 'є', '•', '→', 'Ś', 'Å', 'ї', 'Ä', 'Î', '│', '×', 'ż', 'Ž', '−', 'È', 'Ł', 'Є', 'í', 'Ż', 'Й', '£', 'Ј', '…', '’', '§', 'ó', 'Ú', '¿', 'ř', 'â', 'α', '\xa0', 'ő', 'њ', 'ا', '€', '”', 'Ó', 'Щ', 'ł', 'Í', '¡']

其实对应的都是词表中起始字符是空格的 token ,然后两者的交集是:

[' ', '\r', '{']

其实就是对应词表中以空格起始的三个 token :

"▁▁": 259
"▁\r": 6756
"▁{": 426

接着遍历交集 [' ', '\r', '{'] ,进入第 2 层递归。

由于 llama2 词表中包含连续空格的 token 最长的有15个连续空格 token :

"▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁": 462

但是递归最多只会深入到 12 层,因为 lm-format-enforcer 库中默认限定了最长连续的空格数量是 12 个,所以连续探索空格达到 12 层递归之后就会终止探索,接着回溯到第 1 层,继续那一层其他剩下还没探索的交集字符的递归过程。

一直重复直到所有层 前缀树 和 解析器 的所有字符交集都探索完毕。

最终第一个 step 得到的可允许采样的 token 集合是:

在这里插入图片描述

第 6 个采样 step

然后我们直接跳到第 6 个 step,假设目前 LLM 已经生成的内容是,

{
"

前面每个 step 生成的内容按顺序是 ['\n', '\n', '\n', '{', '\n', '"']

然后根据用户设定的 json schema,接下来其实就是要限制采样必须生成 city 这个字符串,我们来看下递归的过程。

第 0 层递归

首先解析器给出的限定字符集合就是 ['c']

然后前缀树根节点所有第一层子节点的交集就只有 'c' 字符,然后将 c 加入解析器,同时取根节点下 c 对应的所有子节点进入

第 1 层递归

而由于上一层生成了字符 c ,那么对于解析器来说,接下来的字符肯定要是 i ,所以给出的限定字符集合就是 ['i'],和当前树节点的第一层子节点的交集自然也就是只有字符 'i',然后继续递归。

以此类推,可得当前 step 的限定 token 集合为:

在这里插入图片描述

第 9 个采样 step

接着跳到第 9 个 step,假设到目前为止已经生成了:

{
"city": "

那么这时候,根据解析器的判断,接下来其实就是可以自由生成任意符合 json 格式的字符,所以这时候返回的 token 集合会非常大,接近词表大小。

lm-format-enforcer 中对这个情况做了优化,就是这些 token 集合是可以在生成前缀树的过程中拿到。

所以如果当前是自由生成字符模式,则不会进入递归过程,直接返回这些 token 集合即可。

如何在采样过程中压制特定 token

在拿到可允许采样的 token 集合之后,接下来的操作就简单了,只需要给 logits tensor 加一个偏置即可,伪代码实现:

在这里插入图片描述

通过给不允许采样的 token 加一个负无穷的方式来压制这些 token 不会被采样得到。

总结

其实除了 lm-format-enforcer 的实现方式之外,还有其他人工规则的结构化生成库比如 github 上 star 更多的 outlines 库。感兴趣的读者可以进一步对比两者的实现有什么不同。

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

标签:解析器,字符,结构化,前缀,弄懂,词表,生成,token,LLM
From: https://blog.csdn.net/python1234567_/article/details/141461339

相关文章

  • 【LLM & RAG & text2sql】大模型在知识图谱问答上的核心算法详细思路及实践
    前言本文介绍了一个融合RAG(Retrieval-AugmentedGeneration)思路的KBQA(Knowledge-BasedQuestionAnswering)系统的核心算法及实现步骤。KBQA系统的目标是通过自然语言处理技术,从知识图谱中提取和生成精确的答案。系统的实现包括多个关键步骤:mention识别、实体链接及排序、属......
  • 基于重要性加权的LLM自我改进:考虑分布偏移的新框架
    LLM自我改进的典型范式是在自生成数据上训练LLM,但是其中的部分数据可能有害,所以应该被过滤掉。但是目前的工作主要采用基于答案正确性的过滤策略,在这篇论文中,证明过滤掉正确但具有高分布偏移程度(DSE)的样本也可以有利于自我改进的结果。论文的主要贡献如下:提出了一个称为......
  • SciTech-BigDataAIML-LLM-PE(Positional Encoding)位置编码: Absolute(绝对)Position
    SciTech-BigDataAIML-LLMPE(PositionalEncoding)位置编码:1Absolute(绝对)Position2Relative(相对)Position3Rotate(旋转)Position......
  • 基于大模型(LLM)的Agent 应用开发
    目前,业界一般认为基于大模型的应用集中在两个方向上:RAG和Agent,无论哪一种应用,设计、实现和优化能够充分利用大模型(LLM)潜力的应用都需要大量的努力和专业知识。随着开发人员开始创建日益复杂的LLM应用程序,开发流程不可避免地变得更加复杂。那么,什么又是Agent呢?1.什么......
  • Dijkstra、Bellman_Ford、SPFA、Floyd算法复杂度比较
    说明Dijkstra:适用于权值为非负的图的单源最短路径,用斐波那契堆的复杂度O(E+VlgV)BellmanFord:适用于权值有负值的图的单源最短路径,并且能够检测负圈,复杂度O(VE)SPFA:适用于权值有负值,且没有负圈的图的单源最短路径,论文中的复杂度O(kE),k为每个节点进入Queue的次数,且k一般<=2,但此处......
  • LLM | 一文带你揭秘大语言模型ChatGPT的原理
    本文包含大量AI干货预计阅读时间:10分钟本文学习目标:定义语言模型和大型语言模型(LLM)。介绍关键的LLM概念,包括TransFormer和自注意力机制。介绍LLM提示工程、微调和Rag,以及当今热门的大语言模型应用。前言在当今的科技时代,大型语言模型(LLM)正以惊人的速度发展并......
  • vLLM
    vLLM是一个快速且易于使用的LLM推理和服务库vLLM的快速性体现在:最先进的服务吞吐量通过PagedAttention有效管理注意力机制KV的内存连续的批次处理请求使用CUDA/HIP图快速执行模型量化:GPTQ、AWQ、INT4、INT8、FP8CUDA内核优化,包括FlashAttention和FlashInfer的集成推测行......
  • LLM 推理 & 服务
    目录vLLMPagedAttention:解决内存瓶颈vLLM的安装与使用vLLM加州大学伯克利分校的研究者开源了一个项目vLLM,该项目主要用于快速LLM推理和服务。vLLM的核心是PagedAttention,这是一种新颖的注意力算法,它将在操作系统的虚拟内存中分页的经典思想引入到LLM服务中。配备了Pa......
  • LLM | 面向对话式医疗健康场景的医疗大模型
    近日,复旦大学数据智能与社会计算实验室(Fudan-DISC)开发并开源了一个专门针对医疗健康对话式场景而设计的医疗领域大模型:DISC-MedLLM。DISC-MedLLMDISC-MedLLM是一个专为医疗健康对话场景而打造的领域大模型,它可以满足您的各种医疗保健需求,包括疾病问诊和治疗方案咨询......
  • 大型语言模型(LLMs)的技术革新:问答对生成与优化实践
    1.引言在人工智能领域,大型语言模型(LLMs)正以其强大的自然语言处理能力,为各行各业带来革命性的变化。这些模型,如GPT-3、GPT-4以及Llama2,不仅在文本生成、翻译、摘要等领域展现出卓越的性能,还在问答系统中扮演着至关重要的角色。问答对(Question-Answerpairs,Q&A)的生成是LL......