首页 > 其他分享 >.NET 9 new features-Microsoft.ML.Tokenizers 库

.NET 9 new features-Microsoft.ML.Tokenizers 库

时间:2025-01-13 09:11:17浏览次数:1  
标签:令牌 features 标记 ML 模型 词汇表 Tokenizers 文本 string

在 .NET 9 中,微软引入了 Microsoft.ML.Tokenizers 库,为 .NET 开发者提供了强大的文本标记化功能。

一、什么是Microsoft.ML.Tokenizers

   Microsoft.ML.Tokenizers 是一个用于文本标记化的库,是 .NET 生态系统中的一个强大库旨在将文本转换为令牌(tokens)

           以便在自然语言处理(NLP)任务中使用。该库支持多种标记化算法,包括字节对编码(BPE)、SentencePiece 和 WordPiece,满足不同模型和应用的需求。

二、主要应用场景

  1. 自然语言处理(NLP):在训练和推理阶段,将文本转换为模型可处理的令牌格式。

  2. 预处理步骤:在文本分析、情感分析、机器翻译等任务中,对输入文本进行标记化处理。

  3. 自定义词汇表:开发者可以导入自定义词汇表,使用 BPE Tokenizer 处理特定领域的文本数据。

三、支持的模型和服务

Microsoft.ML.Tokenizers 针对多种流行的模型系列进行了优化,包括:

    • GPT 系列:如 GPT-4、GPT-o1 等。

    • Llama 系列

    • Phi 系列

    • Bert 系列

此外,该库还与其他 AI 服务集成,如 Azure、OpenAI 等,为开发者提供统一的 C# 抽象层,简化与 AI 服务的交互。

四、主要类Class

1. Tokenizer

Tokenizer 类充当文本处理的管道,接受原始文本输入并输出 TokenizerResult 对象。它允许设置不同的模型、预处理器和规范化器,以满足特定需求。

主要方法:

    • Encode(string text): 将输入文本编码为包含令牌列表、令牌 ID 和令牌偏移映射的对象。

    • Decode(IEnumerable<int> ids, bool skipSpecialTokens = true): 将给定的令牌 ID 解码回字符串。

    • TrainFromFiles(Trainer trainer, ReportProgress reportProgress, params string[] files): 使用输入文件训练标记器模型。

主要属性:

    • Model: 获取或设置标记器使用的模型。

    • PreTokenizer: 获取或设置标记器使用的预处理器。

    • Normalizer: 获取或设置标记器使用的规范化器。

    • Decoder: 获取或设置标记器使用的解码器。

2. Model

Model 类是标记化过程中使用的模型的抽象基类,如 BPE、WordPiece 或 Unigram。具体模型(如 Bpe)继承自该类,并实现其方法。

主要方法:

    • GetTrainer(): 获取用于训练模型的训练器对象。

    • GetVocab(): 获取将令牌映射到 ID 的词汇表。

    • GetVocabSize(): 获取词汇表的大小。

    • TokenToId(string token): 将令牌映射到标记化 ID。

    • IdToToken(int id, bool skipSpecialTokens = true): 将标记化 ID 映射到令牌。

    • Tokenize(string sequence): 将字符串序列标记化为令牌列表。

    • Save(string vocabPath, string mergesPath): 将模型数据保存到词汇和合并文件中。

3. Bpe

Bpe 类表示字节对编码(Byte Pair Encoding)模型,是 Model 类的具体实现之一。它用于将文本拆分为子词单元,以提高对未登录词的处理能力。

主要属性:

    • UnknownToken: 获取或设置未知令牌。在遇到未知字符时使用。

    • FuseUnknownTokens: 获取或设置是否允许多个未知令牌融合。

    • ContinuingSubwordPrefix: 用于仅存在于另一个子词后面的任何子词的可选前缀。

    • EndOfWordSuffix: 用于描述词尾子词特征的可选后缀。

主要方法:

    • Save(string vocabPath, string mergesPath): 将模型数据保存到词汇和合并文件中。

    • Tokenize(string sequence): 将字符串序列标记化为令牌列表。

    • GetTrainer(): 获取用于训练模型的训练器对象,并生成词汇和合并数据。

4. EnglishRoberta

EnglishRoberta 类是专门为英语 Roberta 模型设计的标记器模型。它继承自 Model 类,并实现了特定于 Roberta 的标记化逻辑。

主要属性:

    • PadIndex: 获取符号列表中填充符号的索引。

    • SymbolsCount: 获取符号列表的长度。

主要方法:

    • AddMaskSymbol(string maskSymbol): 将掩码符号添加到符号列表。

    • IdsToOccurrenceRanks(IReadOnlyList<int> ids): 将令牌 ID 列表转换为最高出现次数排名。

    • OccurrenceRanksIds(IReadOnlyList<int> ranks): 将最高出现次数排名的列表转换为令牌 ID 列表。

    • Save(string vocabPath, string mergesPath): 将模型数据保存到词汇、合并和匹配项映射文件中。 

5. RobertaPreTokenizer

RobertaPreTokenizer 类是为英语 Roberta 标记器设计的预处理器。它负责在标记化之前对文本进行初步拆分和处理。

主要方法:

    • PreTokenize(string text): 对输入文本进行预标记化处理。

6. Split

Split 类表示将原始字符串拆分后的子字符串。每个子字符串由一个标记表示,最终可能代表原始输入字符串的各个部分。

主要属性:

    • TokenString: 获取基础拆分令牌。

 五、示例代码

    使用 Microsoft.ML.Tokenizers 库对文本进行标记化,以适配 GPT-4 模型,可以按照以下步骤进行:

  1. 安装必要的 NuGet 包:确保项目引用了 Microsoft.ML.Tokenizers 包。

  2. 加载 GPT-4 的词汇表和合并对文件:从官方或可信来源获取 GPT-4 模型的词汇表(vocab.json)和合并对(merges.txt)文件。

  3. 初始化 BPE 模型并加载词汇表:使用 Microsoft.ML.Tokenizers 库中的 Bpe 类加载词汇表和合并对文件。

  4. 创建标记器并进行文本标记化和解码:使用 Tokenizer 类对输入文本进行标记化,并根据需要解码回原始文本。

    以下是示例代码:

using System;
using Microsoft.ML.Tokenizers;

class Program
{
    static void Main(string[] args)
    {
        // 初始化 BPE 模型
        var bpe = new Bpe();

        // 加载 GPT-4 的词汇表和合并对文件
        bpe.Load("path_to_vocab.json", "path_to_merges.txt");

        // 创建标记器
        var tokenizer = new Tokenizer(bpe);

        // 输入文本
        var inputText = "这是一个用于测试的文本。";

        // 对文本进行标记化
        var encoded = tokenizer.Encode(inputText);

        // 输出标记化结果
        Console.WriteLine("Tokens:");
        foreach (var token in encoded.Tokens)
        {
            Console.WriteLine(token);
        }

        // 解码回原始文本
        var decodedText = tokenizer.Decode(encoded.Ids);
        Console.WriteLine($"Decoded Text: {decodedText}");
    }
}
  • 路径设置:将 "path_to_vocab.json""path_to_merges.txt" 替换为实际的文件路径。

  • 词汇表和合并对文件的获取:确保从官方或可信来源获取与 GPT-4 模型兼容的词汇表和合并对文件。

  • 模型兼容性:虽然此代码使用了通用的 BPE 标记器,但在实际应用中,可能需要根据 GPT-4 模型的具体要求进行调整。

周国庆

2025/1/6

标签:令牌,features,标记,ML,模型,词汇表,Tokenizers,文本,string
From: https://www.cnblogs.com/tianqing/p/18653852

相关文章

  • 前端实现 HTML 网页转 PDF 并导出
    有个新需求,当点击【下载】按钮时,直接将当前html页面下载为PDF。通过html2canvas+jsPDF可实现PDF单页下载,甚至是多页下载,记录分享一下~最后有源码,可自取......
  • Web前端------HTML块级和行内标签之行内标签
    一.行内标签介绍 行内标签----span      作用:        1.作为文本字体的容器,用来结合CSS修饰文本样式        2.根据行内标签的特性(不换行/部分块级样式不生效eg:宽高等等),做微小布局二.代码展示<!DOCTYPEhtml><htmllang=......
  • 重磅发布 | 华望新一代SysML v2系统建模与仿真平台M-Design v2现已开放邀测
    敬告广大MBSE建模设计师及同行:经过杭州华望系统科技有限公司研发团队的不懈努力与攻关,国内首个基于SysMLv2语言的系统建模与仿真平台M-Designv2(V0.0.0.1-alpha),现已完成相关的设计和研发工作,即将对同行开放邀测试用。M-Designv2在设计开发过程中一直秉持高规格、高质量......
  • 第二章:HTML的常用标签
    目录一、标签二、常用标签1.排版标签2.文本标签3.图片标签img4.列表5.表格6.表单7.框架标签iframe三、总结一、标签HTML是一种标记性语言,主要通过各种标签来呈现页面,不同标签有不同的语义和效果。注意:效果并不重要,标签最重要的是语义,所有的效果都可以通过css进行......
  • IML 编程简介
    什么是交互式矩阵语言(IML)?IML是一种类似于MATLAB和Gauss的矩阵语言。它使SAS能够使用许多内置矩阵函数更有效地进行矩阵计算。它只能处理二维矩阵。IML编码有四种主要用途:它有助于对难以在SAS上编码的统计程序进行编程。此类程序本质上是迭代的,因此仅使用宏进行......
  • 抖音评论生成器在线工具,好评生成器软件,用js+html即可实现
    开发技术HTML:用于搭建页面结构。CSS:用于美化页面样式。JavaScript:实现核心逻辑,包括文案生成、随机选择、复制功能等。 部分框架代码:<!DOCTYPEhtml><htmllang="zh-CN"><head><metacharset="UTF-8"><metaname="viewport"content="width=d......
  • PlantUml使用向导
    作为一名开发人员,你是否只关注代码,从未绘制过UML?从现在开始,你应该开始绘制它了!作为绘制UML的工具,你选择的是什么?Visio?Rose?还是亿图?又或者PowerDesign?从现在开始,你有一个新的选择了.只要有文本编辑器,你就可以编辑和修改UML.只要有浏览器,你就可以打开和查看用......
  • 学英语学压测:08 jmeter html测试报告&测试报告的3种生成方式
    ......
  • 如何在HTML中禁用右键和Ctrl+C复制功能?
    有时为了保护网站内容不被轻易复制或右键点击,您可能希望在HTML中禁用右键菜单和Ctrl+C复制功能。以下是详细的实现方法和注意事项:禁用右键菜单:使用JavaScript可以轻松禁用右键菜单。在HTML文件的<head>部分添加以下代码:<scripttype="text/javascript">document.addEve......
  • EMLOG安装指南
    环境准备PHP版本:支持PHP5.6、PHP7、PHP8,推荐使用PHP7.4及以上版本。数据库:需要MySQL5.6及以上版本,或者MariaDB10.3及以上版本。服务器环境:推荐使用Linux+nginx的组合。服务器选择:建议使用云服务器,如阿里云ECS或雨云-KVM。服务器管理面板:推荐使用宝塔面板,它支持一键部......