【淘汰9成NLP面试者的高频面题】BPE 分词器是如何训练的？

︎重要性：★★

此题主要是考察面试者对分词的理解，一个好的分词器不仅能够降低词表的大小，减少OOV的出现，而且还能引入额外的先验知识，降低模型的学习难度。

这是我常用的一个面试题。看似简单的基础题，但在面试中能准确回答的不足三成，常识题的错误反而会让人印象深刻。

NLP Github 项目：

NLP 项目实践：fasterai/nlp-project-practice

介绍：该仓库围绕着 NLP 任务模型的设计、训练、优化、部署和应用，分享大模型算法工程师的日常工作和实战经验
AI 藏经阁：https://gitee.com/fasterai/ai-e-book

介绍：该仓库主要分享了数百本 AI 领域电子书
AI 算法面经：fasterai/nlp-interview-handbook#面经

介绍：该仓库一网打尽互联网大厂NLP算法面经，算法求职必备神器
NLP 剑指Offer：https://gitee.com/fasterai/nlp-interview-handbook

介绍：该仓库汇总了 NLP 算法工程师高频面题

字节对编码（Byte Pair Encoding，BPE）模型是一种常见的子词词元模型。该模型所采用的词表包含最常见的单词以及高频出现的子词。

BPE是从一个小词汇表开始，根据次元成对出现的频率进行合并，合并过程将一直持续达到预定义的词表大小。

BPE算法合并的选择标准是计算两个连续词元的共现频率，也就是每次迭代中，最频繁出现的一对词元会被选择与合并。

BPE 算法中词元词表的计算过程：

BPE 算法的具体流程示例：

BPE 算法的代码如下：

from transformers import AutoTokenizer
from collections import defaultdict

# 语料库
corpus = [
    "This is the Hugging Face Course.",
    "This chapter is about tokenization.",
    "This section shows several tokenizer algorithms.",
    "Hopefully, you will be able to understand how they are trained and generate tokens.",
]

# 使用 GPT-2 tokenizer 将输入分解为单词:
tokenizer = AutoTokenizer.from_pretrained("gpt2")
# 词频
word_freqs = defaultdict(int)
for text in corpus:
    words_with_offsets = tokenizer.backend_tokenizer.pre_tokenizer.pre_tokenize_str(
        text
    )
    new_words = [word for word, offset in words_with_offsets]
    for word in new_words:
        word_freqs[word] += 1

# 计算基础词典, 这里使用语料库中的所有字符:
alphabet = []
for word in word_freqs.keys():
    for letter in word:
        if letter not in alphabet:
            alphabet.append(letter)
alphabet.sort()

# 增加特殊 Token 在字典的开头，GPT-2 中仅有一个特殊 Token``<|endoftext|>''表示文本结束
vocab = ["<|endoftext|>"] + alphabet.copy()

# 将单词切分为字符
splits = {word: [c for c in word] for word in word_freqs.keys()}


# compute_pair_freqs 函数用于计算字典中所有词元对的频率
def compute_pair_freqs(splits):
    pair_freqs = defaultdict(int)

    for word, freq in word_freqs.items():
        split = splits[word]
        if len(split) == 1:
            continue
        for i in range(len(split) - 1):
            pair = (split[i], split[i + 1])
            pair_freqs[pair] += freq
    return pair_freqs


# merge_pair 函数用于合并词元对
def merge_pair(a, b, splits):
    for word in word_freqs:
        split = splits[word]
        if len(split) == 1:
            continue

        i = 0
        while i < len(split) - 1:
            if split[i] == a and split[i + 1] == b:
                split = split[:i] + [a + b] + split[i + 2 :]
            else:
                i += 1
        splits[word] = split
    return splits


# 迭代训练，每次选取得分最高词元对进行合并，直到字典大小达到设置目标为止:
vocab_size = 50
merges = {}
while len(vocab) < vocab_size:
    pair_freqs = compute_pair_freqs(splits)
    best_pair = ""
    max_freq = None
    for pair, freq in pair_freqs.items():
        if max_freq is None or max_freq < freq:
            best_pair = pair
            max_freq = freq
    splits = merge_pair(*best_pair, splits)
    merges[best_pair] = best_pair[0] + best_pair[1]
    vocab.append(best_pair[0] + best_pair[1])


# 训练完成后，tokenize 函数用于给定文本进行词元切分
def tokenize(text):
    pre_tokenize_result = tokenizer._tokenizer.pre_tokenizer.pre_tokenize_str(text)
    pre_tokenized_text = [word for word, offset in pre_tokenize_result]
    splits = [[l for l in word] for word in pre_tokenized_text]
    for pair, merge in merges.items():
        for idx, split in enumerate(splits):
            i = 0
            while i < len(split) - 1:
                if split[i] == pair[0] and split[i + 1] == pair[1]:
                    split = split[:i] + [merge] + split[i + 2 :]
                else:
                    i += 1
            splits[idx] = split
    return sum(splits, [])


# 测试训练好的 BPE 模型
print(tokenize("This is not a token."))

本文由mdnice多平台发布

标签：NLP,word,splits,freqs,split,分词器,pair,BPE
From： https://www.cnblogs.com/fasterai/p/18560189

【淘汰9成NLP工程师的常识题】 LSTM 如何缓解 RNN 梯度消失的问题?
NLP学习github项目：NLP项目实践：fasterai/nlp-project-practice介绍：该仓库围绕着NLP任务模型的设计、训练、优化、部署和应用，分享大模型算法工程师的日常工作和实战经验AI藏经阁：https://gitee.com/fasterai/ai-e-book介绍：该仓库主要分享了数百本AI领域电子书......
【淘汰9成NLP工程师的常识题】LSTM的前向计算如何进行加速？
【淘汰9成NLP工程师的常识题】LSTM的前向计算如何进行加速？重要性：★★★......
【淘汰9成NLP工程师的常识题】多头注意力相对于多头注意力有什么优势?
【淘汰9成NLP工程师的常识题】多头注意力相对于多头注意力有什么优势?重要性：★★★......
【tokenization分词】WordPiece, Byte-Pair Encoding(BPE), Byte-level BPE(BBPE)的原
目录前言1、word(词粒度)2、char(字符粒度)3、subword(子词粒度)WordPieceByte-PairEncoding(BPE)Byte-levelBPE(BBPE)总结前言Tokenization（分词）在自然语言处理(NLP)的任务中是最基本的一步，将文本处理成一串tokens用于后续的处理，把文本处理成token有一系列的......
如何利用1%的数据优化特定领域LLM预训练？ | EMNLP'24
来源：晓飞的算法工程笔记公众号，转载请注明出处论文:Target-AwareLanguageModelingviaGranularDataSampling论文地址：https://arxiv.org/abs/2409.14705创新点提出了一种将预先训练好的标记符与多粒度标记符合并的算法，生成高效的n-gram特征，而且与下游任务的性能有......
AlignSum：数据金字塔与层级微调，提升文本摘要模型性能 | EMNLP'24
来源：晓飞的算法工程笔记公众号，转载请注明出处论文:AlignSum:DataPyramidHierarchicalFine-tuningforAligningwithHumanSummarizationPreference论文地址：https://arxiv.org/abs/2410.00409论文代码：https://github.com/csyanghan/AlignSum创新点发现在文本......
NLP论文速读（斯坦福大学）|生成式奖励模型（Generative Reward Models）
论文速读|GenerativeRewardModels论文信息：简介：这篇论文探讨了如何提高现代大型语言模型（LLMs）的性能，特别是在强化学习从人类反馈（RLHF）过程中的效率和效果。RLHF方法虽然有效，但它需要大量的人类偏好数据来训练奖励模型，这不仅资源密集，而且技术上具有挑战性。此外，现......
深入浅出Word2Vec：从原理到实战，如何利用词嵌入提升NLP应用
深入浅出Word2Vec：从原理到实战，如何利用词嵌入提升NLP应用引言：为什么Word2Vec如此重要？自然语言处理（NLP）作为人工智能中的核心领域，面临着如何将人类语言转化为机器可以理解的形式的问题。在这方面，Word2Vec模型作为一种强大的词嵌入方法，极大地推动了NLP技术的进步。通过将每个......
【杂学】先进的 NLP 技术 —— 旋转位置编码（Rotary Position Embedding，RoPE）
Transformer已经渐渐成为目前LLM最通用底层架构之一，其中的位置编码也显得极其重要，由于注意力分数本质上是每个token的val加权和，并没有考虑其中的空间信息，因此需要在自注意力模块之前就将位置信息融合进序列中。绝对位置编码绝对位置编码是一种将序列中的每个位置进行编码......
CLIPFit：不绕弯子，直接微调比提示微调和适配器微调更好 | EMNLP'24
来源：晓飞的算法工程笔记公众号，转载请注明出处论文:Vision-LanguageModelFine-TuningviaSimpleParameter-EfficientModification论文地址：https://arxiv.org/abs/2409.16718论文代码：https://github.com/minglllli/CLIPFit创新点提出了一种CLIPFit方法以高效地微......

【淘汰9成NLP面试者的高频面题】BPE 分词器是如何训练的？

【淘汰9成NLP面试者的高频面题】BPE 分词器是如何训练的？

相关文章

赞助商

阅读排行

【淘汰9成NLP面试者的高频面题】BPE 分词器是如何训练的？

**【淘汰9成NLP面试者的高频面题】BPE 分词器是如何训练的？ **

相关文章

赞助商

阅读排行

【淘汰9成NLP面试者的高频面题】BPE 分词器是如何训练的？