- 2024-11-21【淘汰9成NLP面试者的高频面题】BPE 分词器是如何训练的?
**【淘汰9成NLP面试者的高频面题】BPE分词器是如何训练的?**︎重要性:★★此题主要是考察面试者对分词的理解,一个好的分词器不仅能够降低词表的大小,减少OOV的出现,而且还能引入额外的先验知识,降低模型的学习难度。这是我常用的一个面试题。看似简单的基础题,但在面试中能准确回答
- 2024-10-31常见大模型——LLama系列
LLaMA简介LLaMA(LargeLanguageModelMetaAI)是由Meta开发的一种大规模语言模型,旨在提高自然语言处理任务的性能。LLaMA基于Transformer机构,并经过大规模数据训练,以便在多种语言任务中表现出色。LLaMA所采用的Transformer结构和细节,与标准的Transformer结构不同的地方是包
- 2024-09-19Llama3学习记录
Llama3学习记录Llama3是一个稠密的transformer网络模型,应用于预测文本序列的下一个token。相较于先前版本的Llama模型,其性能提升主要来自于数据质量的提升以及多样性,并且也受益于模型参数的增加1.网络架构由上图可知,Llama3是一个decoderonly的网络模型Llama3模型具体
- 2024-07-19Transformer中高级位置编码的介绍和比较:Linear Rope、NTK、YaRN、CoPE
在处理诸如文本之类的序列时,排序信息显然是至关重要的。为了结合排序信息而不是将序列视为集合,对位置信息进行编码是至关重要的。位置编码通过为每个位置分配嵌入向量并将其添加到相应的标记表示来实现这一点。绝对和相对位置编码是最常见的两种位置编码方式,但是本文将要比
- 2023-12-01LLM 入门笔记-Tokenizer
以下笔记参考huggingface官方tutorial:https://huggingface.co/learn/nlp-course/chapter6下图展示了完整的tokenization流程,接下来会对每个步骤做进一步的介绍。1.Normalizationnormalize其实就是根据不同的需要对文本数据做一下清洗工作,以英文文本为例可以包括删除
- 2023-11-18自然语言处理预训练——子词嵌入
在英语中,“helps”“helped”和“helping”等单词都是同一个词“help”的变形形式。“dog”和“dogs”之间的关系与“cat”和“cats”之间的关系相同,“boy”和“boyfriend”之间的关系与“girl”和“girlfriend”之间的关系相同。在法语和西班牙语等其他语言中,许多动词有40多种变
- 2023-11-07Rotary Position Embedding分析
1旋转角度计算计算公式如下,其中d为词嵌入维度,\[\theta_j=10000^{-2(j-1)/d},j\in[1,2,\ldots,d/2]\]#计算词向量元素两两分组之后,每组元素对应的旋转角度#维度:[dim/2]freqs=1.0/(theta**(torch.arange(0,dim,2)[:(dim//2)].float()/dim))2计算整个seq
- 2023-07-24RoPE
目录概RoPESuJ.,LuY.,PanS.,MurtadhaA.,WenB.andLiuY.RoFormer:Enhancedtransformerwithrotarypositionembedding.概原作者的博客已经讲得非常到位了:[here]and[there].RoPERoPE是一种相对位置编码,特点是它可以像绝对位置编码一样,在embeddi
- 2023-07-24fpl2
f=torch.fft.fft2(image)#计算频率freqs=torch.fft.fftfreq(image.shape[-1])print(freqs)#设定阈值,用于分离高频和低频信息threshold=0.1#创建掩码,用于分离高频和低频信息mask=(freqs.abs()<threshold).float()#应用掩码,分离高频和低频信息low_freq=to