- 2024-11-21【淘汰9成NLP面试者的高频面题】BPE 分词器是如何训练的?
**【淘汰9成NLP面试者的高频面题】BPE分词器是如何训练的?**︎重要性:★★此题主要是考察面试者对分词的理解,一个好的分词器不仅能够降低词表的大小,减少OOV的出现,而且还能引入额外的先验知识,降低模型的学习难度。这是我常用的一个面试题。看似简单的基础题,但在面试中能准确回答
- 2024-03-22RecursiveCharacterTextSplitter和CharacterTextSplitter代码随读
直接说结论:优先使用RecursiveCharacterTextSplitter,输入一个separatorlist。优先划分大的符号放到前面,比如句号,分号,划分小块的放到后面。 如果想让separator不生效,就放一个原文中不会出现的一个符号,如果separator为空的话,会有一个默认值self._separators=separatorsor["
- 2023-12-01LLM 入门笔记-Tokenizer
以下笔记参考huggingface官方tutorial:https://huggingface.co/learn/nlp-course/chapter6下图展示了完整的tokenization流程,接下来会对每个步骤做进一步的介绍。1.Normalizationnormalize其实就是根据不同的需要对文本数据做一下清洗工作,以英文文本为例可以包括删除
- 2023-02-13spark读写文件
valpath="/Volumes/Data/BigData_code/data/retail-data/by-day/2010-12-01.csv"spark.read.format("csv").option("header","true").option("inferSchema","t
- 2022-11-14数据库为空白不为空引起的异常
数据库中存在空白的字符,我用获取字段的,逗号分割去处理数据报错了转换异常。getPaticipants.split(",");//这里执行也是空白1@Test2publicstaticvoidmain(Strin
- 2022-10-28Spark中RDD对DF的转换
SparkRDDToDFpackagecom.sqlimportorg.apache.spark.rdd.RDDimportorg.apache.spark.sql.{DataFrame,Row,SparkSession}objectDemo06RDDtoDF{defmain(ar
- 2022-09-24 Arrays.asList(splits); 删除异常
publicstaticvoidmain(String[]args){Strings="waf,ggjkf,gjri";String[]splits=s.split(",");List<String>list=Arrays.asList(splits);list.