• 2024-06-07使用skylearn实现词袋模型
    词袋模型(BagofWords,BoW)是一种常用的文本表示方法,它将文本内容转换为向量形式,以便机器学习算法可以处理。在Python中,scikit-learn库提供了多种工具来实现词袋模型。以下是使用scikit-learn实现词袋模型的详细步骤。1.准备环境首先,确保你的开发环境中已经安装了scikit-lea
  • 2024-06-06【深度学习基础】模型文件介绍
    目录简介文件概述config.jsonmodel_state.pdparamsspecial_tokens_map.jsontokenizer_config.jsonvocab.txt文件内容解析如何查看和使用这些文件示例代码简介本文档详细介绍了深度学习训练过程中生成的关键文件,及其在模型加载和推理中的作用。这些文件包括模型配置文件
  • 2024-05-17完整的牛津3000词汇表及牛津5000词汇表
      Oxford3000(牛津3000词)列出了每个英语学习者需要掌握的3000个核心词汇。 根据牛津英语语料库中的频率和与英语学习者的相关性进行选择;涵盖CEFR等级A1-B2学习者需要掌握的总单词的75%左右;每个单词都与CEFR等级对标,指导学习者明确所处等级应该掌握的单词;权威专
  • 2024-03-19tokenizer分词器中的BPE分词方法的原理、样例、代码示例
    BytePairEncoding(BPE):想象一下你正在玩一种叫做“文字乐高”的游戏。在这个游戏中,你有很多小块,每个小块上写着一个字母或汉字。你的任务是用这些小块来构建单词或句子。开始时,你只能用单个字母或汉字的小块。但是游戏规则允许你找出那些经常一起出现的字母或汉字对,然后把它
  • 2023-12-01LLM 入门笔记-Tokenizer
    以下笔记参考huggingface官方tutorial:https://huggingface.co/learn/nlp-course/chapter6下图展示了完整的tokenization流程,接下来会对每个步骤做进一步的介绍。1.Normalizationnormalize其实就是根据不同的需要对文本数据做一下清洗工作,以英文文本为例可以包括删除
  • 2023-11-17自然语言处理预训练——近似训练
    近似训练是一种用于加速训练过程的技术。 负采样负采样是在训练过程中对目标函数进行简化的一种方法。在传统的训练中,需要计算整个词汇表的概率分布,这在大规模任务中会非常耗时。负采样的思想是通过随机采样一小部分负例来近似计算全局的目标函数。具体来说,对于每个正例(例如
  • 2023-11-07《离散数学》双语专业词汇表 名词术语中英文索引
    《离散数学》双语专业词汇表set:集合subset:子集element,member:成员,元素well-defined:良定,完全确定brace:花括号representation:表示sensible:有意义的rationalnumber:有理数emptyset:空集Venndiagram:文氏图contain(in):包含(于)universalset:全集finite(infinite)set:有限(无限)集
  • 2023-07-23Subword
    目录TokenizerByte-Pair-Encoding(BPE)UnigramSentencePiece使用[1]Unigram[2]SentencePieceTokenizer语言模型的第一步,实际上是将句子token化,然后向量化,然后才有后面的一步步处理.之前看论文的时候,单纯的以为就是把每个单词作为一个token就好了.比如"M
  • 2023-06-27SAP UI5 本地注解文件词汇表内容引用的详细讲解
    本文解释SAPUI5本地注解xml文件里下列这个片段的语义:<edmx:ReferenceUri="../../catalogservice;v=2/Vocabularies(TechnicalName='%2FIWBEP%2FVOC_UI',Version='0001',SAP__Origin='LOCAL')/$value"> <edmx:IncludeNamespace="
  • 2023-06-21ChatGPT 3.5 和 4 后缀的 turbo,32k 是什么含义
    什么是GPT-3.5-Turbo?GPT-3.5-turbo是OpenAI推出的一种自然语言处理模型,基于GPT(GenerativePre-trainedTransformer)架构。它是GPT-3的一个更精简和高性能的变体。GPT-3.5-turbo模型采用了类似的架构和训练方式,具有强大的语言生成和理解能力。它通过大规模的预训练数据和自监督
  • 2023-06-16ChatGPT 3.5 和 4 后缀的 turbo,32k 是什么含义
    什么是GPT-3.5-Turbo?GPT-3.5-turbo是OpenAI推出的一种自然语言处理模型,基于GPT(GenerativePre-trainedTransformer)架构。它是GPT-3的一个更精简和高性能的变体。GPT-3.5-turbo模型采用了类似的架构和训练方式,具有强大的语言生成和理解能力。它通过大规模的预训练数据和自监督
  • 2023-06-04iOS MachineLearning 系列(19)—— 分析文本中的问题答案
    iOSMachineLearning系列(19)——分析文本中的问题答案本篇文章将介绍Apple官方推荐的唯一的一个文本处理模型:BERT-SQuAD。此模型用来分析一段文本,并根据提供的问题在文本中寻找答案。需要注意,BERT模型不会生成新的句子,它会从提供的文本中找到最有可能的答案段落或句子。BERT模型的
  • 2023-04-18自然语言处理:词嵌入简介
    动动发财的小手,点个赞吧!WordEmbeddings机器学习模型“查看”数据的方式与我们(人类)的方式不同。例如,我们可以轻松理解“我看到一只猫”这一文本,但我们的模型却不能——它们需要特征向量。此类向量或词嵌入是可以输入模型的词的表示。工作原理:查找表(词汇)在实践中,你有一个允许
  • 2023-02-16模型预处理层介绍(3) - IntegerLookup
    模型预处理层介绍(3)-IntegerLookupIntegerLookup的作用,是将整型特征映射到连续范围的预处理层。tf.keras.layers.IntegerLookup(max_tokens=None,num_oov_in
  • 2023-01-17用::after伪元素,attr()CSS 表达式和一个自定义数据属性 data-descr 创建一个纯 CSS,词汇表提示工具
    <p>这是上面代码的实现<br/>我们有一些<spandata-descr="collectionofwordsandpunctuation">文字</span>有一些<spandata-descr="smallpopupswhichalso
  • 2023-01-103-朴素贝叶斯
    title:3-朴素贝叶斯date:2021-01-1810:58:30permalink:/pages/2a25d5/