首页 > 其他分享 >NLP:14.1 词嵌入(Word2vec)李沐

NLP:14.1 词嵌入(Word2vec)李沐

时间:2022-12-14 23:00:16浏览次数:40  
标签:NLP 14.1 模型 独热 词袋 跳元 李沐 向量

李沐 动手学深度学习 学习笔记


 

词向量是⽤于表⽰单词意义的向量,并且还可以被认为是单词的特征向量或表⽰。 将单词映射到实向量的技术称为词嵌⼊。近年来,词嵌⼊逐渐成为⾃然语⾔处理的基础知识。   虽然独热向量很容易构建,但它们通常不是⼀个好的选择。 ⼀个主要原因是独热向量不能准确表达不同词之间的相似度,⽐如我们经常使⽤的“余弦相似度”。 任意两个不同词的独热向量之间的余弦相似度为0,所以独热向量不能编码词之间的相似性。   word2vec⼯具是为了解决上述问题⽽提出的。 它将每个词映射到⼀个固定⻓度的向量,这些向量能更好地表达不同词之间的相似性和类⽐关系。   word2vec⼯具包含两个模型,即跳元模型(skip-gram)[Mikolov et al., 2013b]和连续词袋(CBOW)[Mikolov et al., 2013a]。 对于在语义上有意义的表⽰,它们的训练依赖于条件概率,条件概率可以被看作是使⽤语料库中⼀些词来预测另⼀些单词。 由于是不带标签的数据,因此跳元模型和连续词袋都是⾃监督模型。  

14.1.3 跳元模型(Skip-Gram)

跳元模型 假设 ⼀个词 可以⽤来 在 ⽂本序列 中 ⽣成 其 周围的单词。

14.1.4 连续词袋(CBOW)模型

连续词袋(CBOW)模型类似于跳元模型。 与跳元模型的主要区别在于,连续词袋模型 假设 中⼼词 是 基于其 在 ⽂本序列 中 的 周围上下⽂词 ⽣成的。   负采样和分层softmax

标签:NLP,14.1,模型,独热,词袋,跳元,李沐,向量
From: https://www.cnblogs.com/hbuwyg/p/16983921.html

相关文章

  • NLP《词汇表示方法(三)word2vec》
    Word2Vec是2013年Google发布的工具,也可以说是一个产生词向量的一群模型组合,关于词向量,也就是嵌入词向量的解释之前也解释了,这里不赘述。该工具主要包含两个词向量的生成模型......
  • NLP 《马尔科夫链》
    定义:是一个离散的随机过程,状态的变化都是依赖于状态转移矩阵,用来描述状态空间中经过从一个状态到另一个状态的转换的随机过程,用图的形式表示如下,下图是截图别人的。马尔科夫......
  • 【NLP开发】Python识别图片文字、中文分词
    文章目录​​1、Tesseract​​​​1.1下载安装​​​​1.2命令行​​​​1.3python接口​​​​2、EasyOCR​​​​2.1简介​​​​2.2安装​​​​2.3测试代码​​​......
  • HanLP Demo(学习笔记)
    需求,实习需要学习这个。感觉蛮好玩的.....我是这样做的:根据网上的资料,自己整理,因为是开源的,所以配合Demo理解,不是算法层次的,嗯,更新中....data包没下载下来,家里这边网不支持......
  • 一些NLP的入门资料参考
    本站整理了一些NLP的入门资料参考,建议初学者看看。需要复制链接在浏览器里打开。1.通过kaggle比赛学习机器学习文本分类方法https://zhuanlan.zhihu.com/p/34899693?utm_med......
  • 推荐:常见NLP模型的代码实现(基于TensorFlow和PyTorch)
    推荐github上的一个NLP代码教程:nlp-tutorial,教程中包含常见的NLP模型代码实现(基于TensorFlow和Pytorch),而且教程中的大多数NLP模型都使用少于100行代码。教程说明这是使用Ten......
  • 自然语言处理nlp小姜机器人(闲聊) nlp_xiaojiang-996station GitHub鉴赏官
    OverridetheentrypointofanimageIntroducedinGitLabandGitLabRunner9.4.Readmoreaboutthe extendedconfigurationoptions.Beforeexplainingtheav......
  • Ubuntu 安装 Stanford CoreNLP
    安装JAVAStanfordCoreNLP是用JAVA写的,因此需要先安装JAVA更新软件包列表apt-getupdate安装openjdk-8-jdkapt-getinstallopenjdk-8-jdk查看java版本java......
  • 详细介绍NLP文本摘要
    OverridetheentrypointofanimageIntroducedinGitLabandGitLabRunner9.4.Readmoreaboutthe extendedconfigurationoptions.Beforeexplainingtheav......
  • NLP_learning 中文基本任务与处理(分词、停用词、词性标注、语句依存分析、关键词抽取
    OverridetheentrypointofanimageIntroducedinGitLabandGitLabRunner9.4.Readmoreaboutthe extendedconfigurationoptions.Beforeexplainingtheav......