自然语言处理：词嵌入简介

时间：2023-04-18 22:33:22浏览次数：50

标签：嵌入简介词汇表单词上下文文档自然语言向量

动动发财的小手，点个赞吧！

Word Embeddings

机器学习模型“查看”数据的方式与我们（人类）的方式不同。例如，我们可以轻松理解“我看到一只猫”这一文本，但我们的模型却不能——它们需要特征向量。此类向量或词嵌入是可以输入模型的词的表示。

工作原理：查找表（词汇）

在实践中，你有一个允许单词的词汇表；你提前选择这个词汇。对于每个词汇单词，查找表包含它的嵌入。可以使用词汇表中的单词索引找到该嵌入（即，您可以使用单词索引在表中查找嵌入）。

为了解释未知词（那些不在词汇表中的词），通常一个词汇表包含一个特殊的标记 UNK。或者，未知标记可以被忽略或分配一个零向量。

本讲的主要问题是：我们如何得到这些词向量？

表示为离散符号：One-hot 向量

最简单的方法是将单词表示为One-hot向量：对于词汇表中的第 i 个单词，向量在第 i 个维度上为 1，在其余维度上为 0。在机器学习中，这是表示分类特征的最简单方法。

您可能会猜到为什么One-hot向量不是表示单词的最佳方式。问题之一是对于大词汇表，这些向量会很长：向量维数等于词汇表大小。这在实践中是不可取的，但这不是最关键的问题。

真正重要的是，这些向量对它们所代表的词一无所知。例如，One-hot向量“认为”猫和狗的距离和桌子的距离一样近！我们可以说 one-hot 向量不捕获意义。

但是我们怎么知道什么是意义呢？

分布语义

为了在向量中捕捉单词的含义，我们首先需要定义可以在实践中使用的含义概念。为此，让我们尝试了解我们人类如何知道哪些词具有相似的含义。

一旦您看到了未知词在不同上下文中的使用方式，您就能够理解它的含义。你是怎么做到的？

假设是你的大脑搜索了可以在相同上下文中使用的其他词，找到了一些（例如，葡萄酒），并得出了 tezgüino 与其他词具有相似含义的结论。这是分布假设：

经常出现在相似上下文中的词具有相似的含义。

这是一个非常有价值的想法：它可以在实践中使用，让词向量捕捉到它们的含义。根据分布假设，“捕捉意义”和“捕捉上下文”在本质上是相同的。因此，我们需要做的就是将有关单词上下文的信息放入单词表示中。

主要思想：我们需要将有关单词上下文的信息放入单词表示中。

基于计数的方法

基于计数的方法从字面上理解了这个想法：

如何：根据全球语料库统计信息手动放置此信息。

一般过程如上图所示，包括两个步骤：(1) 构建词上下文矩阵，(2) 降低其维数。降维有两个原因。首先，原始矩阵非常大。其次，由于很多单词只出现在少数几种可能的上下文中，因此该矩阵可能包含很多无信息的元素（例如，零）。

要估计词/上下文之间的相似性，通常需要评估归一化词/上下文向量的点积（即余弦相似性）。

要定义基于计数的方法，我们需要定义两件事：

可能的上下文（包括一个词出现在上下文中意味着什么）
关联的概念，即计算矩阵元素的公式

Co-Occurence Counts

最简单的方法是将上下文定义为 L 大小窗口中的每个单词。词-上下文对 (w, c) 的矩阵元素是 w 在上下文 c 中出现的次数。这是获取嵌入的非常基本（而且非常非常古老）的方法。

Positive Pointwise Mutual Information (PPMI)

这里上下文的定义和之前一样，但是单词和上下文之间关联的度量更加巧妙：positive PMI（或简称 PPMI）。 PPMI 度量被广泛认为是前神经分布相似性模型的最新技术。

潜在语义分析 (LSA)：理解文档

潜在语义分析 (LSA) 分析一组文档。虽然在之前的方法中上下文仅用于获取词向量并随后被丢弃，但在这里我们也对上下文感兴趣，或者在本例中是文档向量。 LSA是最简单的主题模型之一：文档向量之间的余弦相似度可以用来衡量文档之间的相似度。

术语“LSA”有时指的是将 SVD 应用于术语文档矩阵的更通用方法，其中术语文档元素可以用不同的方式计算（例如，简单的共现、tf-idf 或其他一些权重）

本文由mdnice多平台发布

标签：嵌入,简介,词汇表,单词,上下文,文档,自然语言,向量
From： https://www.cnblogs.com/swindler/p/17331451.html

伟大思想论文：Cantor–Bernstein-Schröder 定理及其证明简介
Cantor–Bernstein-Schröder定理及其证明简介1定理简介Cantor–Bernstein-Schröder定理，也称作Schröder–Bernstein定理、Cantor–Bernstein定理，是集合论中的重要定理。它的内容十分简单：如果集合\(A\)到集合\(B\)存在单射，且集合\(B\)到集合\(A\)存在单射，则集合......
Redis 一、（简介，redis-linux下载，启动方式，常用配置，应用场景，数据结构和内部编码，字符类型）
目录Redis一、Redis1、简介2、RedisLinux下载安装3、redis启动方式3、1.简单启动3、2.动态参数启动3、3.配置文件启动5、常用配置6、redis应用场景7、redis通用命令8、数据结构和内部编码9、redis字符串类型Redis一、Redis1、简介#Redis特性1）速度快10wops（每秒10万......
痞子衡嵌入式：恩智浦经典LPC系列MCU内部Flash IAP驱动入门
大家好，我是痞子衡，是正经搞技术的痞子。今天痞子衡给大家介绍的是恩智浦经典LPC系列MCU内部FlashIAP驱动。LPC系列MCU是恩智浦公司于2003年开始推出的非常具有代表性的产品，距今已经有近20年的生命。按时间线演进来说，其主要分为三代：-元老：基于ARM7/9内核的LPC2000......
痞子衡嵌入式：利用i.MXRT1xxx系列ROM集成的DCD功能可轻松配置指定外设
大家好，我是痞子衡，是正经搞技术的痞子。今天痞子衡给大家介绍的是利用i.MXRT1xxx系列ROM集成的DCD功能可轻松配置指定外设。关于i.MXRT1xxx系列芯片BootROM中集成的DCD功能这个话题，痞子衡早就想写了，但是一直没有动笔，毕竟这个话题比较生涩，单独讲会比较枯燥。最近痞子衡......
【万象奥科】瑞芯微RK3568四核核心板芯片简介
引言 RK3568是瑞芯微出品的一款定位中高端的通用型SoC，采用22nm先进制程工艺，集成4核 arm 架构 A55 处理器和 Mali G52 2EE 图形处理器，支持4K解码和1080P编码。RK3568支持 SATA/PCIE/USB3.0 等各类型外围接口，内置独立的NPU，可用于轻量级人工智能应用。 RK3568......
2 第二章 Visual Studio Code简介
2.1VisualStudioCode概览跨平台IntelliSense代码调试内置的Git支持2.2VisualStudioCode简史微软的Build是一个开发者大会，旨在为开发人员提供最新的技术和工具，以帮助他们构建更好的应用程序。这个大会通常会涵盖各种主题，包括人工智能、云计算、开发工具、操作系统等......
什么是自然语处理，自然语言处理主要有什么用
一．什么是NLPNLP，中文叫自然语言处理，简单来说，是一门让计算机理解、分析以及生成自然语言的学科，大概的研究过程是：研制出可以表示语言能力的模型——提出各种方法来不断提高语言模型的能力——根据语言模型来设计各种应用系统——不断地完善语言模型。NLP理解自然语言目前有两种处理方......
自然语言处理发展，主要存在哪些难点？
1.语言不规范，灵活性高自然语言并不规范，虽然可以找一些基本规则，但是自然语言太灵活了，同一个意思可以用多种方式来表达，不管是基于规则来理解自然语言还是通过机器学习来学习数据内在的特征都显得比较困难。2.错别字在处理文本时，我们会发现有大量的错别字，怎么样让计算机理解这些错别字......
直播预告 | 嵌入式BI如何将数据分析真正融入业务流程
在信息化高速发展的今天，数据成为企业最有价值的资产之一。而数据本身很难直接传递有价值的信息，只有通过对数据进行挖掘、分析，才能让数据真正成为生产力。商业智能（BI）应运而生，可以帮助企业更好地从数据中提取信息和知识，通过可视化的方式，快速准确地进行报表展现与分析，为企业提供决策支......
MBR分区表简介
一、主引导扇区的组成一般而言，磁道0中的第1个扇区是主引导扇区，在PC上BIOS会读取该扇区，并将控制权转交给这个扇区上的MBR（很多教材中以MBR指代主引导扇区，需要根据上下文区分）。主引导扇区由三个部分组成：主引导记录（MBR，MasterBootRecord）硬盘分区表（DPT，DiskPartitionTable）引导记录标志......