首页 > 其他分享 >SciTech-BigDataAIML-LLM-Transformer Series系列: Word Embedding词嵌入详解: 用Corpus预训练出嵌入矩阵E→Input变长词序列→Oneho

SciTech-BigDataAIML-LLM-Transformer Series系列: Word Embedding词嵌入详解: 用Corpus预训练出嵌入矩阵E→Input变长词序列→Oneho

时间:2024-08-13 22:50:25浏览次数:7  
标签:嵌入 矩阵 词列 Embedding 序列 Corpus

SciTech-BigDataAIML-LLM-Transformer Series系列:

Word Embedding词嵌入详解:

1. 用Corpus预训练出嵌入矩阵\(\large E\)

  • Corpus Collecting: 非常重要的工作
    先收集一个常用的Corpus(语料库), 能保障大多数的word都在corpus.
    有两个特别重要的作用:
    • Vocabulary Extracting: 词汇表提取
      用Corpus(语料库)提取出Vocabulary;
    • Corpus Context Extracting: Corpus(语料库)的"词上下文"提取。
      Context信息包括:
      • COM(Co-Occurrence Matrix, 词共现矩阵)
      • N-Gram,
      • MHA(Multi-Head Attention, 多头注意力)可以提取出的更多信息。
      • others
    • E("Embedding Matrix) Constructing: 建立“嵌入矩阵”
      • E的Shape为 VocabSize × DIM:
        VocabSize即以上Vocabulary的size, DIM即要训练出的E的“词引向量”维度。
      • E对Vocabulary的每一Word的Onehot“词列向量”:
        • 不仅唯一的对应一个“Embedded词列向量”;
        • 而且有“语义信息”嵌入(还可以自定义Embedding更多信息)。
        • 还都统一成DIM维度(矩阵乘法变换, 可将input的Onehot序列, 变换成"统一DIM维度"的"词列向量"序列)。
      • 这个训练好的E("Embedding Matrix)就是Embedding嵌入层。
        将 Corpus Context 信息 嵌入 E("Embedding Matrix) 的训练方法,
        常用的有Word2vec, Glove, Fastext, ...

→Input变长词序列→Onehot"词列向量"序列→矩阵乘"嵌入矩阵E"→Embedded"词列向量"序列"




标签:嵌入,矩阵,词列,Embedding,序列,Corpus
From: https://www.cnblogs.com/abaelhe/p/18357873

相关文章

  • 【视频讲解】滚动回归Rolling Regression、ARIMAX时间序列预测Python、R实现应用
    原文链接: https://tecdat.cn/?p=37338原文出处:拓端数据部落公众号分析师:JixinZhong  本文将通过视频讲解,展示如何用滚动回归预测,并结合一个R语言多元时间序列滚动预测:ARIMA、回归、ARIMAX模型分析实例的代码数据,为读者提供一套完整的实践数据分析流程。滚动回归估计是于一......
  • 嵌入式软件--数据结构与算法 DAY 12
    数据结构和算法是程序的核心,虽然在嵌入式应用中很少会用到,但了解认知这种思维过程是非常有必要的。一个好的程序员应该把数据结构和算法看的比代码更重要。1.数据结构是什么?定义1(宏观):数据结构是为了高效访问数据而设计出的一种数据的组织和存储方式。定义2(微观):数据结构......
  • 嵌入式软件--数据结构与算法 DAY 13
    在嵌入式中,对算法的要求不高,但顺序查找和冒泡排序是经典算法,必须掌握。1.算法定义算法是一个用于解决特定问题的有限指令序列(计算机可以执行的操作)。通俗的理解就是可以解决特定问题的方法。2.时间复杂度时间复杂度不是执行完一段程序的总时间,而是描述为一个算法中基本操作......
  • 嵌入式软件--C语言项目 客户信息管理系统
    考虑到目前C语言的学习是以为嵌入式做基础而进行的,项目所使用到的语法和结构都是嵌入式常用到的,这是较为特殊和针对性的项目,不与其他同名项目作比较。若有参考着谨慎借鉴。实现一个客户信息管理系统,功能包括添加客户、修改客户、删除客户、显示客户列表。1.需求说明(1)主菜单......
  • 重头开始嵌入式第十九天(Linux系统编程 文件IO)
    缓冲区 1.行缓冲行缓冲,1k, terminal,主要用于人机交互stdout缓存区满或者遇到\n刷新1024行缓存多是关于终端的一些操作1.遇到\n刷新2.缓存区满刷新3.程序结束刷新4.fflush刷新  fflush(stdout);2.全缓冲全缓冲,4k,主要用于文件的读写缓存区满刷新缓存区 4096对......
  • 【PHP安全系列】demo:PHP 反序列化漏洞①
    <?phpclassindex{private$test;publicfunction__construct(){$this->test=newnormal();}publicfunction__destruct(){$this->test->action();}}classnormal{publicfunct......
  • 无缝融入,即刻智能[一]:Dify-LLM大模型平台,零编码集成嵌入第三方系统,42K+星标见证专属智
    无缝融入,即刻智能[一]:Dify-LLM大模型平台,零编码集成嵌入第三方系统,42K+星标见证专属智能方案1.Dify简介1.1功能情况Dify,一款引领未来的开源大语言模型(LLM)应用开发平台,革新性地融合了后端即服务(BackendasaService,BaaS)与LLMOps的精髓,为开发者铺设了一条从创意原型到......
  • Milvus向量数据库-BM25稀疏嵌入
    milvus向量数据库milvus支持混合搜索,多个向量同时检索,然后进行重排序最终返回结果。多向量包括(多个密集向量或稀疏向量)Embedding嵌入它是一种机器学习概念,用于将数据映射到高维空间,其中具有相似语义的数据被放置在一起。通常是来自BERT或其他Transformer家族的深度神经......
  • 智能汽车技能矩阵(1)——从系统到领域
    智能汽车技能矩阵(1)——从系统到领域从业智能汽车需要具备什么技能?聚焦这个问题准备开启一个新的系列,即所谓的“技能矩阵”——SkillMatrix。附赠自动驾驶最全的学习资料和量产经验:链接插件概念ASPICE3.1图示中的插件概念,如下图。来自ASPICE3.1如上图,产品分解为不......
  • E-小红的序列乘积2.0(牛客周赛55)
    E-小红的序列乘积2.0题意:给定数组a,求子序列前缀积个位数为6的数字个数。分析:只要算个位数是否为6,所以把a数组都换成个位数上的数就好了。用a数组与1到9的数字进行组合,用组合数学算出组合数。代码:#include<bits/stdc++.h>usingnamespacestd;typedeflonglongll;const......