首页 > 其他分享 >LLM中词向量的表示和词嵌入的一些疑问

LLM中词向量的表示和词嵌入的一些疑问

时间:2024-10-13 19:44:14浏览次数:9  
标签:king 嵌入 中词 queen woman LLM male 向量 man

LLM中词向量的表示和词嵌入的一些疑问

词向量的一些特点

在3blue1brown的视频【官方双语】GPT是什么?直观解释Transformer | 深度学习第5章_哔哩哔哩_bilibili中, 在15min左右介绍了LLM的词嵌入的过程.

其中提到mother的词向量减去father的词向量, 会近似于women的词向量-man的词向量

image-20241013190602297

通过这个例子,说明模型在词嵌入空间上的某一方向编码了一个性别信息. 这个例子非常生动, 也非常符合直觉.

类似的有一篇2017年发表在CogSci的研究1705.04416 (arxiv.org)

在这篇论文中,也提到类似的例子

即\(E(woman)\approx E(man)+E(queen)-E(king)\)
image-20241013191249990

首先一点, 我认为使用\(E(woman)\approx E(man)+E(queen)-E(king)\) 来说明模型在某一方向上编码了特定信息并不一定准确.

因为我们可以理解为women和man 是一组相似的词, 词向量是比较接近的,同理queen和king也是

事实上, 在llama3-8B-instruction 中,通过余弦相似度去衡量woemn和man的词向量, 可以发现他们确实如此)

由于E(queen)和E(king)本身比较接近,因此他们相减应该得到一个较小的向量, 那么自然而然的,我们会有

\[E(woman)\approx E(man) \approx E(man)+E(queen)-E(king) \]

因此,我认为像3Blue1Brown中直接比较\(E(queen)-E(king)\)和\(E(woman)- E(man)\) 相似度,显然是一个更合适的选择.

简单的实现

如果他们是相似的,那么他们的余弦相似度值应该尽可能大, 然后, 在llama3-8b 的测试中, 我们发现他们的相似度为-0.0220,也就是说,\(E(queen)-E(king)\)和\(E(woman)- E(man)\)这两个向量是几乎正交的.

而和之前的分析一样E(man) 和E(woman)-E(queen)+E(king)的相似度有0.3906, 这对于llama3模型而言是一个比较高的相似度(llama每个词向量的维度是4096)

除了llama3,和简单测试了phi-3, llama2,Qwen1.5等模型, 同时也简单试了一下其他的词, 得出了结果都和llama3基本都大差不差.

\(E(queen)-E(king)\)和\(E(woman)- E(man)\) 这两个向量不仅不是接近平行,甚至是几乎正交的. 至此, 我们可以3b1b和这篇论文中说提出的理论虽然很简洁优雅, 但在大模型上似乎没有那么奏效. 不过目前像3blue1brown中的理论, 依然可以在一些介绍LLM词向量的文章中看到, 这个理论本身非常有道理, 但实测下来, 可能还是需要更加谨慎的看待这个理论.

llama3的结果

//E(woman)-E(man)和E(queen)-E(king)的相似度
tensor([-0.0220], device='cuda:0', dtype=torch.bfloat16,
       grad_fn=<SumBackward1>)
//E(man) 和E(woman)-E(queen)+E(king)的相似度
tensor([0.3906], device='cuda:0', dtype=torch.bfloat16, grad_fn=<SumBackward1>)
___________________________________
 fake word2: male+ queen- king  整个embeding矩阵中和这个词最接近的一些词(tensor中是他们的相似度)
tensor([0.6797, 0.5469, 0.3906, 0.3828, 0.3340, 0.3320, 0.3086, 0.3047, 0.2559,
        0.2500], device='cuda:0', dtype=torch.bfloat16,
       grad_fn=<TopkBackward0>)
[' male', ' queen', ' female', ' Male', ' males', 'Male', ' Queen', 'male', ' queens', ' Female']
___________________________________
 word1: male
tensor([1.0000, 0.5430, 0.5430, 0.4824, 0.4785, 0.4121, 0.3379, 0.3164, 0.2676,
        0.2598], device='cuda:0', dtype=torch.bfloat16,
       grad_fn=<TopkBackward0>)
[' male', ' Male', ' female', ' males', 'Male', 'male', ' Female', ' females', 'female', 'Female']
___________________________________
 word2: female
tensor([1.0000, 0.5898, 0.5430, 0.4922, 0.4902, 0.4727, 0.3438, 0.3340, 0.3086,
        0.3047], device='cuda:0', dtype=torch.bfloat16,
       grad_fn=<TopkBackward0>)
[' female', ' Female', ' male', 'Female', ' females', 'female', ' women', 'EMALE', ' woman', ' Male']

标签:king,嵌入,中词,queen,woman,LLM,male,向量,man
From: https://www.cnblogs.com/Mintisn/p/18462830

相关文章

  • 嵌入式分享~IO相关1 ##
     我自己的原文哦~ https://blog.51cto.com/whaosoft/12237896这里仅总结一下IO控制相关及这种总线等 ~持续更新一、单片机IO直接驱动继电器 上图是随便找到的两个不同型号的继电器。继电器就是个开关,这个开关是由它内部的线圈控制的,给线圈通电,继电器就吸合,开关就动......
  • AI 推理能力大“翻车”!苹果最新论文:LLM只是复杂的模式匹配,而不是真正的逻辑推理
    内容提要大语言模型真的可以推理吗?LLM都是“参数匹配大师”?苹果研究员质疑LLM推理能力,称其“不堪一击”!文章正文苹果的研究员MehrdadFarajtabar等人最近发表了一篇论文,对大型语言模型(LLM)的推理能力提出了尖锐的质疑,他认为,LLM的“推理”能力,其实只是复杂的模式匹......
  • 嵌入式Linux系统磁盘空间问题
    问题描述:我的系统板是stm32mp157,属于mpu,搭载了嵌入式Linux系统,我将系统通过STM32CubeProgrammer烧录在了一张32g的sd卡上,可是系统烧录完毕启动板子后,使用命令df-h查看发现磁盘空间只有1个多g,如下图上网查看,问题可能出在我的系统是由buildroot进行构建的,某些嵌入式系统的构......
  • 大模型应用开发速成:一本通向LLM专家之路
    大家好,今天给大家推荐一本大模型应用开发入门书籍《大模型应用开发极简入门》,本书对很多AI概念做了讲解和说明!朋友们如果有需要《大模型应用开发极简入门》,扫码获取~本书主要讲解了以下几个方面的大模型技术:GPT-4和ChatGPT的工作原理:书中详细介绍了这两个先进的语言......
  • 从入门到精通:几本关键书籍助你成为LLM大师
    以下是几本关于大模型和人工智能领域的经典书籍,它们各自具有独特的特点和适用人群:《深度学习》(DeepLearning)作者:伊恩·古德费洛(IanGoodfellow)、约书亚·本吉奥(YoshuaBengio)、亚伦·库维尔(AaronCourville)简介:《深度学习》是深度学习领域的经典之作,全面介绍了深度学习......
  • 嵌入式——PWM
    本文主要介绍了什么是PWM,PWM的基本结构,PWM波的生成过程,如何用代码生成PWM波以及通过示波器观察生成的PWM波形。前期准备:32芯片、示波器。一、PWM的概念1.引言关于PWM,常听到的有“用示波器抓PWM波啊”“PWM的占空比”……这些都是啥,我很好奇,所以我去学习了PWM波,知道了什么......
  • 国内首本中文版的LLM大语言模型入门指南发布!(送PDF)
    我就知道人大还留有后手。自从这篇中文大模型综述发布以后,在全网收到了一致好评。人大这边也一直没闲着,在后续一年之内修改了十多遍,收录了近千篇的参考文献,快马加鞭赶出了这本大语言模型中文版。一经发布就震惊国内高校和研究人员,是更适合中国体制的大模型指南。本书内容......
  • LLM权威教程:吴恩达 面向开发者的LLM入门教程+开源大模型食用指南,普通学习者也能看懂!
    今天给大家推荐一本由吴恩达和OpenAI团队共同编写的关于大型语言模型(LLM)的权威教程<面向开发者的LLM入门教程>!在Github上已经高达50kstar了,这含金量不用多说,在这里给大家强烈推荐一波,不多bb直接开始介绍!这本教程旨在为开发者提供全面而系统的LLM知识和技能,结合了吴恩达在......
  • LLM大语言模型书籍教程推荐:《大模型时代》+《开源大模型食用指南》!附文档
    哈喽大家好!很久都没有更新大模型这块的书了,今天给大家说一下这本:《大模型时代》,本书对大模型时代的技术、应用和产业变化进行了深入的分析和阐述。《本书》深入探讨了大型模型时代的技术演进、应用场景和产业变革。生动地阐释了ChatGPT背后的工作原理,深入解析了这一推动技......
  • Git上爆火《开源大模型食用指南》self-llm(附文档)已发布,速通大模型!
    前言《开源大模型食用指南》是一个围绕开源大模型、针对国内初学者、基于AutoDL平台的中国宝宝专属大模型教程,针对各类开源大模型提供包括环境配置、本地部署、高效微调等技能在内的全流程指导,简化开源大模型的部署、使用和应用流程,让更多的普通学生、研究者更好地使用......