20230321:Bert

Bert
词嵌入(word embedding): 词嵌入是词的表示. 是一种词的类型表示，具有相似意义的词具有相似的表示，是将词汇映射到实数向量的方法总称。

之所以希望把每个单词都变成一个向量，目的还是为了方便计算，比如“猫”，“狗”，“爱情”三个词。对于我们人而言，我们可以知道“猫”和“狗”表示的都是动物，而“爱情”是表示的一种情感，但是对于机器而言，这三个词都是用0,1表示成二进制的字符串而已，无法对其进行计算。而通过词嵌入这种方式将单词转变为词向量，机器便可对单词进行计算，通过计算不同词向量之间夹角余弦值cosine而得出单词之间的相似性。

此外，词嵌入还可以做类比，比如：v(“国王”)－v(“男人”)＋v(“女人”)≈v(“女王”)，v(“中国”)＋v(“首都”)≈v(“北京”)，当然还可以进行算法推理。有了

这些运算，机器也可以像人一样“理解”词汇的意思了。那么如何进行词嵌入呢？目前主要有三种算法：

Embedding Layer

由于缺乏更好的名称，Embedding Layer是与特定自然语言处理上的神经网络模型联合学习的单词嵌入。该嵌入方法将清理好的文本中的单词进行one hot编码（热编码），向量空间的大小或维度被指定为模型的一部分，例如50、100或300维。向量以小的随机数进行初始化。Embedding Layer用于神经网络的前端，并采用反向传播算法进行监督。

被编码过的词映射成词向量，如果使用多层感知器模型MLP，则在将词向量输入到模型之前被级联。如果使用循环神经网络RNN，则可以将每个单词作为序列中的一个输入。

这种学习嵌入层的方法需要大量的培训数据，可能很慢，但是可以学习训练出既针对特定文本数据又针对NLP的嵌入模型。

Word2Vec（Word to Vector）/ Doc2Vec（Document to Vector）

Word2Vec是由Tomas Mikolov 等人在《Efficient Estimation of Word Representation in Vector Space》一文中提出，是一种用于有效学习从文本语料库嵌入的独立词语的统计方法。其核心思想就是基于上下文，先用向量代表各个词，然后通过一个预测目标函数学习这些向量的参数。Word2Vec 的网络主体是一种单隐层前馈神经网络，网络的输入和输出均为词向量，其主要训练的是图中的红圈部分。
这种算法有2种训练模式：
1. 通过上下文来预测当前词
2. 通过当前词来预测上下文
GloVe

GloVe 是对 Word2vec 方法的扩展，它将全局统计和 Word2vec 的基于上下文的学习结合了起来。

引用自这个链接

标签：Bert,嵌入,记录,20230321,单词,神经网络,学习,向量
From： https://www.cnblogs.com/modaidai/p/17304996.html

每日学习记录20230316_转录组测序数据分析
20230316:转录组测序转录组测序数据分析最根本的是基础知识,不然给你数据你都不知道是干啥的.要多看综述,并且要多看几遍.下载GEO数据之前,需要先下载参考基因组数据.可以在三个平台上下载:ucsc,ncbi和ensemble,使用下面的检索式在搜索引擎中检索:hg38ftpucsc就得到比......
每日学习记录20230308_继续PNAS代码解析
20230308:PNSA代码解析PNAS和YF代码比较特征PNASYF输入数据DDADIA算法线性回归LASSOFA数据Ifwewanttoissueapackage,whatimprovementshouldwedounderlieYF’sprogram?BothDDAandDIAdataaresupported.achangePNAS......
每日学习记录20230306_培养基
20230306:培养基细菌培养基M9培养基和lb培养基.细菌对数生长期(logarithmicgrowthphase)微生物生长曲线完整周期示意图测试原理是:不同的细菌个数对光的反射和折射不同,导致吸光系数不同,进而测量细菌不同生长状态下的OD值.Molecularstructuraldiversity......
每日学习记录20230410_Bert
20230410:BertHuggingface今天运行python-c'fromtransformersimportTFBertForTokenClassification'的时候有一个报错:Couldnotloaddynamiclibrary'libcudart.so.11.0'.查了一下发现是需要装CUDA软件,也就是英伟达调用GPU的软件,使用:condainstallcudatoolkit命......
每日学习记录20230406_bert_and_torch
20230407:tensorflowtransformertf.name_scope:这个函数会规定对象和操作属于那个范围,但是不会对“对象”的“作用域”产生任何影响,也就是不是全局变和局部变量的概念.这个东西有很多种用法:withtf.name_scope("loss"):#这个名字是随意指定,看你想干什么xentropy......
每日学习记录20230403_yum
20230403:yumyumprovides:是反查询，用于搜索某个文件在哪个软件包里面。rpm与yum的区别rpm软件包之间的依赖性问题往往会很繁琐,尤其是软件由多个rpm包组成时。yum基于RPM包管理，能够从指定的服务器自动下载RPM包并且安装，可以自动处理依赖性关系，并且一次安......
20230410 训练记录：最小瓶颈路 / lca
初识最小瓶颈路其实是上海那道著名的铜牌题，其次就是P1396营救。P1967[NOIP2013提高组]货车运输/最小瓶颈路https://www.luogu.com.cn/problem/P1967\(\mathcalO(m\logm+(n+q)\logn)\)最大生成树（森林）两点间最小边权，直接在倍增lca向上爬的时候更新答案。问......
在DongshanPI-D1开箱使用分享与折腾记录&实现MPU6050数据读取
前言上一篇文章使用RT-Smart的IIC驱动OLED屏幕，进行基本的字符串显示,在使用过程中对RT-Smart有了一定熟悉，准备使用SPI驱动ST7789，但SPI接口没有引出，本次使用手上已有的传感器MPU6050进行使用。过程本次直接开始添加离线包在/D1S/userapps/rt-thread/bsp/allwinner/d1s下输入scon......
[已解决] 记录一次排查错误Invalid character found in the HTTP protocol
环境Tomcat8.x报错InvalidcharacterfoundintheHTTPprotocol[HTTP/1.1Connection:]分析查看localhost_access_log.txt发现:HEAD/400都是HEAD请求，且返回都是400，毕竟HTTP协议的字符不正确。调研Howtosolve"InvalidcharacterfoundintheHTTPprotocol[......
记录-html-docs-js避坑指南
这里给大家分享我在网上总结出来的一些知识，希望对大家有所帮助前言我们公司目前在做基于tiptap的在线协同文档，最近需要做导出pdf、word需求。导出word文档使用的是html-docx-js-typescript，是用typescript重写了一下html-docx-js，可以看到最近的提交记录是2016年，貌似已......

每日学习记录20230321_Bert

20230321:Bert

相关文章

赞助商

阅读排行