Word2Vec总结

时间：2023-03-07 13:02:26浏览次数：30

标签：总结 Word2vec 模型博文词袋 Word2Vec 向量

最近一段时间，我写了好几篇关于Word2vec的文章，从理论部分到具体实践，现总结如下：

理论部分

轻松理解skip-gram模型
 轻松理解CBOW模型
上述两篇博文从理论角度，讲述了Word2Vec两大模型

实践部分

Word2vec使用手册
这一篇文章主要从工具箱的角度，讲述如何使用现成的API来直接使用Word2Vec

Word2vec之情感语义分析实战（part1）
这一篇博文主要借助IMDB电影评论数据，利用词袋模型做特征构造，利用随机森林做预测，来判断一段评论是否是积极的还是消极的

Word2vec之情感语义分析实战（part2）
这一篇博文则讲述了如何在IMDB数据集上使用Word2Vec数据包，来构造分布式词向量，训练模型，并保存模型文件

Word2vec之情感语义分析实战（part3）–利用分布式词向量完成监督学习任务
这一篇博文则利用训练好的模型，对单词向量做矢量平均，或聚类，最后利用随机森林来预测。

通过上述part1,part2,part3所做的实验，我们发现词袋模型的效果比word2vec好。这个原因本质上是因为，word2vec后我们采用的矢量平均及聚类方法都忽略了单词顺序的影响，因此理论上应该和词袋模型效果差不多的。

那到底如何改善呢，我们可以尝试以下几点方法:

首先，用更多的文本来训练Word2Vec，这应该能大大提高性能。谷歌的结果是基于从超过10亿词的语料库中学到的词向量;我们的标签和未标记的训练集只有区区1800万字左右。

Word2Vec提供了一些功能，可以加载预训练的模型。其实在已发表的文献中，分布式词向量技术已经被证明比词袋模型的表现要好得多。

Word2vec:Tensorflow实战
这篇文章利用tensorflow深度学习框架实现了skip-gram模型，算是个mini版

标签：总结,Word2vec,模型,博文,词袋,Word2Vec,向量
From： https://blog.51cto.com/u_15996214/6105928

Word2vec之情感语义分析实战（part3）--利用分布式词向量完成监督学习任务
引言这篇博客将基于前面一篇博客Part2做进一步的探索与实战。demo代码与数据：传送门单词的数值化表示前面我们训练了单词的语义理解模型。如果我们深入研究就会发......
项目实战总结《模拟gin写一个web框架gee》
概述：gee框架使用了前缀树算法来匹配路由,实现了路由分组，继承了gin的上下文写法，封装了常用的jsion,html,string，实现了服务端渲染，用钩子函数实现了中间件。项目的难度偏入门......
【博学谷学习记录】超强总结，用心分享 | 小程序 canvas生成图片
【博学谷IT技术支持】一、目标将画好的canvas生成一张图片，然后生成图片，保存在本地或者相册二、需求分析调研首先查看保存图片到本地，需要用户授权信息其次，canvas保存......
每日总结_20230306
今天我学习了Javaweb中的Servlet和JSP，了解了Servlet的生命周期、请求和响应过程等概念，掌握了使用JSP进行动态网页开发的方法。同时，我也学习了使用Tomcat服务器进行Javaweb......
面试复习总结-tcp三次握手四次挥手
1.TCP/IP协议：应用层：HTTPFTPTFTPHTTPS会话层表达层传输层：TCPUDP网络层：IPICMPARP 数据链路层：PPP,PPTP物理层：帧 tcp三次握手四次挥手： 1.客户端发送连接......
今日总结2023/03/06
今日的工程数学课收获很大，学会了线性搜索中的0.618搜索法。下午的软件工程课，我深刻意识到了软件规范的重要性，做一个工程应该做到见名知意，这样易于理解易于找bug。课堂测验......
3.36每日总结11
今天利用不到两个小时的时间进行了第一次作业界面的设计以及后台部分代码的设计，在这期间遇到了布局中按钮位置不能改变的问题，然后经过百度查找到了改变线性布局的位置......
3月6号总结
8.1List接口：java.util.List<>。实现：java.util.ArrayList<>：变长数组java.util.LinkedList<>：双链表函数：add()：在末尾添加一个元素clear()：清空size()：返回长度isEmpty()：是否......
cs144Lab总结
CS144Lab总结我不明白，我就是不明白，面试官说的话我一点都不明白。面试官说好的东西，到底怎么好我不明白，不明白，我不明白。套接字（socket）到底有什么用的，套接字，到底有什么好，我......
每日总结 3.6
今天上了软件工程的课，王老师为我们讲述了代码格式规范。代码缩进、变量命名规范和注释的书写。还有在进行代码编写时要进行单元测试。课后有进行Android的学习： packa......

Word2Vec总结

相关文章

赞助商

阅读排行