机器学习 | TF-IDF详解

时间：2023-06-27 19:22:44浏览次数：47

什么是TF-IDF

TF-IDF是一种常用的文本处理技术，用以评估一个词对于一篇文章或语料库中一篇文章的重要性。TF代表词频(Term Frequency)，IDF代表逆文档频率(Inverse Document Frequency)。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

TF-IDF的使用场景

TF-IDF常被用于文本分类、信息检索、关键词提取等领域。在文本分类中，可以根据TF-IDF值来计算文本与某个类别的相关程度；在信息检索中，可以根据用户输入的关键词的TF-IDF值来排序搜索结果；在关键词提取中，可以根据TF-IDF值来确定文本中的关键词。

TF-IDF原理

TF（全称TermFrequency）指的是某个词在文本中出现的频率。如果一个词在文本中出现的次数越多，那么它的TF值就越高。例如，在一篇文章中，词语“apple”出现了5次，而总词数为1000个，那么它的TF值为0.005。

这其中还有一个漏洞，就是 ”的“ ”是“ ”啊“ 等类似的词在文章中出现的此时是非常多的，但是这些大多都是没有意义词，对于判断文章的关键词几乎没有什么用处，我们称这些词为”停用词“，也就是说，在度量相关性的时候不应该考虑这些词的频率。

IDF（全称InverseDocumentFrequency）指的是一个词在文本集合中的重要程度。如果一个词在整个文本集合中出现的文档数越少，那么它的IDF值就越高，说明这个词在文本中的重要程度越高。例如，在一个由1000篇文章组成的文本集合中，词语“apple”只出现在10篇文章中，那么它的IDF值为log(1000/10) = 2。

TF-IDF 值就是将TF和IDF相乘得到的结果。它反映了一个词在文本中的重要性。如果一个词在文本中出现的次数越多，同时在整个文本集合中出现的文档数越少，那么它的TF-IDF值就越高，说明这个词在文本中的重要程度越高。

TF-IDF的计算公式为：

第一步，计算词频。

考虑到文章有长短之分，为了便于不同文章的比较，进行"词频"标准化。

或者

第二步，计算逆文档频率。

这时，需要一个语料库（corpus），用来模拟语言的使用环境。

如果一个词越常见，那么分母就越大，逆文档频率就越小越接近0。分母之所以要加1，是为了避免分母为0（即所有文档都不包含该词）。log表示对得到的值取对数。

第三步，计算TF-IDF。

可以看到，TF-IDF与一个词在文档中的出现次数成正比，与该词在整个语言中的出现次数成反比。所以，自动提取关键词的算法就很清楚了，就是计算出文档的每个词的TF-IDF值，然后按降序排列，取排在最前面的几个词。

代码案例：

from sklearn.feature_extraction.text import TfidfVectorizer
tfidf_vec = TfidfVectorizer()
# stop words自定义停用词表，为列表List类型
# token_pattern过滤规则，正则表达式，如r"(?u)bw+b
# max_df=0.5，代表一个单词在 50% 的文档中都出现过了，那么它只携带了非常少的信息，因此就不作为分词统计
documents = [
    'this is the bayes document',
    'this is the second second document',
    'and the third one',
    'is this the document'
]
tfidf_matrix = tfidf_vec.fit_transform(documents)
# 拟合模型，并返回文本矩阵  表示了每个单词在每个文档中的 TF-IDF 值
print('输出每个单词在每个文档中的 TF-IDF 值，向量里的顺序是按照词语的 id 顺序来的:', '\n', tfidf_matrix.toarray())
print('不重复的词:', tfidf_vec.get_feature_names())
print('输出每个单词对应的 id 值:', tfidf_vec.vocabulary_)
print('返回idf值:', tfidf_vec.idf_)
print('返回停用词表:', tfidf_vec.stop_words_)

标签：tfidf,IDF,详解,文档,vec,TF,文本
From： https://www.cnblogs.com/zhangxuegold/p/17509738.html

maven核心，pom.xml详解(转) 附录A mave的依赖范围附录B maven常用命令集
什么是pom? pom作为项目对象模型。通过xml表示maven项目，使用pom.xml来实现。主要描述了项目： -包括配置文件； -开发者需要遵循的规则， -缺陷管理系统， -组织和licenses， -项目的url， -项目的依赖性， -以及其他所有的项目相关因素。快速......
什么是RESTful Web Service / webservice和restful的区别
http://www.ruanyifeng.com/blog/2014/05/restful_api.htmlhttp://developer.51cto.com/art/200908/141825.htm 用Java技术创建RESTfulWeb服务http://www.ibm.com/developerworks/cn/web/wa-jaxrs/基于REST的Web服务：基础http://www.ibm.com/developerworks/cn/webservice......
优维低代码实践：数据加工/转化详解
优维低代码技术专栏，是一个全新的、技术为主的专栏，由优维技术委员会成员执笔，基于优维7年低代码技术研发及运维成果，主要介绍低代码相关的技术原理及架构逻辑，目的是给广大运维人提供一个技术交流与学习的平台。优维低代码实践连载第⑧期《数据加工/转化详解》▽一、表达式VisualBuild......
CTFer成长记录——Web专题·双写绕过
一、题目链接http://a.y1ng.vip:1126/employeeswork/二、题意解析访问该网址：发现是一些不明觉厉的英文：关于Y1ng公司所有员工的通知：如果你认为你对自己的工作感到满意，你可以使用函数work_worthy()。但是是否值得，只会由我的机器人PrecocedeMalingre来......
CTFer成长记录——web专题·一句话木马
一、题目链接http://a.y1ng.vip:1126/chopper/二、题意解析打开网址，发现网页提示：明显是一个一句话木马的语句，而且可以猜测网页后台已经有php木马文件，我们只需要连接上就行。三、解题步骤使用antSword等Webshell管理工具，来对该后门程序进行链接：这里用antSword，复制该网页的域......
[SUCTF 2019]Pythonginx
源码：@app.route('/getUrl',methods=['GET','POST'])defgetUrl():url=request.args.get("url")#获取urlhost=parse.urlparse(url).hostname#获取主机名例如：http://www.baidu.com/index.php?a=111会读取到www.baidu.com......
【vue2】vuex超超超级详解！(核心五大配置项)
......
【vue2】Vue Cli脚手架与VueTools的安装详解
......
defaultdict详解
defaultdict详解今天在看博文的时候，无意间看到了defaultdic的用法，觉得挺有意思的，分享下defaultdict是一个字典（dict）的子类，它提供了一种更方便的方式来处理缺失键（key）的情况。与普通的字典不同，defaultdict在初始化时需要指定一个默认工厂函数（defaultfactoryfunction），该函数用......
强化学习从基础到进阶-常见问题和面试必知必答[6]：演员-评论员算法（advantage actor-cri
强化学习从基础到进阶-常见问题和面试必知必答[6]：演员-评论员算法（advantageactor-critic，A2C），异步A2C、与生成对抗网络的联系等详解1.核心词汇优势演员-评论员（advantageactor-critic，A2C）算法：一种改进的演员-评论员（actor-critic）算法。异步优势演员-评论员（asynchronousadvanta......

机器学习 | TF-IDF详解

什么是TF-IDF

TF-IDF的使用场景

TF-IDF原理

TF-IDF的计算公式为：

相关文章

赞助商

阅读排行