首页 > 其他分享 >机器学习 | TF-IDF详解

机器学习 | TF-IDF详解

时间:2023-06-27 19:22:44浏览次数:44  
标签:tfidf IDF 详解 文档 vec TF 文本

什么是TF-IDF

TF-IDF是一种常用的文本处理技术,用以评估一个词对于一篇文章或语料库中一篇文章的重要性。TF代表词频(Term Frequency),IDF代表逆文档频率(Inverse Document Frequency)。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。

TF-IDF的使用场景

TF-IDF常被用于文本分类、信息检索、关键词提取等领域。在文本分类中,可以根据TF-IDF值来计算文本与某个类别的相关程度;在信息检索中,可以根据用户输入的关键词的TF-IDF值来排序搜索结果;在关键词提取中,可以根据TF-IDF值来确定文本中的关键词。

TF-IDF原理

TF(全称TermFrequency)指的是某个词在文本中出现的频率。如果一个词在文本中出现的次数越多,那么它的TF值就越高。例如,在一篇文章中,词语“apple”出现了5次,而总词数为1000个,那么它的TF值为0.005。

这其中还有一个漏洞,就是 ”的“ ”是“ ”啊“ 等类似的词在文章中出现的此时是非常多的,但是这些大多都是没有意义词,对于判断文章的关键词几乎没有什么用处,我们称这些词为”停用词“,也就是说,在度量相关性的时候不应该考虑这些词的频率。

IDF(全称InverseDocumentFrequency)指的是一个词在文本集合中的重要程度。如果一个词在整个文本集合中出现的文档数越少,那么它的IDF值就越高,说明这个词在文本中的重要程度越高。例如,在一个由1000篇文章组成的文本集合中,词语“apple”只出现在10篇文章中,那么它的IDF值为log(1000/10) = 2。

TF-IDF 值就是将TF和IDF相乘得到的结果。它反映了一个词在文本中的重要性。如果一个词在文本中出现的次数越多,同时在整个文本集合中出现的文档数越少,那么它的TF-IDF值就越高,说明这个词在文本中的重要程度越高。

TF-IDF的计算公式为

第一步,计算词频。

考虑到文章有长短之分,为了便于不同文章的比较,进行"词频"标准化。

或者

第二步,计算逆文档频率。

这时,需要一个语料库(corpus),用来模拟语言的使用环境。

如果一个词越常见,那么分母就越大,逆文档频率就越小越接近0。分母之所以要加1,是为了避免分母为0(即所有文档都不包含该词)。log表示对得到的值取对数。

第三步,计算TF-IDF。

可以看到,TF-IDF与一个词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比。所以,自动提取关键词的算法就很清楚了,就是计算出文档的每个词的TF-IDF值,然后按降序排列,取排在最前面的几个词。

代码案例:

from sklearn.feature_extraction.text import TfidfVectorizer
tfidf_vec = TfidfVectorizer()
# stop words自定义停用词表,为列表List类型
# token_pattern过滤规则,正则表达式,如r"(?u)bw+b
# max_df=0.5,代表一个单词在 50% 的文档中都出现过了,那么它只携带了非常少的信息,因此就不作为分词统计
documents = [
    'this is the bayes document',
    'this is the second second document',
    'and the third one',
    'is this the document'
]
tfidf_matrix = tfidf_vec.fit_transform(documents)
# 拟合模型,并返回文本矩阵  表示了每个单词在每个文档中的 TF-IDF 值
print('输出每个单词在每个文档中的 TF-IDF 值,向量里的顺序是按照词语的 id 顺序来的:', '\n', tfidf_matrix.toarray())
print('不重复的词:', tfidf_vec.get_feature_names())
print('输出每个单词对应的 id 值:', tfidf_vec.vocabulary_)
print('返回idf值:', tfidf_vec.idf_)
print('返回停用词表:', tfidf_vec.stop_words_)

标签:tfidf,IDF,详解,文档,vec,TF,文本
From: https://www.cnblogs.com/zhangxuegold/p/17509738.html

相关文章

  • maven核心,pom.xml详解(转) 附录A mave的依赖范围 附录B maven常用命令集
    什么是pom?   pom作为项目对象模型。通过xml表示maven项目,使用pom.xml来实现。主要描述了项目:  -包括配置文件;  -开发者需要遵循的规则,  -缺陷管理系统,  -组织和licenses,  -项目的url,  -项目的依赖性,  -以及其他所有的项目相关因素。 快速......
  • 什么是RESTful Web Service / webservice和restful的区别
    http://www.ruanyifeng.com/blog/2014/05/restful_api.htmlhttp://developer.51cto.com/art/200908/141825.htm 用Java技术创建RESTfulWeb服务http://www.ibm.com/developerworks/cn/web/wa-jaxrs/基于REST的Web服务:基础http://www.ibm.com/developerworks/cn/webservice......
  • 优维低代码实践:数据加工/转化详解
    优维低代码技术专栏,是一个全新的、技术为主的专栏,由优维技术委员会成员执笔,基于优维7年低代码技术研发及运维成果,主要介绍低代码相关的技术原理及架构逻辑,目的是给广大运维人提供一个技术交流与学习的平台。优维低代码实践连载第⑧期《数据加工/转化详解》▽一、表达式VisualBuild......
  • CTFer成长记录——Web专题·双写绕过
    一、题目链接http://a.y1ng.vip:1126/employeeswork/二、题意解析  访问该网址:  发现是一些不明觉厉的英文:  关于Y1ng公司所有员工的通知:  如果你认为你对自己的工作感到满意,你可以使用函数work_worthy()。  但是是否值得,只会由我的机器人PrecocedeMalingre来......
  • CTFer成长记录——web专题·一句话木马
    一、题目链接http://a.y1ng.vip:1126/chopper/二、题意解析打开网址,发现网页提示:明显是一个一句话木马的语句,而且可以猜测网页后台已经有php木马文件,我们只需要连接上就行。三、解题步骤使用antSword等Webshell管理工具,来对该后门程序进行链接:这里用antSword,复制该网页的域......
  • [SUCTF 2019]Pythonginx
    源码:@app.route('/getUrl',methods=['GET','POST'])defgetUrl():url=request.args.get("url")#获取urlhost=parse.urlparse(url).hostname#获取主机名例如:http://www.baidu.com/index.php?a=111会读取到www.baidu.com......
  • 【vue2】vuex超超超级详解!(核心五大配置项)
    ......
  • 【vue2】Vue Cli脚手架与VueTools的安装详解
    ......
  • defaultdict详解
    defaultdict详解今天在看博文的时候,无意间看到了defaultdic的用法,觉得挺有意思的,分享下defaultdict是一个字典(dict)的子类,它提供了一种更方便的方式来处理缺失键(key)的情况。与普通的字典不同,defaultdict在初始化时需要指定一个默认工厂函数(defaultfactoryfunction),该函数用......
  • 强化学习从基础到进阶-常见问题和面试必知必答[6]:演员-评论员算法(advantage actor-cri
    强化学习从基础到进阶-常见问题和面试必知必答[6]:演员-评论员算法(advantageactor-critic,A2C),异步A2C、与生成对抗网络的联系等详解1.核心词汇优势演员-评论员(advantageactor-critic,A2C)算法:一种改进的演员-评论员(actor-critic)算法。异步优势演员-评论员(asynchronousadvanta......