AI-特征工程
利用AI实现智能化自动化分类过程的前提是对数据进行特征工程。特征工程的目的是对待分类对象进行特征描述及刻画,例如刻画一种动物是猫还是狗需要在很多个维度去说明,比如狗的轮廓特征和猫的轮廓特征有差异等。特征工程就是将这些具有区分度的特征形象化或数值化出来。特征工程的方法有很多,大体分为人工特征工程和自动化的特征工程。为了很好的区分实体,有些时候需要人为提取一些较为特别的特征;而有些时候也会采用从原理上认为合理的自动化特征工程。
- TF-IDF
本质上,TF-IDF(term frequency–inverse document frequency)是一种词袋模型,也是一种统计方法,用于评估一个字词在一篇文章中的重要性。从直观上理解,一个字词在一篇文章中出现的频数越多越重要,但是作为常识也知道,像一些介词在任何文章中出现的频数都多,但不代表介词重要,因此还需要限定一个条件,那就是一个字词在一篇文章中出现的频数越多,而在其他文章中出现的频数越少则说明这个字词重要。
\(TF\)为某词在一篇文章中出现的频数,也叫词频,\(IDF\)为逆文档率,反映某词在其他文章中出现的频次
用数学公式表达则为:
\(TF-IDF = TF * IDF\),其中\(tf_{ij} = \frac{n_{i,j}}{\sum_{k}n_{k,j} }\),\(n_{i,j}\)是该词在文章\(d_{j}\)中出现的次数,\(\sum_{k}n_{k,j}\)表示文章\(d_{j}\)中所有词汇出现次数总和。
\(idf_{i} = log\frac{|D|}{|\left \{ j:t_{i}\in d_{j} \right \}|}\),\(|D|\)是语料库的文章总数,\(|\left \{ j:t_{i}\in d_{j} \right \}|\)表示包含词语\(t_{i}\)的文章数量,如果该词语不在语料库中,可能会导致分母为0,因此通常会使用\(idf_{i} = log\frac{|D|}{|\left \{ j: t_{i}\in d_{j} \right \} + 1|}\).
通过以上公式可以知道\(TF-IDF\)越大说明该词在某篇文章中的重要性越大,从而可以用来做分类。
标签:频数,工程,AI,特征,TF,文章,IDF From: https://www.cnblogs.com/bonne-chance/p/16746224.html