概述
百度(看不懂版本):
TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。
TF-IDF(记住计算方式):
TF-IDF分为TF和IDF,计算方法为TF*IDF,其中,TF为词频(Term Frequency),IDF为逆向文件频率(Inverse Document Frequency)。
t f i d f ( w ) = t f ( d , w ) ∗ i d f ( w ) tfidf(w)=tf(d,w)*idf(w) tfidf(w)=tf(d,w)∗idf(w)
TF(理解如何计算):
t f ( d , w ) = t f ( 当前文档 , 目标词语 ) tf(d,w)=tf({\text{当前文档}}, {\text{目标词语}}) tf(d,w)=tf(当前文档,目标词语)
其中,d为当前文档,w为目标词语
含义为,当前文档中目标词语的出现频率
IDF(理解如何计算):
i d f ( w ) = l o g N N ( w ) + 1 = l o g 总文档数 包含词语w的文档数量 + 1 idf(w)=log\frac N{N(w)+1}=log\frac {\text{总文档数}}{{\text{包含词语w的文档数量}}+1} idf(w)=logN(w)+1N=log包含词语w的文档数量+1总文档数
其中,N为语料中的文档总数,N(w)为词语w出现在多少个文档中
含义为,总文档数量 / (包含词语的文档数量 + 1)。当多有文档总都没有出现词语w时,此时 N ( w ) N(w) N(w)便会为0,所以加一来保证分母不为零
例:
进行对比试验,假设语料中有1000篇文章,出现蛋黄派的总文章数N为50,出现巧克力的总文章数为20,出现我的总文章数为900
id | 文章 | 词语 | 出现次数 | TF | IDF | TF-IDF |
---|---|---|---|---|---|---|
1 | 文章A(100词) | 蛋黄派 | 10 | 10 / 100 = 0.1 | log(1000 / (50 + 1)) = 1.29 | 0.1 * 1.29 = 0.129 |
2 | 文章A(100词) | 巧克力 | 20 | 20 / 100 = 0.2 | log(1000 / (20 + 1)) = 1.68 | 0.2 * 1.68 = 0.336 |
3 | 文章A(100词) | 我 | 20 | 20 / 100 = 0.2 | log(1000 / (900 + 1)) = 0.045 | 0.2 * 0.045 = 0.0225 |
4 | 文章B(200词) | 蛋黄派 | 10 | 10 / 200 = 0.05 | log(1000 / (50 + 1)) = 1.29 | 0.05 * 1.29 = 0.0645 |
5 | 文章B(200词) | 巧克力 | 20 | 20 / 200 = 0.1 | log(1000 / (20 + 1)) = 1.68 | 0.1 * 1.68 = 0.168 |
6 | 文章C(5000词) | 蛋黄派 | 10 | 10 / 5000 = 0.002 | log(1000 / (50 + 1)) = 1.29 | 0.002 * 1.29 = 0.00258 |
7 | 文章C(5000词) | 巧克力 | 20 | 20 / 5000 = 0.004 | log(1000 / (20 + 1)) = 1.68 | 0.004 * 1.68 = 0.0672 |
总结
TF的含义是目标词语在某篇文章出现的频率,IDF是所有出现过这个词语的文章数。
假设只有TF(出现频率),按照TF的大小来进行文章的排序,与TF-IDF计算出来的文章,一定是相同的,TF-IDF = TF * IDF,IDF就像是一个加权值,对TF进行一个加权。 对于id=1,3,5的数据来说,IDF是相同的,不同的是TF,所以,对于某个词语,按照TF和TF-IDF进行排序,结果相同。
那为什么要加IDF,这是为了针对不同的单词来进行比较,对于id=2,3的数据来说,巧克力
和我
的TF相同,IDF不同,巧克力
的IDF得分为1.68,我
的IDF得分为0.045,巧克力
的影响力更大,我
的影响力相对巧克力
很小。因为我
出现的次数达到了900/1000,所以我
的IDF得分很低,即使出现的频率很高,也并不会有很高的得分。
所以,综上,如果对于相同的词语来说,使用TF就可以,可以完全不需要IDF,但是对比某篇文章里面的单词的影响力,就要使用TF-IDF来进行评分比较了。
参考:
https://zhuanlan.zhihu.com/p/198191847