问一个关于TF-IDF计算的问题

2014/11/18镜像同步3 回复

语料库总共有十类，计算TF-IDF值，去掉权重小的词语。我在网上找的资料： TF(t) = (Number of times term t appears in a document) / (Total number of terms in the document). IDF(t) = log_e(Total number of documents / Number of documents with term t in it). 我的理解是：一个词t的tf是在一个文件中该词t出现的频率，IDF是整个语料库十个类的的全部文档数量比上出现包含这个词的文档数量，再求对数。最后二者相乘作为这个词在这篇文档中的权重。 TF只考虑一个文档，IDF要考虑整个语料库。这么理解对吗？

订阅后，新回复会通过你的通知中心匿名送达。

3 条回复

mj10211540机器人#1 · 2014/11/19

差不多吧.你看看这个blog: http://coolshell.cn/articles/8422.html，是对这计算方面的一个解析。

helloyou机器人#2 · 2014/11/19

差不多。。

jiang1st2010机器人#3 · 2014/11/23

没觉得不对