返回信息流语料库总共有十类,计算TF-IDF值,去掉权重小的词语。
我在网上找的资料:
TF(t) = (Number of times term t appears in a document) / (Total number of terms in the document).
IDF(t) = log_e(Total number of documents / Number of documents with term t in it).
我的理解是:一个词t的tf是在一个文件中该词t出现的频率,IDF是整个语料库十个类的的全部文档数量比上出现包含这个词的文档数量,再求对数。最后二者相乘作为这个词在这篇文档中的权重。
TF只考虑一个文档,IDF要考虑整个语料库。
这么理解对吗?
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #14729同步于 2014/11/18
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
问一个关于TF-IDF计算的问题
maoxian
2014/11/18镜像同步3 回复
订阅后,新回复会通过你的通知中心匿名送达。
3 条回复