返回信息流在David M Blei和John Lafferty写的Topic Models中的3.posterior inference for LDA中提到:
Choosing the vocabulary. It is often computationally expensive to use
the entire vocabulary. Choosing the top V words by TFIDF is an effective
way to prune the vocabulary. This naturally prunes out stopwords and other
terms that provide little thematic content to the documents.
看到tf-idf的解释是说每个文档中的每个词对应一个tf-idf值,怎么这里的tf-idf是针对整个语料库的,是怎么求的?
实在找不出针对语料库中某个词的tf-idf公式,求点拨!!!
万分感激!!!
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #7570同步于 2010/12/1
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
求解释:LDA中关于使用tf-idf过滤词汇的问题
crespo
2010/12/1镜像同步16 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
没看懂lz表达的意思。。。
tf是词频 就是这个词在单个文档中出现的频率吧 用出现次数/单词总数
idf是反文档频率好像
我看的文献里解释的是:比如语料库有1000个文档 我们要说某个单词 比如china
它在文档a里的tf是a中出现的频率 假设在文档a中出现10次 文档a共有10000个单词
那么tf=10/10000=1/1000
它的df是1000个文档里出现过china的文档次数/文档总数 如果在10个文档里出现过
那么china的df就是1/100 所以idf就是100
所以tfidf值为:1/1000* 100=0.1
【 在 crespo (crespo) 的大作中提到: 】
: 在David M Blei和John Lafferty写的Topic Models中的3.posterior inference for LDA中提到:
: Choosing the vocabulary. It is often computationally expensive to use
: the entire vocabulary. Choosing the top V words by TFIDF is an effective
: ...................
如果是针对整个语料库的某个词的tfidf
难道是这个词对应所有出现过的文档的tfidf相加再除以文档总数?
【 在 wenyuanxu828 (头像bass帅|小园园) 的大作中提到: 】
: tf是词频 就是这个词在单个文档中出现的频率吧 用出现次数/单词总数
: idf是反文档频率好像
: 我看的文献里解释的是:比如语料库有1000个文档 我们要说某个单词 比如china
: ...................
你终于开始上路了
【 在 wenyuanxu828 (头像bass帅|小园园) 的大作中提到: 】
: 如果是针对整个语料库的某个词的tfidf
: 难道是这个词对应所有出现过的文档的tfidf相加再除以文档总数?
我明白tf-idf是综合了一个词的全局特征的,在单个文档内部的特征
但是paper里说的是从一个corpus中找出tf-idf最大的V个词作为词汇表(注意不是某一个文本),这是咋找出来的?
【 在 earl 的大作中提到: 】
: idf是一个全局的特征,需要文档库才能统计的,如果只有一个文档,怎么计算idf呢。。
: tf-idf就是综合了一个词的全局特征的,在单个文档内部的特征
: --
: ...................
确定是这样吗?有出处吗?我一直找不到啊
【 在 wenyuanxu828 的大作中提到: 】
: 如果是针对整个语料库的某个词的tfidf
: 难道是这个词对应所有出现过的文档的tfidf相加再除以文档总数?
: 【 在 wenyuanxu828 (头像bass帅|小园园) 的大作中提到: 】
: ...................
【 在 wenyuanxu828 的大作中提到: 】
: 没出处啊
: 我猜的
: 【 在 crespo (crespo) 的大作中提到: 】
: ...................