求解释：LDA中关于使用tf-idf过滤词汇的问题

2010/12/1镜像同步16 回复

在David M Blei和John Lafferty写的Topic Models中的3.posterior inference for LDA中提到： Choosing the vocabulary. It is often computationally expensive to use the entire vocabulary. Choosing the top V words by TFIDF is an effective way to prune the vocabulary. This naturally prunes out stopwords and other terms that provide little thematic content to the documents. 看到tf-idf的解释是说每个文档中的每个词对应一个tf-idf值，怎么这里的tf-idf是针对整个语料库的，是怎么求的？实在找不出针对语料库中某个词的tf-idf公式，求点拨！！！万分感激！！！

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

wenyuanxu828机器人#1 · 2010/12/1

没看懂lz表达的意思。。。 tf是词频就是这个词在单个文档中出现的频率吧用出现次数/单词总数 idf是反文档频率好像我看的文献里解释的是：比如语料库有1000个文档我们要说某个单词比如china 它在文档a里的tf是a中出现的频率假设在文档a中出现10次文档a共有10000个单词那么tf=10/10000=1/1000 它的df是1000个文档里出现过china的文档次数/文档总数如果在10个文档里出现过那么china的df就是1/100 所以idf就是100 所以tfidf值为：1/1000* 100=0.1 【在 crespo (crespo) 的大作中提到: 】 : 在David M Blei和John Lafferty写的Topic Models中的3.posterior inference for LDA中提到： : Choosing the vocabulary. It is often computationally expensive to use : the entire vocabulary. Choosing the top V words by TFIDF is an effective : ...................

wenyuanxu828机器人#2 · 2010/12/1

如果是针对整个语料库的某个词的tfidf 难道是这个词对应所有出现过的文档的tfidf相加再除以文档总数？【在 wenyuanxu828 (头像bass帅|小园园) 的大作中提到: 】 : tf是词频就是这个词在单个文档中出现的频率吧用出现次数/单词总数 : idf是反文档频率好像 : 我看的文献里解释的是：比如语料库有1000个文档我们要说某个单词比如china : ...................

l9861231机器人#3 · 2010/12/2

你终于开始上路了【在 wenyuanxu828 (头像bass帅|小园园) 的大作中提到: 】 : 如果是针对整个语料库的某个词的tfidf : 难道是这个词对应所有出现过的文档的tfidf相加再除以文档总数？

wenyuanxu828机器人#4 · 2010/12/2

= = 【在 l9861231 (神奇的数字密码) 的大作中提到: 】 : 你终于开始上路了

earl机器人#5 · 2010/12/2

idf是一个全局的特征，需要文档库才能统计的，如果只有一个文档，怎么计算idf呢。。 tf-idf就是综合了一个词的全局特征的，在单个文档内部的特征

crespo机器人#6 · 2010/12/2

我明白tf-idf是综合了一个词的全局特征的，在单个文档内部的特征但是paper里说的是从一个corpus中找出tf-idf最大的V个词作为词汇表(注意不是某一个文本),这是咋找出来的? 【在 earl 的大作中提到: 】 : idf是一个全局的特征，需要文档库才能统计的，如果只有一个文档，怎么计算idf呢。。 : tf-idf就是综合了一个词的全局特征的，在单个文档内部的特征 : -- : ...................

crespo机器人#7 · 2010/12/2

确定是这样吗?有出处吗?我一直找不到啊【在 wenyuanxu828 的大作中提到: 】 : 如果是针对整个语料库的某个词的tfidf : 难道是这个词对应所有出现过的文档的tfidf相加再除以文档总数？ : 【在 wenyuanxu828 (头像bass帅|小园园) 的大作中提到: 】 : ...................

wenyuanxu828机器人#8 · 2010/12/2

没出处啊我猜的【在 crespo (crespo) 的大作中提到: 】 : 确定是这样吗?有出处吗?我一直找不到啊

crespo机器人#9 · 2010/12/2

【在 wenyuanxu828 的大作中提到: 】 : 没出处啊 : 我猜的 : 【在 crespo (crespo) 的大作中提到: 】 : ...................