BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #7570同步于 2010/12/1
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

求解释:LDA中关于使用tf-idf过滤词汇的问题

crespo
2010/12/1镜像同步16 回复
在David M Blei和John Lafferty写的Topic Models中的3.posterior inference for LDA中提到: Choosing the vocabulary. It is often computationally expensive to use the entire vocabulary. Choosing the top V words by TFIDF is an effective way to prune the vocabulary. This naturally prunes out stopwords and other terms that provide little thematic content to the documents. 看到tf-idf的解释是说每个文档中的每个词对应一个tf-idf值,怎么这里的tf-idf是针对整个语料库的,是怎么求的? 实在找不出针对语料库中某个词的tf-idf公式,求点拨!!! 万分感激!!!
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
wenyuanxu828机器人#1 · 2010/12/1
没看懂lz表达的意思。。。 tf是词频 就是这个词在单个文档中出现的频率吧 用出现次数/单词总数 idf是反文档频率好像 我看的文献里解释的是:比如语料库有1000个文档 我们要说某个单词 比如china 它在文档a里的tf是a中出现的频率 假设在文档a中出现10次 文档a共有10000个单词 那么tf=10/10000=1/1000 它的df是1000个文档里出现过china的文档次数/文档总数 如果在10个文档里出现过 那么china的df就是1/100 所以idf就是100 所以tfidf值为:1/1000* 100=0.1 【 在 crespo (crespo) 的大作中提到: 】 : 在David M Blei和John Lafferty写的Topic Models中的3.posterior inference for LDA中提到: : Choosing the vocabulary. It is often computationally expensive to use : the entire vocabulary. Choosing the top V words by TFIDF is an effective : ...................
wenyuanxu828机器人#2 · 2010/12/1
如果是针对整个语料库的某个词的tfidf 难道是这个词对应所有出现过的文档的tfidf相加再除以文档总数? 【 在 wenyuanxu828 (头像bass帅|小园园) 的大作中提到: 】 : tf是词频 就是这个词在单个文档中出现的频率吧 用出现次数/单词总数 : idf是反文档频率好像 : 我看的文献里解释的是:比如语料库有1000个文档 我们要说某个单词 比如china : ...................
l9861231机器人#3 · 2010/12/2
你终于开始上路了 【 在 wenyuanxu828 (头像bass帅|小园园) 的大作中提到: 】 : 如果是针对整个语料库的某个词的tfidf : 难道是这个词对应所有出现过的文档的tfidf相加再除以文档总数?
wenyuanxu828机器人#4 · 2010/12/2
= = 【 在 l9861231 (神奇的数字密码) 的大作中提到: 】 : 你终于开始上路了
earl机器人#5 · 2010/12/2
idf是一个全局的特征,需要文档库才能统计的,如果只有一个文档,怎么计算idf呢。。 tf-idf就是综合了一个词的全局特征的,在单个文档内部的特征
crespo机器人#6 · 2010/12/2
我明白tf-idf是综合了一个词的全局特征的,在单个文档内部的特征 但是paper里说的是从一个corpus中找出tf-idf最大的V个词作为词汇表(注意不是某一个文本),这是咋找出来的? 【 在 earl 的大作中提到: 】 : idf是一个全局的特征,需要文档库才能统计的,如果只有一个文档,怎么计算idf呢。。 : tf-idf就是综合了一个词的全局特征的,在单个文档内部的特征 : -- : ...................
crespo机器人#7 · 2010/12/2
确定是这样吗?有出处吗?我一直找不到啊 【 在 wenyuanxu828 的大作中提到: 】 : 如果是针对整个语料库的某个词的tfidf : 难道是这个词对应所有出现过的文档的tfidf相加再除以文档总数? : 【 在 wenyuanxu828 (头像bass帅|小园园) 的大作中提到: 】 : ...................
wenyuanxu828机器人#8 · 2010/12/2
没出处啊 我猜的 【 在 crespo (crespo) 的大作中提到: 】 : 确定是这样吗?有出处吗?我一直找不到啊
crespo机器人#9 · 2010/12/2
【 在 wenyuanxu828 的大作中提到: 】 : 没出处啊 : 我猜的 : 【 在 crespo (crespo) 的大作中提到: 】 : ...................