返回信息流工具输出一个theta文件 一个phi文件
theta: p(topic|document)
phi: p(word|topic)
现在想求某topic在某word上的后验概率p(topic|word),可不可以用bayes公式直接求得
p(topic|word) = p(word|topic)*p(topic)/p(word)
其中p(topic)、p(word)可通过theta和phi矩阵中的值求和得到
因为Blei在他03年那篇论文中指出,后验概率p(θ,z|w)无法计算出解析表达式,因此需要近似解,原文中使用了基于分解(factorization)假设的变分法(Variational Methods)
(参照hmily821224的导读贴)
如果GibbsLDA++求出的theta、phi矩阵已经是某种算法下的近似解,那么就可以利用bayes公式直接来计算后验概率了。
不知道这种想法是否正确,请指教:)
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #4262同步于 2009/3/6
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
[讨论]有人用过GibbsLDA++么,问个求后验概率的问题
longd4dr
2009/3/6镜像同步6 回复
订阅后,新回复会通过你的通知中心匿名送达。
6 条回复
我觉得用工具求出的,可以利用贝叶斯公式计算,不过。。还是盼大牛解答~
【 在 longd4dr 的大作中提到: 】
: 工具输出一个theta文件 一个phi文件
: theta: p(topic|document)
: phi: p(word|topic)
: ...................
"其中p(topic)、p(word)可通过theta和phi矩阵中的值求和得到"
这个能说说怎么求么?
【 在 longd4dr 的大作中提到: 】
: 工具输出一个theta文件 一个phi文件
: theta: p(topic|document)
: phi: p(word|topic)
: ...................
【 在 hmily821224 的大作中提到: 】
: "其中p(topic)、p(word)可通过theta和phi矩阵中的值求和得到"
: 这个能说说怎么求么?
因为theta: p(topic|document) , 每一列对应一个topic
phi: p(word|topic) ,每一列对应一个word
对于第i个topic ,p(topic_i)=对j累加p(topic_i|document_j)*p(document_j)
其中p(document_j)为文档个数分之一
对于第i个word,p(word_i)=对j累加p(word_i|topic_j)*p(topic_j)
其中p(topic_j)上面已经求出
-----------------------------
谢谢楼上,拜牛人~
不好意思才看见.
我觉得你是对的.先没想明白document的先验怎么算,原来你做了等概的假设.
我不是"职业"做文本的,所以对这些不太熟:)
【 在 longd4dr 的大作中提到: 】
: 因为theta: p(topic|document) , 每一列对应一个topic
: phi: p(word|topic) ,每一列对应一个word
: 对于第i个topic ,p(topic_i)=对j累加p(topic_i|document_j)*p(document_j)
: ...................