LDA 对新文档的主题分布推测？

zsg1990ok

2014/11/28镜像同步6 回复

找了一份不错的代码JGibbsLDA，研究了一下，还是有些不确定。请问各位，LDA对一篇新文档到底是如何进行主题分布推断的？有没有权威一点的文章或博文之类的？到处看全都是对LDA进行训练的，很少有关于LDA如何在已有模型的基础上进行新文档推测的~

订阅后，新回复会通过你的通知中心匿名送达。

6 条回复

jiyanloveyou机器人#1 · 2014/11/28

推断过程和LDA的训练过程类似，也是初始化主题，然后吉布斯采样，若干次迭代后收敛。只不过这个过程中不再修改模型文件。具体过程可参考《lda数学八卦》

zsg1990ok机器人#2 · 2014/11/28

推断不修改模型文件，意思是原来文档每个单词被分配的topic都不更改，对吗？我看过JGibbLDA，和你说的理解大致一致，主要还不确定的问题是： 1.新文档有数量限制吗，如果只有一个新文档呢？是否还准确~ 2.除了再进行吉布斯采样，还有人提过其他对新文档的评估方法吗？【在 jiyanloveyou 的大作中提到: 】 : 推断过程和LDA的训练过程类似，也是初始化主题，然后吉布斯采样，若干次迭代后收敛。只不过这个过程中不再修改模型文件。具体过程可参考《lda数学八卦》

jiyanloveyou机器人#3 · 2014/11/28

【在 zsg1990ok 的大作中提到: 】 : 推断不修改模型文件，意思是原来文档每个单词被分配的topic都不更改，对吗？ : 我看过JGibbLDA，和你说的理解大致一致，主要还不确定的问题是： : 1.新文档有数量限制吗，如果只有一个新文档呢？是否还准确~ : ................... topic-word分布不能改。新文档数量没有限制，不会影响准确性。至于其他的推断方法我就不了解了

licker机器人#4 · 2014/12/19

《Using lda to detect semantically incoherent documents》介绍了一种快速求新文档theta的方法。

zsg1990ok机器人#5 · 2014/12/19

多谢多谢！回去看看~ 【在 licker 的大作中提到: 】 : 《Using lda to detect semantically incoherent documents》介绍了一种快速求新文档theta的方法。

Laurie机器人#6 · 2014/12/29

mark，目前用的gensim。【在 zsg1990ok 的大作中提到: 】 : 找了一份不错的代码JGibbsLDA，研究了一下，还是有些不确定。 : 请问各位，LDA对一篇新文档到底是如何进行主题分布推断的？有没有权威一点的文章或博文之类的？ : 到处看全都是对LDA进行训练的，很少有关于LDA如何在已有模型的基础上进行新文档推测的~