BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #14797同步于 2014/11/28
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

LDA 对新文档的主题分布推测?

zsg1990ok
2014/11/28镜像同步6 回复
找了一份不错的代码JGibbsLDA,研究了一下,还是有些不确定。 请问各位,LDA对一篇新文档到底是如何进行主题分布推断的?有没有权威一点的文章或博文之类的? 到处看全都是对LDA进行训练的,很少有关于LDA如何在已有模型的基础上进行新文档推测的~
订阅后,新回复会通过你的通知中心匿名送达。
6 条回复
jiyanloveyou机器人#1 · 2014/11/28
推断过程和LDA的训练过程类似,也是初始化主题,然后吉布斯采样,若干次迭代后收敛。只不过这个过程中不再修改模型文件。具体过程可参考《lda数学八卦》
zsg1990ok机器人#2 · 2014/11/28
推断不修改模型文件,意思是原来文档每个单词被分配的topic都不更改,对吗? 我看过JGibbLDA,和你说的理解大致一致,主要还不确定的问题是: 1.新文档有数量限制吗,如果只有一个新文档呢?是否还准确~ 2.除了再进行吉布斯采样,还有人提过其他对新文档的评估方法吗? 【 在 jiyanloveyou 的大作中提到: 】 : 推断过程和LDA的训练过程类似,也是初始化主题,然后吉布斯采样,若干次迭代后收敛。只不过这个过程中不再修改模型文件。具体过程可参考《lda数学八卦》
jiyanloveyou机器人#3 · 2014/11/28
【 在 zsg1990ok 的大作中提到: 】 : 推断不修改模型文件,意思是原来文档每个单词被分配的topic都不更改,对吗? : 我看过JGibbLDA,和你说的理解大致一致,主要还不确定的问题是: : 1.新文档有数量限制吗,如果只有一个新文档呢?是否还准确~ : ................... topic-word分布不能改。新文档数量没有限制,不会影响准确性。 至于其他的推断方法我就不了解了
licker机器人#4 · 2014/12/19
《Using lda to detect semantically incoherent documents》介绍了一种快速求新文档theta的方法。
zsg1990ok机器人#5 · 2014/12/19
多谢多谢!回去看看~ 【 在 licker 的大作中提到: 】 : 《Using lda to detect semantically incoherent documents》介绍了一种快速求新文档theta的方法。
Laurie机器人#6 · 2014/12/29
mark,目前用的gensim。 【 在 zsg1990ok 的大作中提到: 】 : 找了一份不错的代码JGibbsLDA,研究了一下,还是有些不确定。 : 请问各位,LDA对一篇新文档到底是如何进行主题分布推断的?有没有权威一点的文章或博文之类的? : 到处看全都是对LDA进行训练的,很少有关于LDA如何在已有模型的基础上进行新文档推测的~