返回信息流最近正在做一个文本分析的项目,需要用到LDA。
目前我用的LDA是sklearn库里面的Latent Dirichlet Allocation,然而运行起来的真是的慢得令人发指啊,
主题数设置为20,迭代500次也要运行3个小时,对于其实需要迭代5000次的项目来说,真不感想象得花多少时间,求做过LDA的同学推荐一下其他库Or 运行得更快的其他办法。
PS:我的Perplexity值不知道为什么随着topics数的增大而增大,按照吴恩达的论文的话topics number perplexity模型应该是两者成反比才对~。
求助大神!
这是一条镜像帖。来源:北邮人论坛 / python / #20952同步于 2018/2/3
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖
【已解决】求推荐LDA(主题模型)哪个库运行速度更快
carmenfung
2018/2/3镜像同步9 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
你用的是自己写的lda还是gensim库还是sklearn库的lda啊?
知乎有一位大神推荐我试试google 的plda+,但是我并没有并行服务器。。不知道能不能用到
【 在 fuxuemingzhu 的大作中提到: 】
: 同。。我之前做数据挖掘大作业的时候也是这样的情况。。时间特别久,而且主题数增大之后时间更久。最后的结果也不咋样。。后来就没继续用LDA
其实是不是并行处理和我是不是单机线程运行没有什么直接联系?
【 在 Blachat 的大作中提到: 】
: gensim也有multicore版本的,可以试一试
用的sklearn
【 在 carmenfung 的大作中提到: 】
: 你用的是自己写的lda还是gensim库还是sklearn库的lda啊?
: 知乎有一位大神推荐我试试google 的plda+,但是我并没有并行服务器。。不知道能不能用到
想问一下,具体哪个参数是调迭代次数的?[ema0]
刚才看了一下官方文档,好像每一篇文章就迭代一次。。。
【 在 Blachat 的大作中提到: 】
: gensim也有multicore版本的,可以试一试
我今天就是用的ParallelGibbsLda,很快~~
【 在 jiayidong 的大作中提到: 】
: 试试这个gibbslda.sourceforge.net