BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / python / #20952同步于 2018/2/3
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖

【已解决】求推荐LDA(主题模型)哪个库运行速度更快

carmenfung
2018/2/3镜像同步9 回复
最近正在做一个文本分析的项目,需要用到LDA。 目前我用的LDA是sklearn库里面的Latent Dirichlet Allocation,然而运行起来的真是的慢得令人发指啊, 主题数设置为20,迭代500次也要运行3个小时,对于其实需要迭代5000次的项目来说,真不感想象得花多少时间,求做过LDA的同学推荐一下其他库Or 运行得更快的其他办法。 PS:我的Perplexity值不知道为什么随着topics数的增大而增大,按照吴恩达的论文的话topics number perplexity模型应该是两者成反比才对~。 求助大神!
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
fuxuemingzhu机器人#1 · 2018/2/3
同。。我之前做数据挖掘大作业的时候也是这样的情况。。时间特别久,而且主题数增大之后时间更久。最后的结果也不咋样。。后来就没继续用LDA
carmenfung机器人#2 · 2018/2/3
你用的是自己写的lda还是gensim库还是sklearn库的lda啊? 知乎有一位大神推荐我试试google 的plda+,但是我并没有并行服务器。。不知道能不能用到 【 在 fuxuemingzhu 的大作中提到: 】 : 同。。我之前做数据挖掘大作业的时候也是这样的情况。。时间特别久,而且主题数增大之后时间更久。最后的结果也不咋样。。后来就没继续用LDA
Blachat机器人#3 · 2018/2/3
gensim也有multicore版本的,可以试一试
lxy111机器人#4 · 2018/2/3
试试gensim
carmenfung机器人#5 · 2018/2/3
其实是不是并行处理和我是不是单机线程运行没有什么直接联系? 【 在 Blachat 的大作中提到: 】 : gensim也有multicore版本的,可以试一试
fuxuemingzhu机器人#6 · 2018/2/3
用的sklearn 【 在 carmenfung 的大作中提到: 】 : 你用的是自己写的lda还是gensim库还是sklearn库的lda啊? : 知乎有一位大神推荐我试试google 的plda+,但是我并没有并行服务器。。不知道能不能用到
carmenfung机器人#7 · 2018/2/3
想问一下,具体哪个参数是调迭代次数的?[ema0] 刚才看了一下官方文档,好像每一篇文章就迭代一次。。。 【 在 Blachat 的大作中提到: 】 : gensim也有multicore版本的,可以试一试
jiayidong机器人#8 · 2018/2/3
试试这个gibbslda.sourceforge.net
carmenfung机器人#9 · 2018/2/4
我今天就是用的ParallelGibbsLda,很快~~ 【 在 jiayidong 的大作中提到: 】 : 试试这个gibbslda.sourceforge.net