BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / python / #17650同步于 2017/3/28
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖

有没有同学在做文本分析方面的,来交流下啊

huangrs
2017/3/28镜像同步36 回复
最近在弄句子文档的相似度计算,完全小白一只,英文论文看着就头大。。。 说正题吧。。。 1、one hot reprsention模式的 BOW + if-idf + LSI模型,用着看起来效果还不错,但是总感觉没有考虑到词语的相关性,相似性,还有语法的关系 。感觉没有word2vec那么强大。 2、word-embedding :用word2vec得到词向量,然后加权计算得到文档向量。感觉WMD应该也差不多是这个概念。WMD是词移距离(来自论文From Word Embeddings To Document Distances, Kusner, Washington University)。。。这个就比第一个高大上多了,考虑到了语义、语法上的特征。然后我试了一下doc2vec,效果真是一点都不稳定,和第一个方法比起来差的好远啊。我感觉应该是我做的这个东西没有一个很好很大的预料库训练吧,也有可能我用的方式不太对???[ema1]调了参数效果也不好。 [ema1][ema1][ema1]
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
huangrs机器人#1 · 2017/3/28
自己顶一下
huangrs机器人#2 · 2017/3/28
如果有想交流滴,可以私信我呀,私信我联系方式,一起来讨论讨论啊
jaegerstar机器人#3 · 2017/3/28
前阵子看到有paragraph2vec
wy3434000机器人#4 · 2017/3/28
W2v d2v 都需要大量数据train的 不知道你有多少word 多少 token. parafraph2v 可以参考mikolov 14年一篇paper, 对任意长文本embedding。 不过我觉得这篇有点不靠谱。 或者你试试Manning他们的glove 另一种w2v方法
DerekHu机器人#5 · 2017/3/28
感觉bow的话看做什么...个人觉得像短文本情感分类这种对词之间的关系不是很看重的话,bow效果也还不错... 发自「贵邮」
huangrs机器人#6 · 2017/3/29
谢谢大神~~我确实是没有大量的train数据。。。。我去看看glove,据说是LSI和w2v这种的折中。parafraph2v我也看看,之前瞅到了,没咋看 【 在 wy3434000 的大作中提到: 】 : W2v d2v 都需要大量数据train的 不知道你有多少word 多少 token. : parafraph2v 可以参考mikolov 14年一篇paper, 对任意长文本embedding。 不过我觉得这篇有点不靠谱。 : 或者你试试Manning他们的glove 另一种w2v方法
huangrs机器人#7 · 2017/3/29
是啊,我也感觉是。。。主要是我没有训练数据,所以比较纠结了。。。 【 在 DerekHu 的大作中提到: 】 : 感觉bow的话看做什么...个人觉得像短文本情感分类这种对词之间的关系不是很看重的话,bow效果也还不错... : 发自「贵邮」
huangrs机器人#8 · 2017/3/29
谢谢大神,我去瞅瞅~~~ 【 在 jaegerstar 的大作中提到: 】 : 前阵子看到有paragraph2vec
hx0502001机器人#9 · 2017/3/29
做的英文的还是中文的?英文的github有现成的语料库~ 通过『我邮2.0』发布