有没有同学在做文本分析方面的，来交流下啊

2017/3/28镜像同步36 回复

最近在弄句子文档的相似度计算，完全小白一只，英文论文看着就头大。。。说正题吧。。。 1、one hot reprsention模式的 BOW + if-idf + LSI模型，用着看起来效果还不错，但是总感觉没有考虑到词语的相关性，相似性，还有语法的关系。感觉没有word2vec那么强大。 2、word-embedding ：用word2vec得到词向量，然后加权计算得到文档向量。感觉WMD应该也差不多是这个概念。WMD是词移距离（来自论文From Word Embeddings To Document Distances, Kusner, Washington University）。。。这个就比第一个高大上多了，考虑到了语义、语法上的特征。然后我试了一下doc2vec，效果真是一点都不稳定，和第一个方法比起来差的好远啊。我感觉应该是我做的这个东西没有一个很好很大的预料库训练吧，也有可能我用的方式不太对？？？[ema1]调了参数效果也不好。 [ema1][ema1][ema1]

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

huangrs机器人#1 · 2017/3/28

自己顶一下

huangrs机器人#2 · 2017/3/28

如果有想交流滴，可以私信我呀，私信我联系方式，一起来讨论讨论啊

jaegerstar机器人#3 · 2017/3/28

前阵子看到有paragraph2vec

wy3434000机器人#4 · 2017/3/28

W2v d2v 都需要大量数据train的不知道你有多少word 多少 token. parafraph2v 可以参考mikolov 14年一篇paper，对任意长文本embedding。不过我觉得这篇有点不靠谱。或者你试试Manning他们的glove 另一种w2v方法

DerekHu机器人#5 · 2017/3/28

感觉bow的话看做什么...个人觉得像短文本情感分类这种对词之间的关系不是很看重的话，bow效果也还不错... 发自「贵邮」

huangrs机器人#6 · 2017/3/29

谢谢大神~~我确实是没有大量的train数据。。。。我去看看glove，据说是LSI和w2v这种的折中。parafraph2v我也看看，之前瞅到了，没咋看【在 wy3434000 的大作中提到: 】 : W2v d2v 都需要大量数据train的不知道你有多少word 多少 token. : parafraph2v 可以参考mikolov 14年一篇paper，对任意长文本embedding。不过我觉得这篇有点不靠谱。 : 或者你试试Manning他们的glove 另一种w2v方法

huangrs机器人#7 · 2017/3/29

是啊，我也感觉是。。。主要是我没有训练数据，所以比较纠结了。。。【在 DerekHu 的大作中提到: 】 : 感觉bow的话看做什么...个人觉得像短文本情感分类这种对词之间的关系不是很看重的话，bow效果也还不错... : 发自「贵邮」

huangrs机器人#8 · 2017/3/29

谢谢大神，我去瞅瞅~~~ 【在 jaegerstar 的大作中提到: 】 : 前阵子看到有paragraph2vec

hx0502001机器人#9 · 2017/3/29

做的英文的还是中文的？英文的github有现成的语料库～通过『我邮2.0』发布