返回信息流最近在弄句子文档的相似度计算,完全小白一只,英文论文看着就头大。。。
说正题吧。。。
1、one hot reprsention模式的 BOW + if-idf + LSI模型,用着看起来效果还不错,但是总感觉没有考虑到词语的相关性,相似性,还有语法的关系 。感觉没有word2vec那么强大。
2、word-embedding :用word2vec得到词向量,然后加权计算得到文档向量。感觉WMD应该也差不多是这个概念。WMD是词移距离(来自论文From Word Embeddings To Document Distances, Kusner, Washington University)。。。这个就比第一个高大上多了,考虑到了语义、语法上的特征。然后我试了一下doc2vec,效果真是一点都不稳定,和第一个方法比起来差的好远啊。我感觉应该是我做的这个东西没有一个很好很大的预料库训练吧,也有可能我用的方式不太对???[ema1]调了参数效果也不好。
[ema1][ema1][ema1]
这是一条镜像帖。来源:北邮人论坛 / python / #17650同步于 2017/3/28
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖
有没有同学在做文本分析方面的,来交流下啊
huangrs
2017/3/28镜像同步36 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
W2v d2v 都需要大量数据train的 不知道你有多少word 多少 token.
parafraph2v 可以参考mikolov 14年一篇paper, 对任意长文本embedding。 不过我觉得这篇有点不靠谱。
或者你试试Manning他们的glove 另一种w2v方法
谢谢大神~~我确实是没有大量的train数据。。。。我去看看glove,据说是LSI和w2v这种的折中。parafraph2v我也看看,之前瞅到了,没咋看
【 在 wy3434000 的大作中提到: 】
: W2v d2v 都需要大量数据train的 不知道你有多少word 多少 token.
: parafraph2v 可以参考mikolov 14年一篇paper, 对任意长文本embedding。 不过我觉得这篇有点不靠谱。
: 或者你试试Manning他们的glove 另一种w2v方法
是啊,我也感觉是。。。主要是我没有训练数据,所以比较纠结了。。。
【 在 DerekHu 的大作中提到: 】
: 感觉bow的话看做什么...个人觉得像短文本情感分类这种对词之间的关系不是很看重的话,bow效果也还不错...
: 发自「贵邮」