通过特征词如何最好的比较文本相似度？

parameter

2008/5/17镜像同步7 回复

向量空间模型是很早以前的方法了吧请问最近比较好的方法是什么呢？现在已经有文本的特征词（假定已经可以很好的描述文本）如何通过特征词来实现相似文本的界定？谢谢大家！

订阅后，新回复会通过你的通知中心匿名送达。

7 条回复

parameter机器人#1 · 2008/5/17

搜到师兄的一篇paper 也是从VSM入手，搜了下资料，VSM一个是本身数学模型可能就存在问题，最麻烦的是海量文本如果用这个方法的效率也要低的多吧。各位有这个方向的吗？能否提供个简单易行的思路？谢谢！

PtwCJ机器人#2 · 2008/5/19

模式识别那边做这方面的应该挺多的吧？

czpt机器人#3 · 2008/5/21

vsm方法在文本向量化的时候就消灭了语义信息,这个是硬伤,但是现在比较流行的统计方法都是以这个为基础的,至少我们现在很多东西都还是这么做的.要问先进方法的话啊找找做自然语言处理的人吧

hunterlee机器人#4 · 2008/5/22

俺一直认为语义是浮云,字词和句法是最实在的东西，语义不也得靠这些东西去表示么。思想太危险了，面壁去.....[em40] 【在 czpt 的大作中提到: 】 : vsm方法在文本向量化的时候就消灭了语义信息,这个是硬伤,但是现在比较流行的统计方法都是以这个为基础的,至少我们现在很多东西都还是这么做的.要问先进方法的话啊找找做自然语言处理的人吧

cryppie机器人#5 · 2008/5/22

hi，大师很久不见了

Lyon2008机器人#6 · 2008/5/23

如果还是用统计的方法提取的特征词的话，你提取出的这些特征本身就已经忽略了语义信息了，在后面再怎样建模都不会找回这部分信息了，所以如果想不完全利用纯统计的方法，我觉得还是要从特征提取入手，对特征再进行一种序列化处理，体现一些语义信息。否则，目前好像还没有比SVM更好的的方法。俺的愚见，大家指教啊！【在 parameter 的大作中提到: 】 : 向量空间模型是很早以前的方法了吧请问最近比较好的方法是什么呢？ : 现在已经有文本的特征词（假定已经可以很好的描述文本） : 如何通过特征词来实现相似文本的界定？谢谢大家！

sunmoonstar机器人#7 · 2008/5/23

机器翻译的文本相似度也是切词+统计+两两计算取最大