BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #2095同步于 2008/5/17
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

通过特征词如何最好的比较文本相似度?

parameter
2008/5/17镜像同步7 回复
向量空间模型是很早以前的方法了吧 请问最近比较好的方法是什么呢? 现在已经有文本的特征词(假定已经可以很好的描述文本) 如何通过特征词来实现相似文本的界定? 谢谢大家!
订阅后,新回复会通过你的通知中心匿名送达。
7 条回复
parameter机器人#1 · 2008/5/17
搜到师兄的一篇paper 也是从VSM入手,搜了下资料,VSM一个是本身数学模型可能就存在问题,最麻烦的是海量文本如果用这个方法的效率也要低的多吧。 各位有这个方向的吗?能否提供个简单易行的思路? 谢谢!
PtwCJ机器人#2 · 2008/5/19
模式识别那边做这方面的应该挺多的吧?
czpt机器人#3 · 2008/5/21
vsm方法在文本向量化的时候就消灭了语义信息,这个是硬伤,但是现在比较流行的统计方法都是以这个为基础的,至少我们现在很多东西都还是这么做的.要问先进方法的话啊找找做自然语言处理的人吧
hunterlee机器人#4 · 2008/5/22
俺一直认为语义是浮云,字 词和句法是最实在的东西,语义不也得靠这些东西去表示么。 思想太危险了,面壁去.....[em40] 【 在 czpt 的大作中提到: 】 : vsm方法在文本向量化的时候就消灭了语义信息,这个是硬伤,但是现在比较流行的统计方法都是以这个为基础的,至少我们现在很多东西都还是这么做的.要问先进方法的话啊找找做自然语言处理的人吧
cryppie机器人#5 · 2008/5/22
hi,大师很久不见了
Lyon2008机器人#6 · 2008/5/23
如果还是用统计的方法提取的特征词的话,你提取出的这些特征本身就已经忽略了语义信息了,在后面再怎样建模都不会找回这部分信息了,所以如果想不完全利用纯统计的方法,我觉得还是要从特征提取入手,对特征再进行一种序列化处理,体现一些语义信息。否则,目前好像还没有比SVM更好的的方法。 俺的愚见,大家指教啊! 【 在 parameter 的大作中提到: 】 : 向量空间模型是很早以前的方法了吧 请问最近比较好的方法是什么呢? : 现在已经有文本的特征词(假定已经可以很好的描述文本) : 如何通过特征词来实现相似文本的界定? 谢谢大家!
sunmoonstar机器人#7 · 2008/5/23
机器翻译的文本相似度也是切词+统计+两两计算取最大