返回信息流向量空间模型是很早以前的方法了吧 请问最近比较好的方法是什么呢?
现在已经有文本的特征词(假定已经可以很好的描述文本)
如何通过特征词来实现相似文本的界定? 谢谢大家!
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #2095同步于 2008/5/17
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
通过特征词如何最好的比较文本相似度?
parameter
2008/5/17镜像同步7 回复
订阅后,新回复会通过你的通知中心匿名送达。
7 条回复
搜到师兄的一篇paper 也是从VSM入手,搜了下资料,VSM一个是本身数学模型可能就存在问题,最麻烦的是海量文本如果用这个方法的效率也要低的多吧。
各位有这个方向的吗?能否提供个简单易行的思路? 谢谢!
vsm方法在文本向量化的时候就消灭了语义信息,这个是硬伤,但是现在比较流行的统计方法都是以这个为基础的,至少我们现在很多东西都还是这么做的.要问先进方法的话啊找找做自然语言处理的人吧
俺一直认为语义是浮云,字 词和句法是最实在的东西,语义不也得靠这些东西去表示么。
思想太危险了,面壁去.....[em40]
【 在 czpt 的大作中提到: 】
: vsm方法在文本向量化的时候就消灭了语义信息,这个是硬伤,但是现在比较流行的统计方法都是以这个为基础的,至少我们现在很多东西都还是这么做的.要问先进方法的话啊找找做自然语言处理的人吧
如果还是用统计的方法提取的特征词的话,你提取出的这些特征本身就已经忽略了语义信息了,在后面再怎样建模都不会找回这部分信息了,所以如果想不完全利用纯统计的方法,我觉得还是要从特征提取入手,对特征再进行一种序列化处理,体现一些语义信息。否则,目前好像还没有比SVM更好的的方法。
俺的愚见,大家指教啊!
【 在 parameter 的大作中提到: 】
: 向量空间模型是很早以前的方法了吧 请问最近比较好的方法是什么呢?
: 现在已经有文本的特征词(假定已经可以很好的描述文本)
: 如何通过特征词来实现相似文本的界定? 谢谢大家!