返回信息流视觉object recognition借用了文本中bag of words的方法 想弄清楚为什么忽略了空间信息能得到这么好的结果
想听听做文本的用bag of words的体会 忽略了词语之间顺序关系能保留多少信息呢?
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #2792同步于 2008/7/31
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
有谁做bag of words吗?
zixu1986
2008/7/31镜像同步10 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
NLP中的语言模型例如n-gram是考虑词语间顺序的,是NLP中的生成模型,bag of words则更像是判决模型。也有很多人试图将顺序这个特性加到VSM模型中,但是似乎这些方法的性能都没有质上的飞跃。
至于原因,我个人认为语言中的意义可能更多的是包含在words中而不是在顺序中,例如“今天我吃了饭”和“吃了饭我今天”其实并没有太大的区别,也许后面这句话并不符合语法,但你我都听得懂是什么意思。
也许世界的本质更多的是组合而不是排序:)
【 在 zixu1986 的大作中提到: 】
: 视觉object recognition借用了文本中bag of words的方法 想弄清楚为什么忽略了空间信息能得到这么好的结果
: 想听听做文本的用bag of words的体会 忽略了词语之间顺序关系能保留多少信息呢?
很有意思:)
你举的例子只有两个概念(今天,吃饭),pair-wise的对称关系很容易推出;如果推广到n个概念,这个空间关系是不是没这么明显了呢?
just discussion
【 在 hunterlee 的大作中提到: 】
: NLP中的语言模型例如n-gram是考虑词语间顺序的,是NLP中的生成模型,bag of words则更像是判决模型。也有很多人试图将顺序这个特性加到VSM模型中,但是似乎这些方法的性能都没有质上的飞跃。
: 至于原因,我个人认为语言中的意义可能更多的是包含在words中而不是在顺序中,例如“今天我吃了饭”和“吃了饭我今天”其实并没有太大的区别,也许后面这句话并不符合语法,但你我都听得懂是什么意思。
: 也许世界的本质更多的是组合而不是排序:)
en,你说的有道理。
当词语增多了,那么只有了解到词语或句子间的顺序才能够真正的了解文本的含义,所以大部分语义级别的自然语言处理的任务还是基于n-gram模型的。
但是,还有一部分任务并不需要文本的准确含义,而只需要知道文本的topic,这个时候用VSM模型就比较适用了,因为一组有意义的词的聚合就能够表达一个概念(比如你形容苹果的时候就会说: 水果 圆的 红色或绿色 甜...)。所以在文本分类或聚类时大多采用这种模型。
打个不恰当的比喻,前者能够告诉你事情是怎么具体发生的,还后者只能告诉你发生了什么事。
欢迎批评指正。
【 在 cryppie 的大作中提到: 】
: 很有意思:)
: 你举的例子只有两个概念(今天,吃饭),pair-wise的对称关系很容易推出;如果推广到n个概念,这个空间关系是不是没这么明显了呢?
: just discussion
嗯 有意思 图像中也有类似的特性 比如有了眼睛 就很可能人脸了 至于眼睛长在哪可以不去考虑
应该是空间信息(顺序)大多是一些已有的约束 它并不太能增加信息量 但是可以作为一种排错的条件
时间太巧了......
发信人: hunterlee (智障大师), 信区: PR_AI
标 题: Re: 有谁做bag of words吗?
发信站: 北邮人论坛 (Thu Jul 31 21:23:34 2008), 站内
发信人: zixu1986 (Euro), 信区: PR_AI
标 题: Re: 有谁做bag of words吗?
发信站: 北邮人论坛 (Thu Jul 31 21:23:34 2008), 站内
嗯 这个同意 对于object recognition只要识别是否存在这个物体 并不太需要物体的描述 比如在图像的左上角还是右下角
很多概念的似乎只是一种集合 而不是有序的向量
【 在 hunterlee 的大作中提到: 】
: en,你说的有道理。
: 当词语增多了,那么只有了解到词语或句子间的顺序才能够真正的了解文本的含义,所以大部分语义级别的自然语言处理的任务还是基于n-gram模型的。
: 但是,还有一部分任务并不需要文本的准确含义,而只需要知道文本的topic,这个时候用VSM模型就比较适用了,因为一组有意义的词的聚合就能够表达一个概念(比如你形容苹果的时候就会说: 水果 圆的 红色或绿色 甜...)。所以在文本分类或聚类时大多采用这种模型。
: ...................
哈哈 我也觉得 我刚发帖怎么又多出来一贴啦 哈哈哈
【 在 hunterlee 的大作中提到: 】
: 时间太巧了......
: 发信人: hunterlee (智障大师), 信区: PR_AI
: 标 题: Re: 有谁做bag of words吗?
: ...................
要不要考虑顺序要看想得到什么信息。比如得到这篇文章是讲军事的,那么我们不用关注顺序也能得出这个结论。但是我们要是想的到哪个侵略哪个,那就分析篇章结构了。
不过现在对于文章的处理,和bag of word的思想差不多的,文本分类考虑的顺序就很少
对于句子和词的处理都会考虑顺序了
我简单地觉得object recognition考虑的都不是很"细致",对应于NLP中的文本一级
嗯 只要特征(对应文本中的词)足够discriminative 就基本能识别出来了
【 在 earl 的大作中提到: 】
: 要不要考虑顺序要看想得到什么信息。比如得到这篇文章是讲军事的,那么我们不用关注顺序也能得出这个结论。但是我们要是想的到哪个侵略哪个,那就分析篇章结构了。
: 不过现在对于文章的处理,和bag of word的思想差不多的,文本分类考虑的顺序就很少
: 对于句子和词的处理都会考虑顺序了
: ...................