有谁做bag of words吗？

zixu1986

2008/7/31镜像同步10 回复

视觉object recognition借用了文本中bag of words的方法想弄清楚为什么忽略了空间信息能得到这么好的结果想听听做文本的用bag of words的体会忽略了词语之间顺序关系能保留多少信息呢？

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

hunterlee机器人#1 · 2008/7/31

NLP中的语言模型例如n-gram是考虑词语间顺序的，是NLP中的生成模型，bag of words则更像是判决模型。也有很多人试图将顺序这个特性加到VSM模型中，但是似乎这些方法的性能都没有质上的飞跃。至于原因，我个人认为语言中的意义可能更多的是包含在words中而不是在顺序中，例如“今天我吃了饭”和“吃了饭我今天”其实并没有太大的区别，也许后面这句话并不符合语法，但你我都听得懂是什么意思。也许世界的本质更多的是组合而不是排序：）【在 zixu1986 的大作中提到: 】 : 视觉object recognition借用了文本中bag of words的方法想弄清楚为什么忽略了空间信息能得到这么好的结果 : 想听听做文本的用bag of words的体会忽略了词语之间顺序关系能保留多少信息呢？

cryppie机器人#2 · 2008/7/31

很有意思:) 你举的例子只有两个概念(今天，吃饭)，pair-wise的对称关系很容易推出；如果推广到n个概念，这个空间关系是不是没这么明显了呢？ just discussion 【在 hunterlee 的大作中提到: 】 : NLP中的语言模型例如n-gram是考虑词语间顺序的，是NLP中的生成模型，bag of words则更像是判决模型。也有很多人试图将顺序这个特性加到VSM模型中，但是似乎这些方法的性能都没有质上的飞跃。 : 至于原因，我个人认为语言中的意义可能更多的是包含在words中而不是在顺序中，例如“今天我吃了饭”和“吃了饭我今天”其实并没有太大的区别，也许后面这句话并不符合语法，但你我都听得懂是什么意思。 : 也许世界的本质更多的是组合而不是排序：）

hunterlee机器人#3 · 2008/7/31

en,你说的有道理。当词语增多了，那么只有了解到词语或句子间的顺序才能够真正的了解文本的含义，所以大部分语义级别的自然语言处理的任务还是基于n-gram模型的。但是，还有一部分任务并不需要文本的准确含义，而只需要知道文本的topic，这个时候用VSM模型就比较适用了，因为一组有意义的词的聚合就能够表达一个概念（比如你形容苹果的时候就会说：水果圆的红色或绿色甜...）。所以在文本分类或聚类时大多采用这种模型。打个不恰当的比喻，前者能够告诉你事情是怎么具体发生的，还后者只能告诉你发生了什么事。欢迎批评指正。【在 cryppie 的大作中提到: 】 : 很有意思:) : 你举的例子只有两个概念(今天，吃饭)，pair-wise的对称关系很容易推出；如果推广到n个概念，这个空间关系是不是没这么明显了呢？ : just discussion

zixu1986机器人#4 · 2008/7/31

嗯有意思图像中也有类似的特性比如有了眼睛就很可能人脸了至于眼睛长在哪可以不去考虑应该是空间信息（顺序）大多是一些已有的约束它并不太能增加信息量但是可以作为一种排错的条件

hunterlee机器人#5 · 2008/7/31

时间太巧了...... 发信人: hunterlee (智障大师), 信区: PR_AI 标题: Re: 有谁做bag of words吗？发信站: 北邮人论坛 (Thu Jul 31 21:23:34 2008), 站内发信人: zixu1986 (Euro), 信区: PR_AI 标题: Re: 有谁做bag of words吗？发信站: 北邮人论坛 (Thu Jul 31 21:23:34 2008), 站内

zixu1986机器人#6 · 2008/7/31

嗯这个同意对于object recognition只要识别是否存在这个物体并不太需要物体的描述比如在图像的左上角还是右下角很多概念的似乎只是一种集合而不是有序的向量【在 hunterlee 的大作中提到: 】 : en,你说的有道理。 : 当词语增多了，那么只有了解到词语或句子间的顺序才能够真正的了解文本的含义，所以大部分语义级别的自然语言处理的任务还是基于n-gram模型的。 : 但是，还有一部分任务并不需要文本的准确含义，而只需要知道文本的topic，这个时候用VSM模型就比较适用了，因为一组有意义的词的聚合就能够表达一个概念（比如你形容苹果的时候就会说：水果圆的红色或绿色甜...）。所以在文本分类或聚类时大多采用这种模型。 : ...................

zixu1986机器人#7 · 2008/7/31

哈哈我也觉得我刚发帖怎么又多出来一贴啦哈哈哈【在 hunterlee 的大作中提到: 】 : 时间太巧了...... : 发信人: hunterlee (智障大师), 信区: PR_AI : 标题: Re: 有谁做bag of words吗？ : ...................

earl机器人#8 · 2008/7/31

要不要考虑顺序要看想得到什么信息。比如得到这篇文章是讲军事的，那么我们不用关注顺序也能得出这个结论。但是我们要是想的到哪个侵略哪个，那就分析篇章结构了。不过现在对于文章的处理，和bag of word的思想差不多的，文本分类考虑的顺序就很少对于句子和词的处理都会考虑顺序了我简单地觉得object recognition考虑的都不是很"细致"，对应于NLP中的文本一级

zixu1986机器人#9 · 2008/7/31

嗯只要特征（对应文本中的词）足够discriminative 就基本能识别出来了【在 earl 的大作中提到: 】 : 要不要考虑顺序要看想得到什么信息。比如得到这篇文章是讲军事的，那么我们不用关注顺序也能得出这个结论。但是我们要是想的到哪个侵略哪个，那就分析篇章结构了。 : 不过现在对于文章的处理，和bag of word的思想差不多的，文本分类考虑的顺序就很少 : 对于句子和词的处理都会考虑顺序了 : ...................