BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #2792同步于 2008/7/31
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

有谁做bag of words吗?

zixu1986
2008/7/31镜像同步10 回复
视觉object recognition借用了文本中bag of words的方法 想弄清楚为什么忽略了空间信息能得到这么好的结果 想听听做文本的用bag of words的体会 忽略了词语之间顺序关系能保留多少信息呢?
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
hunterlee机器人#1 · 2008/7/31
NLP中的语言模型例如n-gram是考虑词语间顺序的,是NLP中的生成模型,bag of words则更像是判决模型。也有很多人试图将顺序这个特性加到VSM模型中,但是似乎这些方法的性能都没有质上的飞跃。 至于原因,我个人认为语言中的意义可能更多的是包含在words中而不是在顺序中,例如“今天我吃了饭”和“吃了饭我今天”其实并没有太大的区别,也许后面这句话并不符合语法,但你我都听得懂是什么意思。 也许世界的本质更多的是组合而不是排序:) 【 在 zixu1986 的大作中提到: 】 : 视觉object recognition借用了文本中bag of words的方法 想弄清楚为什么忽略了空间信息能得到这么好的结果 : 想听听做文本的用bag of words的体会 忽略了词语之间顺序关系能保留多少信息呢?
cryppie机器人#2 · 2008/7/31
很有意思:) 你举的例子只有两个概念(今天,吃饭),pair-wise的对称关系很容易推出;如果推广到n个概念,这个空间关系是不是没这么明显了呢? just discussion 【 在 hunterlee 的大作中提到: 】 : NLP中的语言模型例如n-gram是考虑词语间顺序的,是NLP中的生成模型,bag of words则更像是判决模型。也有很多人试图将顺序这个特性加到VSM模型中,但是似乎这些方法的性能都没有质上的飞跃。 : 至于原因,我个人认为语言中的意义可能更多的是包含在words中而不是在顺序中,例如“今天我吃了饭”和“吃了饭我今天”其实并没有太大的区别,也许后面这句话并不符合语法,但你我都听得懂是什么意思。 : 也许世界的本质更多的是组合而不是排序:)
hunterlee机器人#3 · 2008/7/31
en,你说的有道理。 当词语增多了,那么只有了解到词语或句子间的顺序才能够真正的了解文本的含义,所以大部分语义级别的自然语言处理的任务还是基于n-gram模型的。 但是,还有一部分任务并不需要文本的准确含义,而只需要知道文本的topic,这个时候用VSM模型就比较适用了,因为一组有意义的词的聚合就能够表达一个概念(比如你形容苹果的时候就会说: 水果 圆的 红色或绿色 甜...)。所以在文本分类或聚类时大多采用这种模型。 打个不恰当的比喻,前者能够告诉你事情是怎么具体发生的,还后者只能告诉你发生了什么事。 欢迎批评指正。 【 在 cryppie 的大作中提到: 】 : 很有意思:) : 你举的例子只有两个概念(今天,吃饭),pair-wise的对称关系很容易推出;如果推广到n个概念,这个空间关系是不是没这么明显了呢? : just discussion
zixu1986机器人#4 · 2008/7/31
嗯 有意思 图像中也有类似的特性 比如有了眼睛 就很可能人脸了 至于眼睛长在哪可以不去考虑 应该是空间信息(顺序)大多是一些已有的约束 它并不太能增加信息量 但是可以作为一种排错的条件
hunterlee机器人#5 · 2008/7/31
时间太巧了...... 发信人: hunterlee (智障大师), 信区: PR_AI 标 题: Re: 有谁做bag of words吗? 发信站: 北邮人论坛 (Thu Jul 31 21:23:34 2008), 站内 发信人: zixu1986 (Euro), 信区: PR_AI 标 题: Re: 有谁做bag of words吗? 发信站: 北邮人论坛 (Thu Jul 31 21:23:34 2008), 站内
zixu1986机器人#6 · 2008/7/31
嗯 这个同意 对于object recognition只要识别是否存在这个物体 并不太需要物体的描述 比如在图像的左上角还是右下角 很多概念的似乎只是一种集合 而不是有序的向量 【 在 hunterlee 的大作中提到: 】 : en,你说的有道理。 : 当词语增多了,那么只有了解到词语或句子间的顺序才能够真正的了解文本的含义,所以大部分语义级别的自然语言处理的任务还是基于n-gram模型的。 : 但是,还有一部分任务并不需要文本的准确含义,而只需要知道文本的topic,这个时候用VSM模型就比较适用了,因为一组有意义的词的聚合就能够表达一个概念(比如你形容苹果的时候就会说: 水果 圆的 红色或绿色 甜...)。所以在文本分类或聚类时大多采用这种模型。 : ...................
zixu1986机器人#7 · 2008/7/31
哈哈 我也觉得 我刚发帖怎么又多出来一贴啦 哈哈哈 【 在 hunterlee 的大作中提到: 】 : 时间太巧了...... : 发信人: hunterlee (智障大师), 信区: PR_AI : 标 题: Re: 有谁做bag of words吗? : ...................
earl机器人#8 · 2008/7/31
要不要考虑顺序要看想得到什么信息。比如得到这篇文章是讲军事的,那么我们不用关注顺序也能得出这个结论。但是我们要是想的到哪个侵略哪个,那就分析篇章结构了。 不过现在对于文章的处理,和bag of word的思想差不多的,文本分类考虑的顺序就很少 对于句子和词的处理都会考虑顺序了 我简单地觉得object recognition考虑的都不是很"细致",对应于NLP中的文本一级
zixu1986机器人#9 · 2008/7/31
嗯 只要特征(对应文本中的词)足够discriminative 就基本能识别出来了 【 在 earl 的大作中提到: 】 : 要不要考虑顺序要看想得到什么信息。比如得到这篇文章是讲军事的,那么我们不用关注顺序也能得出这个结论。但是我们要是想的到哪个侵略哪个,那就分析篇章结构了。 : 不过现在对于文章的处理,和bag of word的思想差不多的,文本分类考虑的顺序就很少 : 对于句子和词的处理都会考虑顺序了 : ...................