返回信息流地址:http://fenci.juexiang.com/
输入“北邮很好很强大”,结果返回
百度分词结果 北邮,很好很强大
雅虎分词结果 北邮,很,好,很,强大
明显百度强。而谷歌的分词结果和雅虎几乎相同
这是一条镜像帖。来源:北邮人论坛 / search-engine / #7438同步于 2008/12/2
该镜像源已超过 30 天没有更新,可能在源站已被删除。
SearchEngine机器人发帖
百度和中国雅虎的中文分词技术对比
benxiaohai
2008/12/2镜像同步39 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
从搜索结果看,gg虽然数量上大,但仔细看在第1页、第二页基本不相关了。
这种现象在使用长句进行检索时会越来越明显。
句子越长,检索结果就特别少。
用今天的十大第一做query [北美事业有成归来,征知己再发展(可资助学业) ]
百度只有10条,但这10条基本覆盖了 北师、北邮、中财三个论坛的三个帖子。
而谷歌.cn谷歌.com都是380条左右,但从第8条开始就是模糊结果了。
http://www.baidu.com/s?lm=0&si=&rn=10&ie=gb2312&ct=0&wd=%B1%B1%C3%C0%CA%C2%D2%B5%D3%D0%B3%C9%B9%E9%C0%B4%2C%D5%F7%D6%AA%BC%BA%D4%D9%B7%A2%D5%B9%28%BF%C9%D7%CA%D6%FA%D1%A7%D2%B5%29&cl=0
http://www.google.cn/search?hl=zh-CN&q=%E5%8C%97%E7%BE%8E%E4%BA%8B%E4%B8%9A%E6%9C%89%E6%88%90%E5%BD%92%E6%9D%A5%EF%BC%8C%E5%BE%81%E7%9F%A5%E5%B7%B1%E5%86%8D%E5%8F%91%E5%B1%95%EF%BC%88%E5%8F%AF%E8%B5%84%E5%8A%A9%E5%AD%A6%E4%B8%9A%EF%BC%89+&btnG=Google+%E6%90%9C%E7%B4%A2&meta=&aq=f&oq=
【 在 sunmoonstar 的大作中提到: 】
: 从搜索结果看,gg虽然数量上大,但仔细看在第1页、第二页基本不相关了。
: 这种现象在使用长句进行检索时会越来越明显。
: 句子越长,检索结果就特别少。
: ...................
【 在 sunmoonstar 的大作中提到: 】
: 从搜索结果看,gg虽然数量上大,但仔细看在第1页、第二页基本不相关了。
: 这种现象在使用长句进行检索时会越来越明显。
: 句子越长,检索结果就特别少。
: ...................
你这种对比,都懒得评价了...
百度的分词是很强,但是不一定是体现在这方面.其实这只是一个分词粒度上的差别,其实百度也是能分出很-好-很-强大这样的,但是在短语粒度下能找到更好的结果的话就不需要用到基本词的粒度.只有在结果数目不够的情况下才会用更细的分词.秀哥的对比也没有什么错的,这只是说明了两家在收录和建库上的是有差别的.
【 在 nonsense 的大作中提到: 】
: 你这种对比,都懒得评价了...
这体现分词结果对搜索结果的影响
搜索结果数量不能作为检索能力的评价标准
【 在 nonsense 的大作中提到: 】
: 你这种对比,都懒得评价了...
【 在 namespace 的大作中提到: 】
: 百度的分词是很强,但是不一定是体现在这方面.其实这只是一个分词粒度上的差别,其实百度也是能分出很-好-很-强大这样的,但是在短语粒度下能找到更好的结果的话就不需要用到基本词的粒度.只有在结果数目不够的情况下才会用更细的分词.秀哥的对比也没有什么错的,这只是说明了两家在收录和建库上的是有差别的.
baidu提供分词api了?
yahoo提供分词api了?
那网站是怎么知道baidu和yahoo分词结果的?
自己想想吧
网站为什么要知道分词的结果呢???那两个图yahoo和baidu都能得到相同的分词结果,但是得到的结果不一样这只能说明两家的收录和分词后的采取的检索策略是有差别的...
【 在 nonsense 的大作中提到: 】
: baidu提供分词api了?
: yahoo提供分词api了?
: 那网站是怎么知道baidu和yahoo分词结果的?
: ...................
[QUOTE]
从搜索结果看,gg虽然数量上大,但仔细看在第1页、第二页基本不相关了。
这种现象在使用长句进行检索时会越来越明显。
句子越长,检索结果就特别少。
用今天的十大第一做query [北美事业有成归来,征知己再发展(可资助学业) ]
百度只有10条,但这10条基本覆盖了 北师、北邮、中财三个论坛的三个帖子。
而谷歌.cn谷歌.com都是380条左右,但从第8条开始就是模糊结果了。
[/QUOTE]
第一段的长句搜索,我想问,用过双引号吗?
第二段的搜索结果评价,我想问,仔细看搜索结果了吗?
结果均来自三个地方 北邮 北师 民大(cunzong不是中财吧)
有效(包含重复)搜索结果,baidu12条,google8条
baidu结果多,但是重复太多
google结果基本不重复
(如果你认为forum.byr和bbs.byr是重复,那我对这种观点表示赞叹),
并且Google的结果有个很有意思的地方,便是 - 缩排。注意到了吗?
我觉得既然评价搜索引擎的优劣,就麻烦用点心
有意的,或无意的误导,我觉得不是很好
拿一个例子而不是更多的结果来对比也就罢了
更不该的是评论里有明显的倾向性
到底是有感而发还是打哪指哪?
孰优孰劣,自己判断,萝卜白菜
不多说了,上图走人