返回信息流简单的说明一下,高校BBS搜索,可以用来买火车票之类的。
使用的技术为sphinx全文索引+中文分词词库,数据库量不大,几百万,响应时间约为0.1s,还可以,实时搜索引擎,延迟时间60min以内。
可是不管怎么写,调整算法,完全无法达到在数据库中%like%的准确度,权重算法为BM25权重,在后台可以查看权重
举例:
我搜索“重庆”,“广州”这些关键字,结果比较靠谱,因为匹配度较高,RT
http://www.beijinggaoxiao.com/Result.php?PlateID=0&PageOffset=0&Keyword=%E9%87%8D%E5%BA%86&PostType=All
http://www.beijinggaoxiao.com/Result.php?PlateID=0&PageOffset=0&Keyword=%E5%B9%BF%E5%B7%9E+%E8%BD%A6%E7%A5%A8&PostType=All
可是搜索一些关键字,结果就不知所云了,比如“双刀”
http://www.beijinggaoxiao.com/Result.php?PlateID=0&PageOffset=0&Keyword=%E5%8F%8C%E5%88%80&PostType=All
如上,如果这种匹配不能达到相应满意程度的话,还不如不匹配
我记得板上原来有人发过,百度谷歌,必应的搜索结果比较,关键词“幕府时代 服装”,结果百度完全不知所云。
基于现在的权重匹配算法,搜索“重庆”,有可能出现“重新庆祝”,除了人工分析以外,现有的全文索引技术还有何效果比较好的?
这是一条镜像帖。来源:北邮人论坛 / search-engine / #9503同步于 2010/2/7
该镜像源已超过 30 天没有更新,可能在源站已被删除。
SearchEngine机器人发帖
[原创]我做了一个搜索引擎,为何从技术角度来讲中文搜索准确率
bigheadsnake
2010/2/7镜像同步18 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
会不会是同义词和多义词的影响呢?
【 在 bigheadsnake 的大作中提到: 】
: 简单的说明一下,高校BBS搜索,可以用来买火车票之类的。
: 使用的技术为sphinx全文索引+中文分词词库,数据库量不大,几百万,响应时间约为0.1s,还可以,实时搜索引擎,延迟时间60min以内。
: 可是不管怎么写,调整算法,完全无法达到在数据库中%like%的准确度,权重算法为BM25权重,在后台可以查看权重
: ...................
dictionary?
【 在 bigheadsnake (大头蛇) 的大作中提到: 】
: 简单的说明一下,高校BBS搜索,可以用来买火车票之类的。
: 使用的技术为sphinx全文索引+中文分词词库,数据库量不大,几百万,响应时间约为0.1s,还可以,实时搜索引擎,延迟时间60min以内。
: 可是不管怎么写,调整算法,完全无法达到在数据库中%like%的准确度,权重算法为BM25权重,在后台可以查看权重
: ...................
关于“双刀”,我想和分词有挺大的关系,“双刀”应该是被分成了“双”和“刀”,
匹配的时候,分别用"双"和"刀",然后取或,
建议可以考虑下n-gram
【 在 bigheadsnake 的大作中提到: 】
: 简单的说明一下,高校BBS搜索,可以用来买火车票之类的。
: 使用的技术为sphinx全文索引+中文分词词库,数据库量不大,几百万,响应时间约为0.1s,还可以,实时搜索引擎,延迟时间60min以内。
: 可是不管怎么写,调整算法,完全无法达到在数据库中%like%的准确度,权重算法为BM25权重,在后台可以查看权重
: ...................
【 在 WSparkle 的大作中提到: 】
: 我觉得在日常使用中,应当尊重用户已经提供的分词结果
: 只有一个词也算
这个在实际生活中会造成结果大量减少,并且会有相当程度的相关结果无法显示。
如我搜索,“北京天气”,其实“北京今日天气”肯定是我需要的结果之一,按LS的说法就被忽略了
所以中文搜索任重道远
【 在 argue2000 的大作中提到: 】
: 分词粒度的问题吧,还有你建索引的时候是不是粒度选择的太小了
分词粒度越大搜索的准确性越高,可是miss的结果也会越多,我设置的是1,一般来讲中文可以改成2,但是那样的话搜索奇数个字单词miss程度会相当高,只有70%左右的命中率
一般来讲这种全文索引起码要有90%的命中率吧。。。