返回信息流为一个文本文件 ( 4G左右, 格式为每行长度约为100个汉字的文本)建立一个这个文件的检索服务器和客户端.
服务器功能: 接受检索请求, 找出出现输入query的文本行, 然后按相关性从高到低排序输出前30个相关性最高的行
客户端功能: 发送检索请求, 接收查询结果, 并且显示
相关性计算方法: 以词为单击进行计算 comm(query,文本)/union(query, 文本)
小型例子:
文本为:
1. R·A·Fisher(1890-1962)作为一代假设检验理论的创立者,在假设检验中首先提出P值的概念。
2. 他认为假设检验是一种程序,研究人员依照这一程序可以对某一总体参数形成一种判断。
query为:
假设检验
新人求帮忙,bg啊
这是一条镜像帖。来源:北邮人论坛 / search-engine / #10990同步于 2012/5/4
该镜像源已超过 30 天没有更新,可能在源站已被删除。
SearchEngine机器人发帖
[求助]为一个文本文件建立一个检索服务器和客户端.
magicbupt
2012/5/4镜像同步6 回复
订阅后,新回复会通过你的通知中心匿名送达。
6 条回复
这两个都是封装好的吗,我其实问题不在这个 现在的任务是要设计一个文本文件检索系统:包含服务器和客户端 ,不知道怎么做
【 在 waterwawa 的大作中提到: 】
: why not try Sphinx or Coreseek?
【 在 magicbupt 的大作中提到: 】
: 这两个都是封装好的吗,我其实问题不在这个 现在的任务是要设计一个文本文件检索系统:包含服务器和客户端 ,不知道怎么做
You will be easy to use and be happy to enjoy it!
Just try, dear.
可以基于lucene检索包来做,还有solr什么的,其实这些框架都提供了建索引和检索模块的接口,你只要调用接口二次开发就行,可以搭建一个自己的站内搜索。至于相关性排序算法你可以自己编写实现,不过和这些封装好的框架集合还是挺难的,估计需要修改核心源代码来实现了。
好复杂的样子,我现在有中科院wordseg中文分词库,但是看起来很费劲,不知道怎么下手啊
【 在 try2006bupt 的大作中提到: 】
: 可以基于lucene检索包来做,还有solr什么的,其实这些框架都提供了建索引和检索模块的接口,你只要调用接口二次开发就行,可以搭建一个自己的站内搜索。至于相关性排序算法你可以自己编写实现,不过和这些封装好的框架集合还是挺难的,估计需要修改核心源代码来实现了。
其实可以试试全球领先的百度硬盘搜索http://disk.baidu.com/forserver/
服务器版的,架设好后,添加用户,该用户通过浏览器即可全文检索服务器上的东东,不过要索引,等待时间较长