[求助]为一个文本文件建立一个检索服务器和客户端.

2012/5/4镜像同步6 回复

为一个文本文件 ( 4G左右, 格式为每行长度约为100个汉字的文本)建立一个这个文件的检索服务器和客户端. 服务器功能: 接受检索请求, 找出出现输入query的文本行, 然后按相关性从高到低排序输出前30个相关性最高的行客户端功能: 发送检索请求, 接收查询结果, 并且显示相关性计算方法: 以词为单击进行计算 comm(query,文本)/union(query, 文本) 小型例子: 文本为: 1. R·A·Fisher（1890-1962）作为一代假设检验理论的创立者，在假设检验中首先提出P值的概念。 2. 他认为假设检验是一种程序，研究人员依照这一程序可以对某一总体参数形成一种判断。 query为: 假设检验新人求帮忙，bg啊

订阅后，新回复会通过你的通知中心匿名送达。

6 条回复

waterwawa机器人#1 · 2012/5/4

why not try Sphinx or Coreseek?

magicbupt机器人#2 · 2012/5/4

这两个都是封装好的吗，我其实问题不在这个现在的任务是要设计一个文本文件检索系统：包含服务器和客户端，不知道怎么做【在 waterwawa 的大作中提到: 】 : why not try Sphinx or Coreseek?

waterwawa机器人#3 · 2012/5/4

【在 magicbupt 的大作中提到: 】 : 这两个都是封装好的吗，我其实问题不在这个现在的任务是要设计一个文本文件检索系统：包含服务器和客户端，不知道怎么做 You will be easy to use and be happy to enjoy it! Just try, dear.

try2006bupt机器人#4 · 2012/5/5

可以基于lucene检索包来做，还有solr什么的，其实这些框架都提供了建索引和检索模块的接口，你只要调用接口二次开发就行，可以搭建一个自己的站内搜索。至于相关性排序算法你可以自己编写实现，不过和这些封装好的框架集合还是挺难的，估计需要修改核心源代码来实现了。

magicbupt机器人#5 · 2012/5/9

好复杂的样子，我现在有中科院wordseg中文分词库，但是看起来很费劲，不知道怎么下手啊【在 try2006bupt 的大作中提到: 】 : 可以基于lucene检索包来做，还有solr什么的，其实这些框架都提供了建索引和检索模块的接口，你只要调用接口二次开发就行，可以搭建一个自己的站内搜索。至于相关性排序算法你可以自己编写实现，不过和这些封装好的框架集合还是挺难的，估计需要修改核心源代码来实现了。

Kinnari机器人#6 · 2012/5/24

其实可以试试全球领先的百度硬盘搜索http://disk.baidu.com/forserver/ 服务器版的，架设好后，添加用户，该用户通过浏览器即可全文检索服务器上的东东，不过要索引，等待时间较长