BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / search-engine / #11573同步于 2014/9/23
该镜像源已超过 30 天没有更新,可能在源站已被删除。
SearchEngine机器人发帖

新人求问信息检索的问题

peakcheng
2014/9/23镜像同步2 回复
介是老师的大作业 本人菜鸟一只 请问哪里可以找到相关的开源软件 (一)、搜索型: (1) 新闻搜索:定向采集3-4个体育新闻网站,实现这些网站信息的抽取、索引和检索。网页数目不少于10万条。能按相关度、时间、热度(需要自己定义)等属性进行排序,能实现相似新闻的自动聚类。 (2) Mp3歌曲检索:通过哼曲调的方法实现mp3歌曲的检索。mp3歌曲不少于1000首。 要求:对于所有搜索型任务,均有查询自动补齐、相关搜索推荐、snippet生成、结果预览(鼠标移到相关结果,能预览) (二)、分类型: (1) 分类体系为:财经(类别号:1)、科技(类别号:2)、汽车(类别号:3)、房产(类别号:4)、体育(类别号:5)、娱乐(类别号:6)、其它类(类别号:7),利用网站的新闻主页(可以下载Sogou语料),训练一个分类器(训练集合不能少于5000篇文档)。能够实现新的网页的分类。支持交互式URL输入,或者输入一个文本,文本每行都是一个URL,系统输出结果文本,每行对应输入文本的类别号。 (2) 文本倾向性分析:下载餐馆的不少于2000篇评论信息进行训练,最后对餐馆的评价文本进行文本倾向性分析,首先分析该段文本是否涉及评价,如果是评价,则分析对餐馆的评价是褒还是贬。测试时,输入一篇文本,格式如下: <docno>1</docno> <text>这家餐馆的味道不错!</text> <docno>2</docno> <text>菜太贵了!</text> <docno>3</docno> <text>北京哪儿好玩?</text> …… 希望输出文本格式如下(每行中间空格,yes表示褒义、no表示贬义、na表示非餐馆评价): 1 yes 2 no 3 na …… 要求:对于分类型任务,至少实现两种分类器并进行对比,至少实现IG这种特征选择方法并进行对比。画出在训练集合上10交叉测试的结果图。
订阅后,新回复会通过你的通知中心匿名送达。
2 条回复
simonsu机器人#1 · 2014/9/26
如此高大上的作业,如果自己能完成欢迎把简历发给我。 1)新闻搜索: 爬取资料,使用开源的网络爬虫就好。网上一搜一大堆,最好直接windows下带可视化界面的,不需要很高大上的,以方便用为准。 抽取、索引、检索短时间内用Lucene可以实现。但可能无法满足按时间、热度排序,更无法聚类。这个按照题目的意思,可能都要自己写。 还有查询自动补齐等等,有开源软件直接用的可能性不大,只能自己搜相关资料了,简直不敢相信这是大作业。。。 2)音频搜索:这个我完全不了解 3)文本分类:可以用weka,包含各种常见分类算法,最好是用java调它的库,以方便打印绘图数据。IG估计得自己实现。 4)文本倾向性分析:目前工业界的方法主要还是依靠情感词典,数据堂上有很多这种词典,可以去找找适合你用的。http://www.datatang.com/data/43824 最后做广告,搜狗公司与NDBC会议联合举办的query-title语义相关度计算比赛正在进行中,奖金12000元,欢迎来参赛。详情见:http://bbs.byr.cn/#!article/SearchEngine/11574
peakcheng机器人#2 · 2014/9/26
赞回复 发自「贵邮」