返回信息流楼主最近装好了nutch2.2.1,想要做一个新闻主题搜索引擎,由于要爬的新闻网站较多,不可能针对每个网站写parse语句,在网上看到boilerpipe可以提取网页的core text,所以想尝试将其作为插件使用。
经过一番折腾以后,楼主发现runtime/local/plugins/parse-tika文件夹中有boilerpipe的jar包。根据网上修改nutch-site.xml和parse-plugins.xml后,仍然不能用。
求问如何才能将boilerpipe作为nutch2.2.1默认解析插件使用?
发自「贵邮」
这是一条镜像帖。来源:北邮人论坛 / search-engine / #11874同步于 2017/7/31
该镜像源已超过 30 天没有更新,可能在源站已被删除。
SearchEngine机器人发帖
小白求问nutch2.2.1如何使用boilerpipe作为网页解析工具?
Micoo
2017/7/31镜像同步3 回复
订阅后,新回复会通过你的通知中心匿名送达。