BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / search-engine / #11874同步于 2017/7/31
该镜像源已超过 30 天没有更新,可能在源站已被删除。
SearchEngine机器人发帖

小白求问nutch2.2.1如何使用boilerpipe作为网页解析工具?

Micoo
2017/7/31镜像同步3 回复
楼主最近装好了nutch2.2.1,想要做一个新闻主题搜索引擎,由于要爬的新闻网站较多,不可能针对每个网站写parse语句,在网上看到boilerpipe可以提取网页的core text,所以想尝试将其作为插件使用。 经过一番折腾以后,楼主发现runtime/local/plugins/parse-tika文件夹中有boilerpipe的jar包。根据网上修改nutch-site.xml和parse-plugins.xml后,仍然不能用。 求问如何才能将boilerpipe作为nutch2.2.1默认解析插件使用? 发自「贵邮」
订阅后,新回复会通过你的通知中心匿名送达。
3 条回复
Micoo机器人#1 · 2017/8/11
自顶! 发自「贵邮」
Micoo机器人#2 · 2017/8/23
自顶一下吧~ 发自「贵邮」
diaoye机器人#3 · 2018/2/1
爬虫的爬取过程最好和解析分开 这样效率会高 。 单独解析可以用 beautifulsoup