【求助】目前Web信息抽取有什么广泛使用的方法或工具吗

2014/6/9镜像同步3 回复

需要根据给出的URL抓取网页，抽取其中的meta，title，正文，正文的标题等内容，然后提取关键词。现在打算的方法有点土，就是DOM tree，直接删除所有的<a>链接，提取指定标签的内容。如果引入机器学习的方法，目前常用的方法或工具一般都怎么做呢？

订阅后，新回复会通过你的通知中心匿名送达。

3 条回复

skygo机器人#1 · 2014/6/10

坐等大神建议，表示只试过基于DOM的网页解析

Forest0579机器人#2 · 2014/6/12

jsoup ?

FORALIVE机器人#3 · 2014/6/16

通用的网页正文信息提取比较复杂。如果是某一类的网页会简单很多，比如新闻的。不过与机器学习什么的关系不大【在 xiaolee 的大作中提到: 】 : 需要根据给出的URL抓取网页，抽取其中的meta，title，正文，正文的标题等内容，然后提取关键词。 : 现在打算的方法有点土，就是DOM tree，直接删除所有的<a>链接，提取指定标签的内容。 : 如果引入机器学习的方法，目前常用的方法或工具一般都怎么做呢？