返回信息流需要根据给出的URL抓取网页,抽取其中的meta,title,正文,正文的标题等内容,然后提取关键词。
现在打算的方法有点土,就是DOM tree,直接删除所有的<a>链接,提取指定标签的内容。
如果引入机器学习的方法,目前常用的方法或工具一般都怎么做呢?
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #13637同步于 2014/6/9
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
【求助】目前Web信息抽取有什么广泛使用的方法或工具吗
xiaolee
2014/6/9镜像同步3 回复
订阅后,新回复会通过你的通知中心匿名送达。
3 条回复
通用的网页正文信息提取比较复杂。
如果是某一类的网页会简单很多,比如新闻的。
不过与机器学习什么的关系不大
【 在 xiaolee 的大作中提到: 】
: 需要根据给出的URL抓取网页,抽取其中的meta,title,正文,正文的标题等内容,然后提取关键词。
: 现在打算的方法有点土,就是DOM tree,直接删除所有的<a>链接,提取指定标签的内容。
: 如果引入机器学习的方法,目前常用的方法或工具一般都怎么做呢?