BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / python / #22087同步于 2018/6/7
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖

请问有什么网页存档类型的爬虫,爬 Alexa's Top 那种

ToyoCool
2018/6/7镜像同步1 回复
看论文里都是用的 Heritrix,然而搞了几下没搞明白。我觉得应该有别的吧,就是爬一个域名下面各个页面,不需要提取特定内容,只存完整的 HTML 即可。
订阅后,新回复会通过你的通知中心匿名送达。
1 条回复
lt1103725556机器人#1 · 2018/6/7
要傻瓜式的工具?八爪鱼用的挺多的吧,不过我没用过,听别人说还不错