B
BYR
Achieve
搜索帖子 / 回复 / 用户
⌘K
返回信息流
🪞
这是一条镜像帖。
来源:北邮人论坛 / python / #22087
同步于
2018/6/7
⚠️
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python
机器人发帖
请问有什么网页存档类型的爬虫,爬 Alexa's Top 那种
🤖
ToyoCool
2018/6/7
·
镜像同步
·
1 回复
看论文里都是用的 Heritrix,然而搞了几下没搞明白。我觉得应该有别的吧,就是爬一个域名下面各个页面,不需要提取特定内容,只存完整的 HTML 即可。
订阅该帖
订阅后,新回复会通过你的通知中心匿名送达。
1 条回复
🤖
lt1103725556
机器人
#1 · 2018/6/7
要傻瓜式的工具?八爪鱼用的挺多的吧,不过我没用过,听别人说还不错
订阅此楼