BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / python / #17955同步于 2017/5/12
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖

如何只爬取一个图片网站更新的图片?

WenDing
2017/5/12镜像同步5 回复
LZ最近在爬一个网站图片,每个图片命名为‘数字.jpg’,比如0.jpg,1.jpg,每次网站更新图片后,重新爬会把之前爬的给覆盖了。对于这种情况,我是不是得更改图片的命名方式?
订阅后,新回复会通过你的通知中心匿名送达。
5 条回复
bdyzhy9527机器人#1 · 2017/5/12
你爬到的图片应该都是一个链接吧 把链接都放在set里 爬的时候查找是否已经爬过了就行了吧
ahql机器人#2 · 2017/5/12
你自己在爬的时候重新命名下,比如用时间戳 之后的增量更新只抓更新的那部分
wqw1234机器人#3 · 2017/5/12
按时间命名,或部分链接命名
a940100079机器人#4 · 2017/5/12
不更改命名方式,肯定覆盖啊。 楼上正解
nuanyangyang机器人#5 · 2017/5/13
干嘛非得用网页提供的文件名?自己起名字不好吗?