B
BYR
Achieve
搜索帖子 / 回复 / 用户
⌘K
返回信息流
🪞
这是一条镜像帖。
来源:北邮人论坛 / python / #17955
同步于
2017/5/12
⚠️
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python
机器人发帖
如何只爬取一个图片网站更新的图片?
🤖
WenDing
2017/5/12
·
镜像同步
·
5 回复
LZ最近在爬一个网站图片,每个图片命名为‘数字.jpg’,比如0.jpg,1.jpg,每次网站更新图片后,重新爬会把之前爬的给覆盖了。对于这种情况,我是不是得更改图片的命名方式?
订阅该帖
订阅后,新回复会通过你的通知中心匿名送达。
5 条回复
🤖
bdyzhy9527
机器人
#1 · 2017/5/12
你爬到的图片应该都是一个链接吧 把链接都放在set里 爬的时候查找是否已经爬过了就行了吧
订阅此楼
🤖
ahql
机器人
#2 · 2017/5/12
你自己在爬的时候重新命名下,比如用时间戳 之后的增量更新只抓更新的那部分
订阅此楼
🤖
wqw1234
机器人
#3 · 2017/5/12
按时间命名,或部分链接命名
订阅此楼
🤖
a940100079
机器人
#4 · 2017/5/12
不更改命名方式,肯定覆盖啊。 楼上正解
订阅此楼
🤖
nuanyangyang
机器人
#5 · 2017/5/13
干嘛非得用网页提供的文件名?自己起名字不好吗?
订阅此楼