返回信息流如题,百度的robots.txt (https://www.baidu.com/robots.txt) 已经禁止了所有的抓取,为啥还要在前面加这么多单独的禁止呢?
......
User-agent: EasouSpider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
User-agent: * #禁止所有
Disallow: /
这是一条镜像帖。来源:北邮人论坛 / python / #21293同步于 2018/4/6
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖
【问题】百度robots.txt 已经禁止了所有的抓取,为什么又单独列
WHSASF
2018/4/6镜像同步5 回复
订阅后,新回复会通过你的通知中心匿名送达。
5 条回复
额,非要问清为什么吗?淘宝和百度是一样的策略,京东就省事了……可能看程序员的勤快程度吧
https://www.taobao.com/robots.txt
https://www.jd.com/robots.txt