返回信息流比如这个例子。
这是原网页页面,隐藏,要论坛币购买后才显示115下载地址:
http://t1.qpic.cn/mblogpic/c94cafdf00acfb66ceec/2000.jpg
购买之后才显示:
http://t4.qpic.cn/mblogpic/a0f7a7de01761a65e46e/2000.jpg
而百度搜索结果页面直接可抓到本来隐藏的下载地址,怎么做到的?
http://t1.qpic.cn/mblogpic/0eef1f908ec405c2f014/2000.jpg
有意思的是,快照里面却依然是隐藏状态:
http://t2.qpic.cn/mblogpic/4d152cbc3697ce7312f2/2000.jpg
这个抓取策略是咋回事?有了解的吗?
这是一条镜像帖。来源:北邮人论坛 / search-engine / #10911同步于 2012/3/9
该镜像源已超过 30 天没有更新,可能在源站已被删除。
SearchEngine机器人发帖
百度怎么抓取到页面中隐藏内容的?而且摘要和快照不同?
Tag
2012/3/9镜像同步5 回复
订阅后,新回复会通过你的通知中心匿名送达。
5 条回复
有意思,看来用百度快照就可以看到下载地址了,不知道这个的普适性是多少~~而且还存在一种可能就是或这个下载之前没有被隐藏,然后被百度抓到了,后面管理员手动把这个附件的下载地址隐藏~~
当模拟baidu爬取时
<meta name="description" content="http://115.com/file/andn0r44#[www.eshuyuan.com]经济变迁的演化理论_10016781.zip解压密码:www.eshuyuan.com 经济变迁的演化理论_10016781+18M ,E书园-高清电子书免费分享E站" />
我第一反应也是这个~
后来看帖子记录,帖子发出后就没有被修改过
【 在 herb777 的大作中提到: 】
: 有意思,看来用百度快照就可以看到下载地址了,不知道这个的普适性是多少~~而且还存在一种可能就是或这个下载之前没有被隐藏,然后被百度抓到了,后面管理员手动把这个附件的下载地址隐藏~~
谢谢测试,看了论坛开了高权限给爬虫,要补漏洞啊
【 在 zzcc 的大作中提到: 】
: 当模拟baidu爬取时
: <meta name="description" content="http://115.com/file/andn0r44#[www.eshuyuan.com]经济变迁的演化理论_10016781.zip解压密码:www.eshuyuan.com 经济变迁的演化理论_10016781+18M ,E书园-高清电子书免费分享E站" />