返回信息流先描述一下我的问题:
我是想通过爬虫得到一些豆瓣小站的录制的MP3的url。
通过分析网页源码,发现如下代码:
song_records = [{"name":"【美文】《致我们终将逝去的青春》-晓果主播","url":"aHR0cDovL21yNC5kb3ViYW4uY29tLzIwMTMwNjAxMjMyNS9mNjcyMTc5NTA2Y2RkNTEyNGI0Y2JjNzViMTU3N2JjOC92aWV3L211c2ljaWFubXAzL21wMy94MTQ2MTU1NTQubXAz","cover":"http:\/\/img3.douban.com\/view\/site\/small\/public\/75af3ac0b3609bd.jpg","isDemo":false,"rawUrl":"http:\/\/mr4.douban.com\/201306012325\/f672179506cdd5124b4cbc75b1577bc8\/view\/musicianmp3\/mp3\/x14615554.mp3","id":"370874"},……];
其中的rawUrl的值就是MP3文件的地址:
http://mr4.douban.com/201306012325/f672179506cdd5124b4cbc75b1577bc8/view/musicianmp3/mp3/x14615554.mp3
分析这个链接地址:http://mr4.douban.com/为所在的服务器地址,201306012325为获取网页的时间(精确到分钟,每分钟变化),后面的f672179506cdd5124b4cbc75b1577bc8为一个字符串的md5编码(每分钟变化);其后的/view/musicianmp3/mp3/x14615554.mp3都不变。
问题描述:
为何一个MP3文件的链接地址为何会每分钟变化,过一会儿访问该地址就会显示403错误(错误里显示是Nginx服务器)。该如何得到他们的变化规律,时间后的MD5值的字符串的原值是什么??这样的变化是如何在nginx服务器上实现,抑或是何种nginx的高级特性?
感谢阅读,真心求教!
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #10651同步于 2013/6/1
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
求教web大神(尤其是nginx大神)
ldd2008
2013/6/1镜像同步4 回复
订阅后,新回复会通过你的通知中心匿名送达。
4 条回复
BZ真是明察秋毫啊!!
【 在 chentingpc 的大作中提到: 】
: 唔,这个不是WWW版的问题么。。看到WWW版有牛帮你回复了。此贴帮LZ保留一天吧。
个人觉得,从时间开始就不是真实目录了,或者原始的url是http://mr4.douban.com/?time=201306012325/f672179506cdd5124b4cbc75b1577bc8/view/musicianmp3/mp3/x14615554.mp3 经过框架的处理把类似于time这样的参数隐藏了,后台会根据算法对时间和哈希进行验证或者什么样的处理(这样可能是为了保证不能随意的去从服务器上下载mp3?)。