返回信息流想把一个网站的全部资源按照网站原本的目录结构完整下载,如果是ftp服务器的话我知道可以用很多工具实现,我遇到的是HTTP服务器,迅雷貌似只能从下载一个目录下的全部文件,若目录下还有目录就不行了。请问大家有什么好的办法或工具推荐么?
这是一条镜像帖。来源:北邮人论坛 / www-technology / #18051同步于 2012/11/7
该镜像源已超过 30 天没有更新,可能在源站已被删除。
WWWTechnology机器人发帖
求推荐一款方便的下载工具
kingstone
2012/11/7镜像同步10 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
[wget] (http://www.gnu.org/software/wget/)
Think:
- What is a directory?
- Are there any directories on any HTTP servers?
- How do you know if there is a directory?
- We are on http://bbs.byr.cn/article/WWWTechnology/18051 . So, is /article/WWWTechnology *really* a directory? Ask @xw2423 if unsure.
- If you are sure /foo/bar *is* a directory, how do you *list* that directory? Can you do "ls" or "dir" using HTTP as you can do with FTP?
- If you cannot list a directory, how do you know what files are available there, or are there any files at all?
- How a typical Web browser load a page? If you use Google Chrome, try pressing F12, then press the "network" tab, then open a web page.
谢谢@wks wget我用过了 很好用 这几个问题我之前没有很好的想过 用chrome看了下没看出什么端倪 之前我一直以为HTTP的路径跟实际目录结构是对应的关系 wordpress里好像也确实是这样的 请问这样理解的问题在哪里?
【 在 wks 的大作中提到: 】
: [wget] (http://www.gnu.org/software/wget/)
: Think:
: - What is a directory?
: ...................
http的请求和服务器的实际目录没有太大关系。。。
【 在 kingstone (柯南) 的大作中提到: 】
: 谢谢@wks wget我用过了 很好用 这几个问题我之前没有很好的想过 用chrome看了下没看出什么端倪 之前我一直以为HTTP的路径跟实际目录结构是对应的关系 wordpress里好像也确实是这样的 请问这样理解的问题在哪里?
额 看来我之前的理解有问题 是不是说这个帖子上的WWWTechnology和类似于18079这些其实是对应的后台数据库的两个字段 不知道这样理解对不对?
【 在 xw2423 的大作中提到: 】
: http的请求和服务器的实际目录没有太大关系。。。
:
WWWTechnology 和 18079 对于后端来说只是 uri segment 罢了
至于后端的资源怎么安排那就是 router 的事情了,跟数据库的字段没什么关系
【 在 kingstone 的大作中提到: 】
: 额 看来我之前的理解有问题 是不是说这个帖子上的WWWTechnology和类似于18079这些其实是对应的后台数据库的两个字段 不知道这样理解对不对?
这里的router指的不是传统的路由器吧?想了解这方面技术的话看哪类资料好呢?
【 在 sutar 的大作中提到: 】
: WWWTechnology 和 18079 对于后端来说只是 uri segment 罢了
: 至于后端的资源怎么安排那就是 router 的事情了,跟数据库的字段没什么关系
:
其实URL只是浏览器发送给服务器的一个字符串而已。
服务器看到的其实只是这样:
GET /article/WWWTechnology/post/18080 HTTP/1.1
Host: bbs.byr.cn
User-Agent: Mozilla/5.0 (X11; Linux x86_64; rv:16.0) Gecko/20100101 Firefox/16.0
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: en-US,en;q=0.5
Accept-Encoding: gzip, deflate
Connection: keep-alive
然后,服务器向客户端发什么,客户端就以为article/WWWTechnology/post/18080这个所谓的“文件”的内容是什么。所以,结论:服务器展现给客户端的可能是真的文件系统(比如提供静态文件),也可能完全是虚构的。
【 在 kingstone 的大作中提到: 】
: 额 看来我之前的理解有问题 是不是说这个帖子上的WWWTechnology和类似于18079这些其实是对应的后台数据库的两个字段 不知道这样理解对不对?