返回信息流是这样的,北大图书馆不同于其他图书馆。其它图书馆通常设有最大数目,当符合条件的搜索条件过多,只会最多显示它的上限数目,这样只要修改程序使其搜索出的文档数目大于这个上限数目时,一步步获取当前索书号的子索书号,直至符合条件的搜索结果小于上限数目,这样就可以爬出符合要求的所有馆藏资源。但是北大图书馆的网页有点奇怪,当符合条件的搜索条件过多,它会随机出来一些,有的一条都没有,显示太多的记录不合格,请尝试其它索书号,比如输入S*。有的出来的结果很少,当一直往前到最后显示对不起,只是返回部分方法呢的表——太多的记录不合格,比如B*(有时将索书号划分为很细再加*也会出现同样的情况)。有的显示出来的很多,可以一直往前翻页,比如A*。后来想着用正则表达式匹配太多记录不合格那几句话,当符合这个条件时,再细分当前索书号的子索书号,我修修改改bug还是没有解决,真的不知道哪儿有问题。求大神们指点一下,还有几天就到截止日期了,程序还没改好,挺急的
真的麻烦大家了,谢谢
PS:关于程序的共享链接:http://yun.baidu.com/share/link?shareid=3257903448&uk=4080454482
这是一条镜像帖。来源:北邮人论坛 / python / #3126同步于 2014/8/25
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖
[问题]关于爬取北大图书馆所有馆藏外文图书,一个bug一直解决不
Ratty94
2014/8/25镜像同步10 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
【 在 reverland 的大作中提到: 】
: pastebin或者随便找个地方就好了……不用网盘
http://pastebin.ca/2835425,还没用过pastebin,这是第一次,哈哈~~