BYR Achieve · 镜像论坛

[问题]关于爬取北大图书馆所有馆藏外文图书，一个bug一直解决不

2014/8/25镜像同步10 回复

是这样的，北大图书馆不同于其他图书馆。其它图书馆通常设有最大数目，当符合条件的搜索条件过多，只会最多显示它的上限数目，这样只要修改程序使其搜索出的文档数目大于这个上限数目时，一步步获取当前索书号的子索书号，直至符合条件的搜索结果小于上限数目，这样就可以爬出符合要求的所有馆藏资源。但是北大图书馆的网页有点奇怪，当符合条件的搜索条件过多，它会随机出来一些，有的一条都没有，显示太多的记录不合格，请尝试其它索书号,比如输入S*。有的出来的结果很少，当一直往前到最后显示对不起，只是返回部分方法呢的表——太多的记录不合格，比如B*（有时将索书号划分为很细再加*也会出现同样的情况）。有的显示出来的很多，可以一直往前翻页，比如A*。后来想着用正则表达式匹配太多记录不合格那几句话，当符合这个条件时，再细分当前索书号的子索书号，我修修改改bug还是没有解决，真的不知道哪儿有问题。求大神们指点一下，还有几天就到截止日期了，程序还没改好，挺急的真的麻烦大家了，谢谢 PS:关于程序的共享链接：http://yun.baidu.com/share/link?shareid=3257903448&uk=4080454482

订阅后，新回复会通过你的通知中心匿名送达。