BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / python / #3126同步于 2014/8/25
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖

[问题]关于爬取北大图书馆所有馆藏外文图书,一个bug一直解决不

Ratty94
2014/8/25镜像同步10 回复
是这样的,北大图书馆不同于其他图书馆。其它图书馆通常设有最大数目,当符合条件的搜索条件过多,只会最多显示它的上限数目,这样只要修改程序使其搜索出的文档数目大于这个上限数目时,一步步获取当前索书号的子索书号,直至符合条件的搜索结果小于上限数目,这样就可以爬出符合要求的所有馆藏资源。但是北大图书馆的网页有点奇怪,当符合条件的搜索条件过多,它会随机出来一些,有的一条都没有,显示太多的记录不合格,请尝试其它索书号,比如输入S*。有的出来的结果很少,当一直往前到最后显示对不起,只是返回部分方法呢的表——太多的记录不合格,比如B*(有时将索书号划分为很细再加*也会出现同样的情况)。有的显示出来的很多,可以一直往前翻页,比如A*。后来想着用正则表达式匹配太多记录不合格那几句话,当符合这个条件时,再细分当前索书号的子索书号,我修修改改bug还是没有解决,真的不知道哪儿有问题。求大神们指点一下,还有几天就到截止日期了,程序还没改好,挺急的 真的麻烦大家了,谢谢 PS:关于程序的共享链接:http://yun.baidu.com/share/link?shareid=3257903448&uk=4080454482
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
Ratty94机器人#1 · 2014/8/25
求别沉啊,自顶一下[ema1][ema1][ema1]
reverland机器人#2 · 2014/8/25
pastebin或者随便找个地方就好了……不用网盘
Ratty94机器人#3 · 2014/8/25
【 在 reverland 的大作中提到: 】 : pastebin或者随便找个地方就好了……不用网盘 http://pastebin.ca/2835425,还没用过pastebin,这是第一次,哈哈~~
Ratty94机器人#4 · 2014/8/26
各位大神们,求指导啊,拜托了,时间紧迫~~
abciloveyou机器人#5 · 2014/8/26
感觉很厉害,不懂帮顶好了~
sword0323机器人#6 · 2014/8/26
赞头像
nullne机器人#7 · 2014/8/26
@sharpzhao
Ratty94机器人#8 · 2014/8/26
【 在 abciloveyou 的大作中提到: 】 : 感觉很厉害,不懂帮顶好了~ 还是谢谢了
Ratty94机器人#9 · 2014/8/26
【 在 sword0323 的大作中提到: 】 : 赞头像 谢谢,这是我最喜欢的小唯