返回信息流同学帮我调出来了……是匹配出问题了,用\d+没办法匹配那么多数字,之前被查到的资料误导了……谢谢各位大神能够帮我。
————————————————————————————————————————————————
好吧,第三次更。我现在源url的链接是https://movie.douban.com/subject/1866473/?from=subject-page,然后我想爬取的是这个页面里“喜欢这部电影的人也喜欢……”的url,的内容,然后在码的parser里正则匹配的代码就是
links = soup.find_all('a', href=re.compile(r"https://movie.douban.com/subject/\d+/?from=subject-page"))
for link in links:
new_url = link['href']
new_urls.add(new_url)
return new_urls
然后其他的地方都没有改动什么,就是什么数据都爬取不出来了……
求大神指点……这段添加url的代码有没有错误。。。。。
—————————————————————————————————————————————————
昨天又调了调BUG,然后因为是按照原来的网上教程的代码模仿写的。现在的问题是我在修改爬取的数据来源的正则,然后就发现爬取不出来数据了……程序运行有问题了。正则表达式一直似乎错了,其他模块的逻辑我检查了两遍,自己感觉应该没有问题了吧。但是程序运行就是没结果……有点头疼。爬取的数据是豆瓣的电影页面关联到喜欢该类电影的人还喜欢其他电影……就是这样的关联,我一直做不出来。求指导。
———————————————————————————————————————————————————
首先,我承认自己够懒够拖,一直到现在毕设都没做完,LZ工作狗,重心完全不在这一块儿了。请论坛大神勿喷。
最近在努力做毕设,内容是对网上的数据进行爬取的,按照教程和查阅的资料,写了一些程序,感觉做得也差不多了,可是总是会有一些我不懂的BUG(或者说问题)无法解决。所以希望能在论坛上找一个大神带一带,能够当面询问些问题,希望最近赶紧把毕设做完,毕竟时间都快要到了……请客吃饭之类的一定有。。。求大神帮带……谢谢啦~[ema12][ema12][ema12][ema12][ema12][ema23][ema23][ema23][ema23][ema23][ema23][ema23]
这是一条镜像帖。来源:北邮人论坛 / python / #13999同步于 2016/5/8
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖
【更新】小白求助大神帮忙,关于毕设。
cherryBlack
2016/5/8镜像同步22 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
现在在爬取豆瓣网的电影数据,我把原来代码里的源url和正则匹配的url改了以后,就发现爬取不出来数据了。程序只能运行一次,就不能继续运行了。什么数据都抓不到。
【 在 l11x0m7 的大作中提到: 】
: 所以具体问题是啥?