BYR Achieve · 镜像论坛

【更新】小白求助大神帮忙，关于毕设。

2016/5/8镜像同步22 回复

同学帮我调出来了……是匹配出问题了，用\d+没办法匹配那么多数字，之前被查到的资料误导了……谢谢各位大神能够帮我。 ———————————————————————————————————————————————— 好吧，第三次更。我现在源url的链接是https://movie.douban.com/subject/1866473/?from=subject-page，然后我想爬取的是这个页面里“喜欢这部电影的人也喜欢……”的url，的内容，然后在码的parser里正则匹配的代码就是 links = soup.find_all('a', href=re.compile(r"https://movie.douban.com/subject/\d+/?from=subject-page")) for link in links: new_url = link['href'] new_urls.add(new_url) return new_urls 然后其他的地方都没有改动什么，就是什么数据都爬取不出来了…… 求大神指点……这段添加url的代码有没有错误。。。。。 ————————————————————————————————————————————————— 昨天又调了调BUG，然后因为是按照原来的网上教程的代码模仿写的。现在的问题是我在修改爬取的数据来源的正则，然后就发现爬取不出来数据了……程序运行有问题了。正则表达式一直似乎错了，其他模块的逻辑我检查了两遍，自己感觉应该没有问题了吧。但是程序运行就是没结果……有点头疼。爬取的数据是豆瓣的电影页面关联到喜欢该类电影的人还喜欢其他电影……就是这样的关联，我一直做不出来。求指导。 ——————————————————————————————————————————————————— 首先，我承认自己够懒够拖，一直到现在毕设都没做完，LZ工作狗，重心完全不在这一块儿了。请论坛大神勿喷。最近在努力做毕设，内容是对网上的数据进行爬取的，按照教程和查阅的资料，写了一些程序，感觉做得也差不多了，可是总是会有一些我不懂的BUG（或者说问题）无法解决。所以希望能在论坛上找一个大神带一带，能够当面询问些问题，希望最近赶紧把毕设做完，毕竟时间都快要到了……请客吃饭之类的一定有。。。求大神帮带……谢谢啦~[ema12][ema12][ema12][ema12][ema12][ema23][ema23][ema23][ema23][ema23][ema23][ema23]

订阅后，新回复会通过你的通知中心匿名送达。