小白做爬虫求教

2016/1/17镜像同步10 回复

最近刚学爬虫，想做一个能爬取当天论坛失物招领信息但是不知道怎么只把当天的失物招领信息找出来。。。我一开始想的是用正则表达式找到所有title-10所对的日期然后如果和当前日期一样就把前面的URL添加到爬虫里所有帖子都在tr里面的td 然后好像长得都一样不知道该怎么办了。。。求大神教[ema11][ema11][ema11]

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

stevesasuke机器人#1 · 2016/1/17

beautifulsoup... 不过我还是安利你一下 nodejs 吧～=￣ω￣=～

bdyzhy9527机器人#2 · 2016/1/17

【在 stevesasuke 的大作中提到: 】 : beautifulsoup... : 不过我还是安利你一下 nodejs 吧～=￣ω￣=～我是看着视频学的。。。并不知道太多。。。

iamluo机器人#3 · 2016/1/17

试试自动化测试模块selenium? from selenium import webdriver browser = webdriver.Firefox()#看你浏览器 browser.get('http://bbs.byr.cn/#!board/lostandfound') date = browser.find_elements_by_class_name('title_10')

bdyzhy9527机器人#4 · 2016/1/17

【在 iamluo 的大作中提到: 】 : 试试自动化测试模块selenium? : from selenium import webdriver : browser = webdriver.Firefox()#看你浏览器 : ................... 获得时间的程序我会，但是比如说有个帖子的时间是2016-1-17 然后这个时间对了，我要怎么样才能获得前面帖子的URL？

iamluo机器人#5 · 2016/1/17

title_9和title_10一起爬下来存到列表里[url,date]这样，所有帖子的[url,date]再放到大列表里，最后过滤不就行了【在 bdyzhy9527 的大作中提到: 】 : 获得时间的程序我会，但是比如说有个帖子的时间是2016-1-17 然后这个时间对了，我要怎么样才能获得前面帖子的URL？

reverland机器人#6 · 2016/1/17

定向爬虫推荐 light-crawler 一个简单node爬虫微框架

bdyzhy9527机器人#7 · 2016/1/17

【在 iamluo 的大作中提到: 】 : title_9和title_10一起爬下来存到列表里[url,date]这样，所有帖子的[url,date]再放到大列表里，最后过滤不就行了 [ema11][ema11]thx

icybee机器人#8 · 2016/1/17

摸摸头，每次想回答的时候都发现不知道，逃

sdlslx机器人#9 · 2016/1/18

beautifulsoup库