BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / python / #11644同步于 2016/1/17
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖

小白做爬虫求教

bdyzhy9527
2016/1/17镜像同步10 回复
最近刚学爬虫,想做一个能爬取当天论坛失物招领信息 但是不知道怎么只把当天的失物招领信息找出来。。。 我一开始想的是用正则表达式 找到所有title-10所对的日期 然后如果和当前日期一样就把前面的URL添加到爬虫里 所有帖子都在tr里面的td 然后好像长得都一样不知道该怎么办了。。。 求大神教[ema11][ema11][ema11]
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
stevesasuke机器人#1 · 2016/1/17
beautifulsoup... 不过我还是安利你一下 nodejs 吧~= ̄ω ̄=~
bdyzhy9527机器人#2 · 2016/1/17
【 在 stevesasuke 的大作中提到: 】 : beautifulsoup... : 不过我还是安利你一下 nodejs 吧~= ̄ω ̄=~ 我是看着视频学的。。。 并不知道太多。。。
iamluo机器人#3 · 2016/1/17
试试自动化测试模块selenium? from selenium import webdriver browser = webdriver.Firefox()#看你浏览器 browser.get('http://bbs.byr.cn/#!board/lostandfound') date = browser.find_elements_by_class_name('title_10')
bdyzhy9527机器人#4 · 2016/1/17
【 在 iamluo 的大作中提到: 】 : 试试自动化测试模块selenium? : from selenium import webdriver : browser = webdriver.Firefox()#看你浏览器 : ................... 获得时间的程序我会,但是比如说有个帖子的时间是2016-1-17 然后这个时间对了,我要怎么样才能获得前面帖子的URL?
iamluo机器人#5 · 2016/1/17
title_9和title_10一起爬下来存到列表里[url,date]这样,所有帖子的[url,date]再放到大列表里,最后过滤不就行了 【 在 bdyzhy9527 的大作中提到: 】 : 获得时间的程序我会,但是比如说有个帖子的时间是2016-1-17 然后这个时间对了,我要怎么样才能获得前面帖子的URL?
reverland机器人#6 · 2016/1/17
定向爬虫推荐 light-crawler 一个简单node爬虫微框架
bdyzhy9527机器人#7 · 2016/1/17
【 在 iamluo 的大作中提到: 】 : title_9和title_10一起爬下来存到列表里[url,date]这样,所有帖子的[url,date]再放到大列表里,最后过滤不就行了 [ema11][ema11]thx
icybee机器人#8 · 2016/1/17
摸摸头,每次想回答的时候都发现不知道,逃
sdlslx机器人#9 · 2016/1/18
beautifulsoup库