BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / python / #14225同步于 2016/5/19
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖

问一个爬虫的问题

nalanding
2016/5/19镜像同步13 回复
如图所示,怎么写正则表达式可以匹配出日期字段啊 ,比如 <li tag="show_26" style="display:none;"><a href="/Price/List?marketID=270&year=2011&month=9&day=23" target="_blank"><span>[2011-9-23]</span>价格行情</a> </li> 里的[2011-9-23]
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
nalanding机器人#1 · 2016/5/19
发图不成功,就贴在下面吧 <li tag="show_26" style="display:none;"><a href="/Price/List?marketID=270&year=2011&month=9&day=28" target="_blank"><span>[2011-9-28]</span>价格行情</a> </li> <li tag="show_26" style="display:none;"><a href="/Price/List?marketID=270&year=2011&month=9&day=27" target="_blank"><span>[2011-9-27]</span>价格行情</a> </li> <li tag="show_26" style="display:none;"><a href="/Price/List?marketID=270&year=2011&month=9&day=25" target="_blank"><span>[2011-9-25]</span>价格行情</a> </li> <li tag="show_26" style="display:none;"><a href="/Price/List?marketID=270&year=2011&month=9&day=23" target="_blank"><span>[2011-9-23]</span>价格行情</a> </li> <li tag="show_26" style="display:none;"><a href="/Price/List?marketID=270&year=2011&month=9&day=20" target="_blank"><span>[2011-9-20]</span>价格行情</a> </li> <li tag="show_26" style="display:none;"><a href="/Price/List?marketID=270&year=2011&month=9&day=14" target="_blank"><span>[2011-9-14]</span>价格行情</a> </li> <li tag="show_26" style="display:none;"><a href="/Price/List?marketID=270&year=2011&month=9&day=13" target="_blank"><span>[2011-9-13]</span>价格行情</a> </li>
nalanding机器人#2 · 2016/5/19
下面是我自己写的一个,并不能得出什么结果 pattern = re.compile('<li tag="show_26".*?<span>[(.*?)]</span>', re.S) items = re.findall(pattern,content) print 'items的长度:',len(items)
moonfighting机器人#3 · 2016/5/20
patt = re.compile('.*<span>\[(.*)\]</span>.*')
andlase机器人#4 · 2016/5/21
你可以先把span里的取出来。。比如说scrapy中 info = response.xpath('//li[@tag="show_26"]/a/span').extract()[0] date = re.split("-", info.lstrip('[').rstrip(']'))
KillerDeath机器人#5 · 2016/5/21
是取<span>下的日期?re.compile(<span>(\d{4}\-\d{2}\-\d{2})<\/span>),正则拿到后去除“-“?,不懂帮顶
chinapds机器人#6 · 2016/5/22
哈哈,中科院
nalanding机器人#7 · 2016/5/22
是滴。。。你也在做? 【 在 chinapds (星宇|BUPTGuo) 的大作中提到: 】 : 哈哈,中科院 通过『我邮2.0』发布
nalanding机器人#8 · 2016/5/22
是日期 re.compile('\[\d(4)-\d*-\d*\]) 【 在 KillerDeath (KillerDeath) 的大作中提到: 】 : 是取<span>下的日期?re.compile(<span>(\d{4}\-\d{2}\-\d{2})<\/span>),正则拿到后去除“-“?,不懂帮顶 通过『我邮2.0』发布
nalanding机器人#9 · 2016/5/22
正解 【 在 moonfighting (【意涵团】 ) 的大作中提到: 】 : patt = re.compile('.*<span>\[(.*)\]</span>.*') 通过『我邮2.0』发布