返回信息流如图所示,怎么写正则表达式可以匹配出日期字段啊 ,比如
<li tag="show_26" style="display:none;"><a
href="/Price/List?marketID=270&year=2011&month=9&day=23"
target="_blank"><span>[2011-9-23]</span>价格行情</a> </li>
里的[2011-9-23]
这是一条镜像帖。来源:北邮人论坛 / python / #14225同步于 2016/5/19
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖
问一个爬虫的问题
nalanding
2016/5/19镜像同步13 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
发图不成功,就贴在下面吧
<li tag="show_26" style="display:none;"><a
href="/Price/List?marketID=270&year=2011&month=9&day=28"
target="_blank"><span>[2011-9-28]</span>价格行情</a> </li>
<li tag="show_26" style="display:none;"><a
href="/Price/List?marketID=270&year=2011&month=9&day=27"
target="_blank"><span>[2011-9-27]</span>价格行情</a> </li>
<li tag="show_26" style="display:none;"><a
href="/Price/List?marketID=270&year=2011&month=9&day=25"
target="_blank"><span>[2011-9-25]</span>价格行情</a> </li>
<li tag="show_26" style="display:none;"><a
href="/Price/List?marketID=270&year=2011&month=9&day=23"
target="_blank"><span>[2011-9-23]</span>价格行情</a> </li>
<li tag="show_26" style="display:none;"><a
href="/Price/List?marketID=270&year=2011&month=9&day=20"
target="_blank"><span>[2011-9-20]</span>价格行情</a> </li>
<li tag="show_26" style="display:none;"><a
href="/Price/List?marketID=270&year=2011&month=9&day=14"
target="_blank"><span>[2011-9-14]</span>价格行情</a> </li>
<li tag="show_26" style="display:none;"><a
href="/Price/List?marketID=270&year=2011&month=9&day=13"
target="_blank"><span>[2011-9-13]</span>价格行情</a> </li>
下面是我自己写的一个,并不能得出什么结果
pattern = re.compile('<li tag="show_26".*?<span>[(.*?)]</span>', re.S)
items = re.findall(pattern,content)
print 'items的长度:',len(items)
你可以先把span里的取出来。。比如说scrapy中
info = response.xpath('//li[@tag="show_26"]/a/span').extract()[0]
date = re.split("-", info.lstrip('[').rstrip(']'))
是取<span>下的日期?re.compile(<span>(\d{4}\-\d{2}\-\d{2})<\/span>),正则拿到后去除“-“?,不懂帮顶
是日期 re.compile('\[\d(4)-\d*-\d*\])
【 在 KillerDeath (KillerDeath) 的大作中提到: 】
: 是取<span>下的日期?re.compile(<span>(\d{4}\-\d{2}\-\d{2})<\/span>),正则拿到后去除“-“?,不懂帮顶
通过『我邮2.0』发布
正解
【 在 moonfighting (【意涵团】 ) 的大作中提到: 】
: patt = re.compile('.*<span>\[(.*)\]</span>.*')
通过『我邮2.0』发布