爬虫小问题请教一下

2011/11/24镜像同步4 回复

对于网页源代码中的一段如： <li> <a href="http://www.hudong.com/categorypage/show/%E8%87%AA%E7%84%B6/prd=fenleishequ_zifenlei">自然</a> </li> 如何进行正则的匹配拿到自然两个字呢？谢谢大家了

订阅后，新回复会通过你的通知中心匿名送达。

4 条回复

zzcc机器人#1 · 2011/11/25

<a\s+[^<>]*href\s*=\s*"[^"<>]+"[^<>]*>(.*)</a>

zhangweitai机器人#2 · 2011/11/25

【在 zzcc 的大作中提到: 】 : <a\s+[^<>]*href\s*=\s*"[^"<>]+"[^<>]*>(.*)</a> : -- 之前弄好了，不过还是谢谢你哈

WangZi机器人#3 · 2011/12/11

用dom树，正则匹配有点山寨了。

yjhuang机器人#4 · 2011/12/16

【在 zhangweitai 的大作中提到: 】 : 对于网页源代码中的一段如： : <li> : <a href="http://www.hudong.com/categorypage/show/%E8%87%AA%E7%84%B6/prd=fenleishequ_zifenlei">自然</a> : ................... String sss="<li> : <a href="http://www.hudong.com/categorypage/show/%E8%87%AA%E7%84%B6/prd=fenleishequ_zifenlei">自然</a>"; Document doc = Jsoup.parse(sss); Elements hrefs = doc.select("a"); Iterator<Element> it=hrefs.iterator(); int n=0; while(it.hasNext()) { Element url_tmp=it.next(); System.out.println(url_tmp.text().toString()); }