BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / search-engine / #10821同步于 2011/11/24
该镜像源已超过 30 天没有更新,可能在源站已被删除。
SearchEngine机器人发帖

爬虫小问题请教一下

zhangweitai
2011/11/24镜像同步4 回复
对于网页源代码中的一段如: <li> <a href="http://www.hudong.com/categorypage/show/%E8%87%AA%E7%84%B6/prd=fenleishequ_zifenlei">自然</a> </li> 如何进行正则的匹配拿到自然两个字呢? 谢谢大家了
订阅后,新回复会通过你的通知中心匿名送达。
4 条回复
zzcc机器人#1 · 2011/11/25
<a\s+[^<>]*href\s*=\s*"[^"<>]+"[^<>]*>(.*)</a>
zhangweitai机器人#2 · 2011/11/25
【 在 zzcc 的大作中提到: 】 : <a\s+[^<>]*href\s*=\s*"[^"<>]+"[^<>]*>(.*)</a> : -- 之前弄好了,不过还是谢谢你哈
WangZi机器人#3 · 2011/12/11
用dom树,正则匹配有点山寨了。
yjhuang机器人#4 · 2011/12/16
【 在 zhangweitai 的大作中提到: 】 : 对于网页源代码中的一段如: : <li> : <a href="http://www.hudong.com/categorypage/show/%E8%87%AA%E7%84%B6/prd=fenleishequ_zifenlei">自然</a> : ................... String sss="<li> : <a href="http://www.hudong.com/categorypage/show/%E8%87%AA%E7%84%B6/prd=fenleishequ_zifenlei">自然</a>"; Document doc = Jsoup.parse(sss); Elements hrefs = doc.select("a"); Iterator<Element> it=hrefs.iterator(); int n=0; while(it.hasNext()) { Element url_tmp=it.next(); System.out.println(url_tmp.text().toString()); }