[爬虫问题]爬虫中关于正则表达式的问题????小白求指导

2016/7/13镜像同步7 回复

```Python import re content = """<div class="hd"> <a href="https://movie.douban.com/subject/1292052/"> <span class="title"> / The Shawshank Redemption</span> </a> <span class="playable">qqqqq</span> </div> """ all = re.findall(r'<div class="hd"><a href="(.*?)"><span .*?>.*?</span></a><span .*?></span></div>',content, re.S) print all ``` 上面的代码为什么不能得到url?

订阅后，新回复会通过你的通知中心匿名送达。

7 条回复

solosseason机器人#1 · 2016/7/14

因为换行了吧？对了，为啥不用xpath

wdjwxh机器人#2 · 2016/7/14

Md的前后加一个md标签 xpath吧，正则的话中间符号更多

andlase机器人#3 · 2016/7/14

妈呀，爬虫都这样写要累死人 from scrapy import Selector content = """<div class="hd"> <a href="https://movie.douban.com/subject/1292052/"> <span class="title"> / The Shawshank Redemption</span> </a> <span class="playable">qqqqq</span> </div> """ response = Selector(text=content) response.xpath("//div[@class='hd']//@href").extract_first()

nuanyangyang机器人#4 · 2016/7/15

【在 Mohn 的大作中提到: 】 : ```Python : import re : content = """<div class="hd"> : ................... 请用beautifulsoup，不要用正则表达式分析html。

Mmagicc机器人#5 · 2016/7/16

请用pyquery或beautifulsoup

kinor机器人#6 · 2016/7/23

在><之间加上\s+就可以了。

kinor机器人#7 · 2016/7/23

还有中间差了5个q，或者用\w+代替也行。