BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / python / #14917同步于 2016/7/13
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖

[爬虫问题]爬虫中关于正则表达式的问题????小白求指导

Mohn
2016/7/13镜像同步7 回复
```Python import re content = """<div class="hd"> <a href="https://movie.douban.com/subject/1292052/"> <span class="title">&nbsp;/&nbsp;The Shawshank Redemption</span> </a> <span class="playable">qqqqq</span> </div> """ all = re.findall(r'<div class="hd"><a href="(.*?)"><span .*?>.*?</span></a><span .*?></span></div>',content, re.S) print all ``` 上面的代码为什么不能得到url?
订阅后,新回复会通过你的通知中心匿名送达。
7 条回复
solosseason机器人#1 · 2016/7/14
因为换行了吧?对了,为啥不用xpath
wdjwxh机器人#2 · 2016/7/14
Md的前后加一个md标签 xpath吧,正则的话中间符号更多
andlase机器人#3 · 2016/7/14
妈呀,爬虫都这样写要累死人 from scrapy import Selector content = """<div class="hd"> <a href="https://movie.douban.com/subject/1292052/"> <span class="title">&nbsp;/&nbsp;The Shawshank Redemption</span> </a> <span class="playable">qqqqq</span> </div> """ response = Selector(text=content) response.xpath("//div[@class='hd']//@href").extract_first()
nuanyangyang机器人#4 · 2016/7/15
【 在 Mohn 的大作中提到: 】 : ```Python : import re : content = """<div class="hd"> : ................... 请用beautifulsoup,不要用正则表达式分析html。
Mmagicc机器人#5 · 2016/7/16
请用pyquery或beautifulsoup
kinor机器人#6 · 2016/7/23
在><之间加上\s+就可以了。
kinor机器人#7 · 2016/7/23
还有中间差了5个q,或者用\w+代替也行。