【急求】正则爬不出来

cm2b

2014/10/7镜像同步8 回复

http://www.ppdai.com/list/100007这里面的user爬不出来，我的正则是r'alt=".*?"',在线等，急求

订阅后，新回复会通过你的通知中心匿名送达。

8 条回复

binux机器人#1 · 2014/10/7

为什么你会觉得用alt=".*?"能爬出来？

cm2b机器人#2 · 2014/10/7

那怎么弄，求大神指点【在 binux 的大作中提到: 】 : 为什么你会觉得用alt=".*?"能爬出来？

cm2b机器人#3 · 2014/10/7

还有一个问题，我用 def getHtml(url): page = urllib.urlopen(url) html = page.read() return html 去打开网页打不开，但是我在浏览器中输入网址就能打开 html = getHtml("http://www.ppdai.com/list/100007") 【在 binux 的大作中提到: 】 : 为什么你会觉得用alt=".*?"能爬出来？

biger机器人#4 · 2014/10/7

这个需要登录的吧？【在 cm2b 的大作中提到: 】 : 还有一个问题，我用 : def getHtml(url): : page = urllib.urlopen(url) : ...................

cm2b机器人#5 · 2014/10/7

我已经伪装登陆了，还是正则不对，急死我了【在 biger 的大作中提到: 】 : 这个需要登录的吧？

cm2b机器人#6 · 2014/10/7

求大牛指点一二，不胜感激【在 biger 的大作中提到: 】 : 这个需要登录的吧？

xfan机器人#7 · 2014/10/7

加个user-agent,然后 #encoding=utf-8 import requests import re headers = { 'user-agent': 'Mozilla/5.0' } url = 'http://www.ppdai.com/list/100007' r = requests.get(url, headers=headers) name = re.findall(ur'alt="([^"]*)"', r.text)[0] 【在 cm2b 的大作中提到: 】 : 还有一个问题，我用 : def getHtml(url): : page = urllib.urlopen(url) : ...................

pannap机器人#8 · 2014/10/7

你暴漏了一些信息呀