返回信息流连续两天十大实在是很不好意思,本来就只是自己随手写的东西放出来也就是跟大家一起分享一下CODING的乐趣,没有其他的意图= =。。至于为什么选择推女郎,其实是这样的:本来想着跟着前辈写一个淘女郎图集的爬虫,结果发现多爬几次就要经过淘宝的登录验证,而作为一个新手这点还是有点困难的,于是就想着看看能否爬一个简单的,随手翻着翻到推女郎发现挺简单于是就这么写出来了。
然后这份代码是最早最初的版本,就是能够实现爬取功能。但是代码不够漂亮,效率也不够高,这是应该改进的部分而这两天也在稍微休整了。另外感谢回复的小伙伴提的好建议,我会好好采纳的
练练手的东西,实在不值一提哈哈哈~人生苦短,我用PYTHON~
=====
感觉大家都只关注在结果了哈哈哈,其实我只是拿来练练手的,我是比较享受过程的哈哈哈
===========
之间看到前辈写的一个淘女郎的图集的爬虫觉得挺好玩的,遂自己动手学着写了一个爬推女郎图集的爬虫。~。~没想到就成功了呢。。。
该爬虫功能:能抓取推女郎期数,名字,以及该期数下在官网给出的所有预览图并逐一命名。
预览图:
该爬虫可改进的地方:最初的想法是给每个推女郎建个以她名字命名的文件夹,然后把照片放到各自的文件夹里。后来这点我暂时做不到。urlretrieve也没办法输出到中文命名的目录。然后是模特名字匹配的问题,用正则表达式匹配始终会出问题,只能用切片的方式来锁定,但是这样导致代码就稍微长了点。应该还能更简单点。【5.14更新,这几点已经都能实现。】
另外:该爬虫输出的目录自己可以修改,然后某些期数与某些模特的名字由于网站里没有写出或者位置不遵循规律的原因并不能和其他的一样,这点是特殊情况但是属于个别可以忽略。
作为一个新手有些地方写地还是有点丑的,望前辈们见谅与指点指点~!
代码如下:
# -*- coding: utf-8 -*-
import urllib2,urllib,re
tmmurl ="http://www.rouruan.com/models/mdown/"
i = 3
while i<68:
url = tmmurl + str(i)
up = urllib2.urlopen(url)
cont = up.read()
cont = cont.decode('UTF-8')
reg = r'src="(.uploads.+?\.jpg)" class'
imgre = re.compile(reg)
imglist = re.findall(imgre, cont)
mdnh="""xjt_p4">"""
mdnt="</h1>"
mnh = cont.find(mdnh)
mnt = cont.find(mdnt, mnh)
mn = cont[mnh:mnt+len(mdnt)]
md_nh="<h1>"
md_nt="</h1>"
m_nh = mn.find(md_nh)
m_nt = mn.find(md_nt, m_nh)
m_n = mn[m_nh+len(md_nh):m_nt]
numreg = r'href="#">TuiGirl.+?(\d+).+?/a'
numre = re.compile(numreg)
numlist = re.findall(numre, cont)
if len(numlist)!=0:
number = numlist[0]
else:
number = 1
x=0
for imgurl in imglist:
urllib.urlretrieve("http://www.rouruan.com"+imgurl,"F:\\tuigirl\\"+str(number)+"-"+m_n+str(x)+".jpg")
x+=1
i +=1
这是一条镜像帖。来源:北邮人论坛 / python / #6763同步于 2015/5/12
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖
我也写个爬虫试试看= =(推女郎图集试爬~!)
PiEgg
2015/5/12镜像同步102 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
,,,
【 在 PiEgg (皮蛋││八闽玲珑││独立开发) 的大作中提到: 】
: 之间看到前辈写的一个淘女郎的图集的爬虫觉得挺好玩的,遂自己动手学着写了一个爬推女郎图集的爬虫。~。~没想到就成功了呢。。。
: 该爬虫功能:能抓取推女郎期数,名字,以及该期数下在官网给出的所有预览图并逐一命名。
: 预览图:
: ...................
【 在 PiEgg 的大作中提到: 】
: 之间看到前辈写的一个淘女郎的图集的爬虫觉得挺好玩的,遂自己动手学着写了一个爬推女郎图集的爬虫。~。~没想到就成功了呢。。。
: 该爬虫功能:能抓取推女郎期数,名字,以及该期数下在官网给出的所有预览图并逐一命名。
: 预览图:
: ...................
挺好的,太赞了~~~~
【 在 PiEgg (皮蛋││八闽玲珑││独立开发) 的大作中提到: 】
: 之间看到前辈写的一个淘女郎的图集的爬虫觉得挺好玩的,遂自己动手学着写了一个爬推女郎图集的爬虫。~。~没想到就成功了呢。。。
: 该爬虫功能:能抓取推女郎期数,名字,以及该期数下在官网给出的所有预览图并逐一命名。
: 预览图:
: ...................
通过『我邮2.0』发布