返回信息流我想爬取拍拍贷上的用户数据,做实证分析。
开始界面是这样的,如图。
然后我要用他们的用户信息,如下图
我尝试在在网上学的scrapy框架做,但是域名解析这块,我还是无法实现翻页。
代码真的很渣,希望能有大神来指点迷津。
下面是我写的spider的那个文件。
另外,我是要写论文的,所以,此贴可以是有偿求助,只要能拿到数据,必有重谢!
# -*- coding: utf-8 -*-
from scrapy.selector import Selector
from scrapy.contrib.spiders import CrawlSpider,Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from paipaidai.items import PaipaidaiItem
class PaipaidaiSpider(CrawlSpider):
name="paipaidai"
allowed_domains=["www.ppdai.com"]
start_urls=["http://invest.ppdai.com/loan/list"]
rules=[
Rule(SgmlLinkExtractor(allow=(r'http://invest/ppdai/com/loan/list_safe_s0_p\d+?Rate=0',))),
Rule(SgmlLinkExtractor(allow=('http://www/ppdai/com/user/'),restrict_xpaths=('//p[@class="userInfo clearfix"]')),callback="parse_item",follow=True)
]
def parse_item(self,response):
sel=Selector(response)
item=PaipaidaiItem()
item['name']=sel.xpath('//*[@class="user-name"]/a/text()').extract()
return item
这是一条镜像帖。来源:北邮人论坛 / python / #11706同步于 2016/1/19
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖
论文爬虫求指导!!可有偿,可请客
liuxinxin
2016/1/19镜像同步12 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
http://invest.ppdai.com/loan/list_safe_s0_p<页数>?Rate=0 直接用这个链接生成request给框架去crawl不就翻页了吗
这么简单?求详细
【 在 wanghaohebe 的大作中提到: 】
: http://invest.ppdai.com/loan/list_safe_s0_p<页数>?Rate=0 直接用这个链接生成request给框架去crawl不就翻页了吗
def parse(self, response):
pagesize = 10
for i in range(pagesize):
href = 'http://invest.ppdai.com/loan/list_safe_s0_p%d?Rate=0' % i
from scrapy import Request
request = Request(href, self.parse_item)
yield request
你试试