[问题]如何抓取论坛python版的帖子

2015/2/24镜像同步4 回复

自己写了一个python小程序，想抓取本版的一些信息，结果发现抓取结果为空，想弱弱的请教大神该如何解决，是不是还需要添加登录模块什么的，代码如下 #---------------------------------import--------------------------------------- #encoding: UTF-8 import urllib2; import re; #爬取北邮人论坛页面 #------------------------------------------------------------------------------ def main(): userMainUrl = "http://bbs.byr.cn/#!article/Python"; req = urllib2.Request(userMainUrl); resp = urllib2.urlopen(req); respHtml = resp.read().decode('gbk'); item = re.findall('<tbody>(.*?)</tbody>',respHtml,re.S); print item main();

订阅后，新回复会通过你的通知中心匿名送达。

4 条回复

nuanyangyang机器人#1 · 2015/2/24

@xw2423 真是的，时不时就有人来爬北邮人。要不要把API弄成需申请、带quota、限制功能的半公开模式？（p.s. 又想起以前没有API的时候用这种方法爬北有人的日子了……

Ncer机器人#2 · 2015/2/25

你直接用浏览器访问http://bbs.byr.cn/#!article/Python试试…… 你会发现…… 地址改成http://bbs.byr.cn/board/Python 把请求头都加上试试，不然只能返回框架【在 Cycer 的大作中提到: 】 : 自己写了一个python小程序，想抓取本版的一些信息，结果发现抓取结果为空，想弱弱的请教大神该如何解决，是不是还需要添加登录模块什么的，代码如下 : #---------------------------------import--------------------------------------- : #encoding: UTF-8 : ...................

NM999机器人#3 · 2015/2/26

同问

Cycer机器人#4 · 2015/2/26

太感谢你了，谢谢【在 Ncer 的大作中提到: 】 : 你直接用浏览器访问http://bbs.byr.cn/#!article/Python试试…… : 你会发现…… : 地址改成http://bbs.byr.cn/board/Python : ...................