返回信息流自己写了一个python小程序,想抓取本版的一些信息,结果发现抓取结果为空,想弱弱的请教大神该如何解决,是不是还需要添加登录模块什么的,代码如下
#---------------------------------import---------------------------------------
#encoding: UTF-8
import urllib2;
import re;
#爬取北邮人论坛页面
#------------------------------------------------------------------------------
def main():
userMainUrl = "http://bbs.byr.cn/#!article/Python";
req = urllib2.Request(userMainUrl);
resp = urllib2.urlopen(req);
respHtml = resp.read().decode('gbk');
item = re.findall('<tbody>(.*?)</tbody>',respHtml,re.S);
print item
main();
这是一条镜像帖。来源:北邮人论坛 / python / #5249同步于 2015/2/24
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖
[问题]如何抓取论坛python版的帖子
Cycer
2015/2/24镜像同步4 回复
订阅后,新回复会通过你的通知中心匿名送达。
4 条回复
@xw2423 真是的,时不时就有人来爬北邮人。要不要把API弄成需申请、带quota、限制功能的半公开模式?
(p.s. 又想起以前没有API的时候用这种方法爬北有人的日子了……
你直接用浏览器访问http://bbs.byr.cn/#!article/Python试试……
你会发现……
地址改成http://bbs.byr.cn/board/Python
把请求头都加上试试,不然只能返回框架
【 在 Cycer 的大作中提到: 】
: 自己写了一个python小程序,想抓取本版的一些信息,结果发现抓取结果为空,想弱弱的请教大神该如何解决,是不是还需要添加登录模块什么的,代码如下
: #---------------------------------import---------------------------------------
: #encoding: UTF-8
: ...................
太感谢你了,谢谢
【 在 Ncer 的大作中提到: 】
: 你直接用浏览器访问http://bbs.byr.cn/#!article/Python试试……
: 你会发现……
: 地址改成http://bbs.byr.cn/board/Python
: ...................