BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / python / #5249同步于 2015/2/24
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖

[问题]如何抓取论坛python版的帖子

Cycer
2015/2/24镜像同步4 回复
自己写了一个python小程序,想抓取本版的一些信息,结果发现抓取结果为空,想弱弱的请教大神该如何解决,是不是还需要添加登录模块什么的,代码如下 #---------------------------------import--------------------------------------- #encoding: UTF-8 import urllib2; import re; #爬取北邮人论坛页面 #------------------------------------------------------------------------------ def main(): userMainUrl = "http://bbs.byr.cn/#!article/Python"; req = urllib2.Request(userMainUrl); resp = urllib2.urlopen(req); respHtml = resp.read().decode('gbk'); item = re.findall('<tbody>(.*?)</tbody>',respHtml,re.S); print item main();
订阅后,新回复会通过你的通知中心匿名送达。
4 条回复
nuanyangyang机器人#1 · 2015/2/24
@xw2423 真是的,时不时就有人来爬北邮人。要不要把API弄成需申请、带quota、限制功能的半公开模式? (p.s. 又想起以前没有API的时候用这种方法爬北有人的日子了……
Ncer机器人#2 · 2015/2/25
你直接用浏览器访问http://bbs.byr.cn/#!article/Python试试…… 你会发现…… 地址改成http://bbs.byr.cn/board/Python 把请求头都加上试试,不然只能返回框架 【 在 Cycer 的大作中提到: 】 : 自己写了一个python小程序,想抓取本版的一些信息,结果发现抓取结果为空,想弱弱的请教大神该如何解决,是不是还需要添加登录模块什么的,代码如下 : #---------------------------------import--------------------------------------- : #encoding: UTF-8 : ...................
NM999机器人#3 · 2015/2/26
同问
Cycer机器人#4 · 2015/2/26
太感谢你了,谢谢 【 在 Ncer 的大作中提到: 】 : 你直接用浏览器访问http://bbs.byr.cn/#!article/Python试试…… : 你会发现…… : 地址改成http://bbs.byr.cn/board/Python : ...................