返回信息流之前的帖子,热心的同学说我没有放爬取的url。我现在就把url和代码全部放上来~~请各位大神帮忙咩~~(卖哥萌)
爬取的url为“http://110.249.223.75:9090/onlinemonitor/”
以下是代码:
#coding=utf-8
import urllib2
import zlib
import cookielib
import urllib
import re
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
CaptchaUrl = "http://110.249.223.75:9090/onlinemonitor/login/getCaptCha.do"
PostUrl="http://110.249.223.75:9090/onlinemonitor/login/login.do"
cookie = cookielib.CookieJar()
handler = urllib2.HTTPCookieProcessor(cookie)
opener = urllib2.build_opener(handler)
username = 'public'
password = '123'
picture = opener.open(CaptchaUrl).read()
local = open('/home/msh/Desktop/msh/bfbl/image.jpg', 'wb')
local.write(picture)
local.close()
SecretCode = raw_input('输入验证码: ')
postData = {
'suLoginid':username,
'suPasswd':password,
'captCha':SecretCode,
}
headers = {
'Accept':'*/*',
'Accept-Encoding':'gzip, deflate',
'Accept-Language':'zh-CN,zh;q=0.9',
'Cache-Control':'no-cache',
'Connection':'keep-alive',
'Content-Length':'49',
'Content-Type':'application/x-www-form-urlencoded; charset=UTF-8',
'Cookie':'JSESSIONID=66E219DA9B704841F638F2E73EF3E224',
'Host':'110.249.223.75:9090',
'Origin':'http://110.249.223.75:9090',
'Pragma':'no-cache',
'Referer':'http://110.249.223.75:9090/onlinemonitor/login.jsp',
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36',
'X-Requested-With':'XMLHttpRequest',
}
data = urllib.urlencode(postData)
request = urllib2.Request(PostUrl, data, headers)
try:
response = opener.open(request)
result = response.read().decode("utf-8")
# decompressed_data = zlib.decompress(result ,16+zlib.MAX_WBITS)
# result1=decompressed_data.decode("utf-8")
# print result1
print result
except urllib2.HTTPError, e:
print e.code
这里解释一下:
*local = open('/home/msh/Desktop/msh/bfbl/image.jpg', 'wb') 因为这个网中总是有验证码,这里是把验证码下载下来放到这个地方,命名为一个image.jpg的文件。,比如放这些代码的文件叫做bfbl.py.我是在linux下面运行的,就输入python bfbl.py,然后就会让你输入验证码,我此时就是打开另外一个终端,到放image.jpg的位置,然后打开图片,记住验证码内容,然后回到原来的终端,输入验证码然后回车。
* # decompressed_data = zlib.decompress(result ,16+zlib.MAX_WBITS)
# result1=decompressed_data.decode("utf-8")
# print result1
这几行是特殊情况要用的,暂时不用管~~
求各位大神帮忙啊啊啊~~~~~~~北邮python学渣求帮忙~~
这是一条镜像帖。来源:北邮人论坛 / python / #21922同步于 2018/5/26
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖
python爬虫问题!{"success":false,"msg":"系统错误!"}
mushroom233
2018/5/26镜像同步22 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
【 在 mushroom233 的大作中提到: 】
: 之前的帖子,热心的同学说我没有放爬取的url。我现在就把url和代码全部放上来~~请各位大神帮忙咩~~(卖哥萌)
: 爬取的url为“http://110.249.223.75:9090/onlinemonitor/”
: 以下是代码:
: ...................
我用postman跑到能通,我猜的啊是Content-Type格式的问题,我用的是.application/x-www-form-urlencoded。
postman是个专门用来爬虫的软件吗?你可以把登录以后源代码下载下来吗?
【 在 wslyh123 (wslyh123) 的大作中提到: 】
: [upload=1][/upload]
: 我用postman跑到能通,我猜的啊是Content-Type格式的问题,我用的是.application/x-www-form-urlencoded。
不是的。只是模拟请求的chrome插件
【 在 mushroom233 的大作中提到: 】
: postman是个专门用来爬虫的软件吗?你可以把登录以后源代码下载下来吗?
咦,不知道你的这个验证码是通过什么操作弄的
【 在 wslyh123 的大作中提到: 】
: [upload=1][/upload]
: 我用postman跑到能通,我猜的啊是Content-Type格式的问题,我用的是.application/x-www-form-urlencoded。
我按照你的换了,结果还是一模一样 {"success":false,"msg":"系统错误!"},我就不贴图片了。
【 在 wslyh123 的大作中提到: 】
: [upload=1][/upload]
: 我用postman跑到能通,我猜的啊是Content-Type格式的问题,我用的是.application/x-www-form-urlencoded。
唉,我也是闲得慌,你上了代码之后我帮你搞定了。希望你以后多多思考吧~
删除headers里面的两行即可:
'Cookie':'JSESSIONID=66E219DA9B704841F638F2E73EF3E224',
'Content-Length':'49',
登陆成功的返回是:
{"success":true,"msg":"登录成功!"}
为什么要删除!!!求告知.
【 在 fuxuemingzhu (意涵团·负雪明烛 http://fuxuemingzhu.me) 的大作中提到: 】
: 唉,我也是闲得慌,你上了代码之后我帮你搞定了。希望你以后多多思考吧~
: 删除headers里面的两行即可:
: ...................
握草.怎么想到的。。。。
【 在 fuxuemingzhu (意涵团·负雪明烛 http://fuxuemingzhu.me) 的大作中提到: 】
: 自己试出来的