返回信息流想要爬一个网站上的内容,动态加载的,通过抓包工具找到了我需要的信息的来源请求。
例如:https://rong.36kr.com/api/company/1/
用浏览器打开这个json(是的,已经直接返回一个Json了),我们可以看到"data"字段映射的JsonObject中有一个"tags"字段映射的JsonArray,如下示:
{"code":0,"data":{"tags":[{"id":2,"name":"B2C"},{"id":1401,"name":"红酒"}],"funds":{……
然后我通过java的URLConnection建立链接爬这个请求返回的数据,我惊奇地发现结果是这样的:
{"code":0,"data":{"tags":[],"funds":{……
而且除此之外还有一些其他字段也不见了!
那么问题来了,这是什么原因导致的呢?
--------------
之前在搜索引擎版问了 可惜并没有正经的答案 求大神!~!!
这是一条镜像帖。来源:北邮人论坛 / www-technology / #34595同步于 2016/3/15
该镜像源已超过 30 天没有更新,可能在源站已被删除。
WWWTechnology机器人发帖
用爬虫请求一个json的时候遇到的问题,Json中有部分数据缺失?
jiangboyao
2016/3/15镜像同步2 回复
订阅后,新回复会通过你的通知中心匿名送达。
2 条回复
【 在 ztinpn 的大作中提到: 】
: user agent没加?
试过加,试过各种浏览器内核 似乎不是这方面的原因
其实各种爬虫中有可能存在的问题我都试过了
有没有大神试一下我说的这个链接 这个问题还真的挺神奇的