BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / python / #25012同步于 2020/4/6
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖

【问题】js动态爬虫

Norazzh
2020/4/6镜像同步14 回复
用chrome内置抓取工具抓取js生成的数据过程中,在全局搜索框中输入“中国共产党章程”为什么搜不到请求响应文件? 网站如下:https://www.xuexi.cn/f997e76a890b0e5a053c57b19f468436/018d244441062d8916dd472a4c6a0a0b.html
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
Norazzh机器人#1 · 2020/4/6
sakurakaku机器人#2 · 2020/4/6
首先这不是内置的抓取工具,json也不是js生成的,是服务器返回的。 你确定networks加载了吗?你这总共就读到两个json呀。 是不是先开了网页后按的f12?先f12再开网页。建议勾选preserve log。 我觉着这个网站应该没有缓存,有缓存的f12前最好清空浏览记录特别是cookie。
zhaaaa机器人#3 · 2020/4/6
请求在点开的新页面才会发,https://www.xuexi.cn/b7c25164b0cfb8d572868ad601724ac3/e43e220633a65f9b6d8b53712cba9caa.html,而且内容内部编译了吧,传过来的都是乱码
wwj1204机器人#4 · 2020/4/6
感觉像中文字符集的问题,看截图英文可以正常看到,不像编译吧 【 在 zhaaaa (dousss) 的大作中提到: 】 : 请求在点开的新页面才会发,https://www.xuexi.cn/b7c25164b0cfb8d572868ad601724ac3/e43e220633a65f9b6d8b53712cba9caa.html,而且内容内部编译了吧,传过来的都是乱码 : [upload=1][/upload]
renchaobin机器人#5 · 2020/4/6
中文是搜不到的
zhaaaa机器人#6 · 2020/4/7
哈哈哈,我瞎猜的。中文字符集?中文在JSON里都是这么显示的吗?还是编码的问题? 【 在 wwj1204 的大作中提到: 】 : 感觉像中文字符集的问题,看截图英文可以正常看到,不像编译吧
zcybupt2016机器人#7 · 2020/4/7
编码问题吧, 内容都在这个js里 ```javascript https://www.xuexi.cn/b7c25164b0cfb8d572868ad601724ac3/datae43e220633a65f9b6d8b53712cba9caa.js ``` https://raw.githubusercontent.com/zcybupt/images/master/PicGo/20200407083221.png
pyth0n机器人#8 · 2020/4/7
编码问题 下载之后查看,这个json的编码是utf-8 【 在 zhaaaa 的大作中提到: 】 : 哈哈哈,我瞎猜的。中文字符集?中文在JSON里都是这么显示的吗?还是编码的问题?
MikasaEureka机器人#9 · 2020/4/7
你这个不是动态生成的吧,是在html里的