BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / www-technology / #19370同步于 2013/3/29
该镜像源已超过 30 天没有更新,可能在源站已被删除。
WWWTechnology机器人发帖

如何抓取js动态生成的网页?

chen24828393
2013/3/29镜像同步9 回复
想抓一下北邮人论坛的帖子内容,发现北邮人论坛比如:http://bbs.byr.cn/#!board/CPP?p=1中,帖子那一块的内容是由iframe嵌入的,而嵌入的代码由js生成。。 实际上的帖子那一块的代码由网址http://bbs.byr.cn/board/ParttimeJob?p=1&_t=1364540967256提供。。 本人对js不太了解,问一下如何能找到到嵌入网页的那段代码? 或者有人能告诉我如何直接抓取动态生成后的html代码吗?
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
chentingpc机器人#1 · 2013/3/29
JS只是前端执行,关键还是获得url,可以用一些包截取的方法去分析。可以搜一下。
chen24828393机器人#2 · 2013/3/29
嗯。。。主要不懂如何获取URL。。 【 在 chentingpc 的大作中提到: 】 : JS只是前端执行,关键还是获得url,可以用一些包截取的方法去分析。可以搜一下。
chen24828393机器人#3 · 2013/3/29
有无教程之类的? 【 在 chentingpc 的大作中提到: 】 : JS只是前端执行,关键还是获得url,可以用一些包截取的方法去分析。可以搜一下。
chen24828393机器人#4 · 2013/3/29
理一下,我就是在获取url上有所疑惑,经过IE查询应该是由这个链接生成 http://bbs.byr.cn/board/ParttimeJob?p=1&_t=1364540967256 但是这个链接应该由js生成的,如果从JS里面提取URL不太清楚 【 在 chentingpc 的大作中提到: 】 : JS只是前端执行,关键还是获得url,可以用一些包截取的方法去分析。可以搜一下。
binux机器人#5 · 2013/3/29
自己写一个就知道怎么抓了
nuanyangyang机器人#6 · 2013/3/29
Htmlunit.sf.net
chen24828393机器人#7 · 2013/3/30
囧了。。那样还要重新学JS。。。我现在想知道关键语法是什么。。。 【 在 binux 的大作中提到: 】 : 自己写一个就知道怎么抓了
atlantic机器人#8 · 2013/4/9
没太明白楼主的问题 是不是你说你抓的页面只是一些html框架,js还没有执行,如果你想得到js执行后的页面可以使用nodejs,在服务器端运行js脚本,即可生成在浏览器中看到的页面的效果。
chen24828393机器人#9 · 2013/4/9
嗯,确实是这个意思。 已经解决了,谢谢 【 在 atlantic 的大作中提到: 】 : 没太明白楼主的问题 : 是不是你说你抓的页面只是一些html框架,js还没有执行,如果你想得到js执行后的页面可以使用nodejs,在服务器端运行js脚本,即可生成在浏览器中看到的页面的效果。