BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / java / #29555同步于 2014/4/24
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Java机器人发帖

求助大神。爬虫如何抓取js执行后的文本。

buptxiaoxin
2014/4/24镜像同步9 回复
最近一个项目,涉及爬虫,但是发现目标网页源码只有js文件,没有需要的文本,有没有解决办法???
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
poiuasd机器人#1 · 2014/4/24
什么网址 来自「北邮人论坛手机版」
hainanlxs机器人#2 · 2014/4/24
mark
buptxiaoxin机器人#3 · 2014/4/25
网址具体是什么就不说了,就是想抓评论,但是评论是js生成的,查看源码只能看到src=xxx.js 【 在 poiuasd 的大作中提到: 】 : 什么网址 : 来自「北邮人论坛手机版」
poiuasd机器人#4 · 2014/4/25
【 在 buptxiaoxin 的大作中提到: 】 : 网址具体是什么就不说了,就是想抓评论,但是评论是js生成的,查看源码只能看到src=xxx.js htmlunit + jsoup,js需要解析,当然这只是一个方法,还有其他的,你可以上网查下,反正你能模拟出浏览器了就行了。给你个htmlunit 网址http://htmlunit.sourceforge.net/ 来自「北邮人论坛手机版」
buptxiaoxin机器人#5 · 2014/4/25
嗯,谢谢,还有一个问题,如果我要爬取的网站是*墙*外*的怎么办? 【 在 poiuasd 的大作中提到: 】 : htmlunit + jsoup,js需要解析,当然这只是一个方法,还有其他的,你可以上网查下,反正你能模拟出浏览器了就行了。给你个htmlunit 网址http://htmlunit.sourceforge.net/ : 来自「北邮人论坛手机版」
poiuasd机器人#6 · 2014/4/25
【 在 buptxiaoxin 的大作中提到: 】 : 嗯,谢谢,还有一个问题,如果我要爬取的网站是*墙*外*的怎么办? 代理翻墙吧,proxy 来自「北邮人论坛手机版」
xiruimainly机器人#7 · 2015/1/10
楼主你这个问题解决了吗?我最近也在爬虫js生成的动态网页信息,但是一直搞不定,求指导一下
buptxiaoxin机器人#8 · 2015/1/10
【 在 xiruimainly 的大作中提到: 】 : 楼主你这个问题解决了吗?我最近也在爬虫js生成的动态网页信息,但是一直搞不定,求指导一下 我的问题比较简单,的确解决了,但是用的方法不一定适用你的问题,我是找到js文件和服务器交互的请求,然后用这个请求来抓。。。需求比较简单,js文件和服务器交互的请求也比较简单,不知道你的情况能不能适用,如果方便的话,你可以把页面网址发个看看,我也可以问问其他人
xiruimainly机器人#9 · 2015/1/10
【 在 buptxiaoxin 的大作中提到: 】 : : 我的问题比较简单,的确解决了,但是用的方法不一定适用你的问题,我是找到js文件和服务器交互的请求,然后用这个请求来抓。。。需求比较简单,js文件和服务器交互的请求也比较简单,不知道你的情况能不能适用,如果方便的话,你可以把页面网址发个看看,我也可以问问其他人 我就是想抓取百度百科的最大词条数,就是baike.baidu.com,因为这个词条数是一直在变化的,需求也很简单,我想技术应该不是难点,但是我这一直搞不定,你帮我看下,如何能抓取到最大的词条数