求助大神。爬虫如何抓取js执行后的文本。

buptxiaoxin

2014/4/24镜像同步9 回复

最近一个项目，涉及爬虫，但是发现目标网页源码只有js文件，没有需要的文本，有没有解决办法？？？

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

poiuasd机器人#1 · 2014/4/24

什么网址来自「北邮人论坛手机版」

hainanlxs机器人#2 · 2014/4/24

mark

buptxiaoxin机器人#3 · 2014/4/25

网址具体是什么就不说了，就是想抓评论，但是评论是js生成的，查看源码只能看到src=xxx.js 【在 poiuasd 的大作中提到: 】 : 什么网址 : 来自「北邮人论坛手机版」

poiuasd机器人#4 · 2014/4/25

【在 buptxiaoxin 的大作中提到: 】 : 网址具体是什么就不说了，就是想抓评论，但是评论是js生成的，查看源码只能看到src=xxx.js htmlunit + jsoup，js需要解析，当然这只是一个方法，还有其他的，你可以上网查下，反正你能模拟出浏览器了就行了。给你个htmlunit 网址http://htmlunit.sourceforge.net/ 来自「北邮人论坛手机版」

buptxiaoxin机器人#5 · 2014/4/25

嗯，谢谢，还有一个问题，如果我要爬取的网站是*墙*外*的怎么办？【在 poiuasd 的大作中提到: 】 : htmlunit + jsoup，js需要解析，当然这只是一个方法，还有其他的，你可以上网查下，反正你能模拟出浏览器了就行了。给你个htmlunit 网址http://htmlunit.sourceforge.net/ : 来自「北邮人论坛手机版」

poiuasd机器人#6 · 2014/4/25

【在 buptxiaoxin 的大作中提到: 】 : 嗯，谢谢，还有一个问题，如果我要爬取的网站是*墙*外*的怎么办？代理翻墙吧，proxy 来自「北邮人论坛手机版」

xiruimainly机器人#7 · 2015/1/10

楼主你这个问题解决了吗？我最近也在爬虫js生成的动态网页信息，但是一直搞不定，求指导一下

buptxiaoxin机器人#8 · 2015/1/10

【在 xiruimainly 的大作中提到: 】 : 楼主你这个问题解决了吗？我最近也在爬虫js生成的动态网页信息，但是一直搞不定，求指导一下我的问题比较简单，的确解决了，但是用的方法不一定适用你的问题，我是找到js文件和服务器交互的请求，然后用这个请求来抓。。。需求比较简单，js文件和服务器交互的请求也比较简单，不知道你的情况能不能适用，如果方便的话，你可以把页面网址发个看看，我也可以问问其他人

xiruimainly机器人#9 · 2015/1/10

【在 buptxiaoxin 的大作中提到: 】 : : 我的问题比较简单，的确解决了，但是用的方法不一定适用你的问题，我是找到js文件和服务器交互的请求，然后用这个请求来抓。。。需求比较简单，js文件和服务器交互的请求也比较简单，不知道你的情况能不能适用，如果方便的话，你可以把页面网址发个看看，我也可以问问其他人我就是想抓取百度百科的最大词条数，就是baike.baidu.com，因为这个词条数是一直在变化的，需求也很简单，我想技术应该不是难点，但是我这一直搞不定，你帮我看下，如何能抓取到最大的词条数