BYR Achieve · 镜像论坛

爬虫：获取js动态加载网页上的内容

2015/1/10镜像同步12 回复

最近在做网页爬虫，我要去百度百科的总词条数，这个是每时每刻都在变化的，了解了下htmlunit这个工具，但是老是报错，htmlunit的jar换了好几个版本都不行，求大侠指导，代码如下 WebClient webClient = new WebClient(BrowserVersion.CHROME); webClient.getOptions().setJavaScriptEnabled(true); //webClient.setAjaxController(new NicelyResynchronizingAjaxController()); webClient.getOptions().setCssEnabled(false); //webClient.getOptions().setRedirectEnabled(true); webClient.getOptions().setTimeout(10000); webClient.getOptions().setThrowExceptionOnScriptError(false); // 构造一个URL String url = "http://baike.baidu.com/"; // 通过getPage()方法，返回相应的页面 final HtmlPage page = (HtmlPage) webClient.getPage(url); 报错如下：java.util.regex.PatternSyntaxException: Illegal octal escape sequence near index 15 ([yMdwhHmsf])\0 ^ at java.util.regex.Pattern.error(Pattern.java:1713) at java.util.regex.Pattern.o(Pattern.java:2810) at java.util.regex.Pattern.escape(Pattern.java:2054) at java.util.regex.Pattern.atom(Pattern.java:1952) at java.util.regex.Pattern.sequence(Pattern.java:1834) at java.util.regex.Pattern.expr(Pattern.java:1752) at java.util.regex.Pattern.compile(Pattern.java:1460) at java.util.regex.Pattern.<init>(Pattern.java:1133) at java.util.regex.Pattern.compile(Pattern.java:847) at com.gargoylesoftware.htmlunit.javascript.regexp.HtmlUnitRegExpProxy.doAction(HtmlUnitRegExpProxy.java:102) at com.gargoylesoftware.htmlunit.javascript.regexp.HtmlUnitRegExpProxy.action(HtmlUnitRegExpProxy.java:74) at net.sourceforge.htmlunit.corejs.javascript.NativeString.execIdCall(NativeString.java:455) at net.sourceforge.htmlunit.corejs.javascript.IdFunctionObject.call(IdFunctionObject.java:89) at net.sourceforge.htmlunit.corejs.javascript.Interpreter.interpretLoop(Interpreter.java:1531) at net.sourceforge.htmlunit.corejs.javascript.Interpreter.interpret(Interpreter.java:798) at net.sourceforge.htmlunit.corejs.javascript.InterpretedFunction.call(InterpretedFunction.java:105) at net.sourceforge.htmlunit.corejs.javascript.ContextFactory.doTopCall(ContextFactory.java:411) at com.gargoylesoftware.htmlunit.javascript.HtmlUnitContextFactory.doTopCall(HtmlUnitContextFactory.java:309) at net.sourceforge.htmlunit.corejs.javascript.ScriptRuntime.doTopCall(ScriptRuntime.java:3057) at net.sourceforge.htmlunit.corejs.javascript.InterpretedFunction.exec(InterpretedFunction.java:115) 好几处报错都是这个错误，如果把js那个true改为false就没有错误，但是也获取不到js加载后的数据了，我想应该是js报的错，有谁能帮助解决一下！不胜感激！

订阅后，新回复会通过你的通知中心匿名送达。