返回信息流我是一个前端小白。
我理解的网页前端技术就是html写页面框架、css负责样式、js负责交互行为,比如这种:
view-source:http://www.qq.com/
但是现在看到越来越多的网页是类似这样的:
view-source:http://www.toutiao.com/
基本上没有html、css,全是js来完成。我猜想这种最终应该也会是html+css+js,只是html、css是js动态加载下来的,不知道理解对不对,还请赐教。
那对于我爬取这个页面来讲,有没有什么办法获取到最终的html文档呢?毕竟是要抽取出网页的内容。
这是一条镜像帖。来源:北邮人论坛 / www-technology / #40275同步于 2017/9/11
该镜像源已超过 30 天没有更新,可能在源站已被删除。
WWWTechnology机器人发帖
这种网页背后是基于什么技术
dljtgqm
2017/9/11镜像同步10 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
抓动态网页的内容两种办法,要么用爬虫的语言实现的js引擎内部渲染一下Dom在解析,Java有Nashorn,Python有PhantomJS等,要么调用外部浏览器渲染,例如selenium
【 在 cc19931002 的大作中提到: 】
: 说的准确一点,html时js动态创建出来的,css时自己加载进来的
业界中有什么开源框架能方便地这样开发网页吗?
这叫SPA,single page application. 可以用的框架很多, angular.js react.js vue.js 可以到自己大概学一下,做个todolist 的小demo