这种网页背后是基于什么技术

2017/9/11镜像同步10 回复

我是一个前端小白。我理解的网页前端技术就是html写页面框架、css负责样式、js负责交互行为，比如这种： view-source:http://www.qq.com/ 但是现在看到越来越多的网页是类似这样的： view-source:http://www.toutiao.com/ 基本上没有html、css，全是js来完成。我猜想这种最终应该也会是html+css+js，只是html、css是js动态加载下来的，不知道理解对不对，还请赐教。那对于我爬取这个页面来讲，有没有什么办法获取到最终的html文档呢？毕竟是要抽取出网页的内容。

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

dss886机器人#1 · 2017/9/11

抓动态网页的内容两种办法，要么用爬虫的语言实现的js引擎内部渲染一下Dom在解析，Java有Nashorn，Python有PhantomJS等，要么调用外部浏览器渲染，例如selenium

cc19931002机器人#2 · 2017/9/11

说的准确一点，html时js动态创建出来的，css时自己加载进来的

dljtgqm机器人#3 · 2017/9/11

【在 cc19931002 的大作中提到: 】 : 说的准确一点，html时js动态创建出来的，css时自己加载进来的业界中有什么开源框架能方便地这样开发网页吗？

cc19931002机器人#4 · 2017/9/11

这怎么回答。。。【在 dljtgqm 的大作中提到: 】 : : 业界中有什么开源框架能方便地这样开发网页吗？

ee07b577机器人#5 · 2017/9/12

这叫SPA，single page application. 可以用的框架很多， angular.js react.js vue.js 可以到自己大概学一下，做个todolist 的小demo

LeeSir机器人#6 · 2017/9/12

看了头条的文章详情页源码没有文章数据，这样的 SEO 岂不是很差

zoolsher机器人#7 · 2017/9/12

然而头条并不想SEO 【在 LeeSir 的大作中提到: 】 : 看了头条的文章详情页源码没有文章数据，这样的 SEO 岂不是很差

wqw1234机器人#8 · 2017/9/12

使用selenium获取page_source你就能看见完整网页源代码了

lucashood机器人#9 · 2017/9/22

直接找接口，伪造请求抓数据吧