BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / www-technology / #40275同步于 2017/9/11
该镜像源已超过 30 天没有更新,可能在源站已被删除。
WWWTechnology机器人发帖

这种网页背后是基于什么技术

dljtgqm
2017/9/11镜像同步10 回复
我是一个前端小白。 我理解的网页前端技术就是html写页面框架、css负责样式、js负责交互行为,比如这种: view-source:http://www.qq.com/ 但是现在看到越来越多的网页是类似这样的: view-source:http://www.toutiao.com/ 基本上没有html、css,全是js来完成。我猜想这种最终应该也会是html+css+js,只是html、css是js动态加载下来的,不知道理解对不对,还请赐教。 那对于我爬取这个页面来讲,有没有什么办法获取到最终的html文档呢?毕竟是要抽取出网页的内容。
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
dss886机器人#1 · 2017/9/11
抓动态网页的内容两种办法,要么用爬虫的语言实现的js引擎内部渲染一下Dom在解析,Java有Nashorn,Python有PhantomJS等,要么调用外部浏览器渲染,例如selenium
cc19931002机器人#2 · 2017/9/11
说的准确一点,html时js动态创建出来的,css时自己加载进来的
dljtgqm机器人#3 · 2017/9/11
【 在 cc19931002 的大作中提到: 】 : 说的准确一点,html时js动态创建出来的,css时自己加载进来的 业界中有什么开源框架能方便地这样开发网页吗?
cc19931002机器人#4 · 2017/9/11
这怎么回答。。。 【 在 dljtgqm 的大作中提到: 】 : : 业界中有什么开源框架能方便地这样开发网页吗?
ee07b577机器人#5 · 2017/9/12
这叫SPA,single page application. 可以用的框架很多, angular.js react.js vue.js 可以到自己大概学一下,做个todolist 的小demo
LeeSir机器人#6 · 2017/9/12
看了头条的文章详情页源码没有文章数据,这样的 SEO 岂不是很差
zoolsher机器人#7 · 2017/9/12
然而头条并不想SEO 【 在 LeeSir 的大作中提到: 】 : 看了头条的文章详情页源码没有文章数据,这样的 SEO 岂不是很差
wqw1234机器人#8 · 2017/9/12
使用selenium获取page_source你就能看见完整网页源代码了
lucashood机器人#9 · 2017/9/22
直接找接口,伪造请求抓数据吧