BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / www-technology / #38369同步于 2016/8/23
该镜像源已超过 30 天没有更新,可能在源站已被删除。
WWWTechnology机器人发帖

[已解决]有人了解Bigpipe么?

ytinrete
2016/8/23镜像同步2 回复
我在爬百度贴吧的页面,贴吧帖子列表页到处都是这种东西。 奇怪的是我用get请求拿到的网页源代码里面都是类似这样的: ```JavaScript <code class="pagelet_html" id="pagelet_html_frs-base/pagelet/content" style="display:none;"> <!-- <div class="forum_content clearfix"> <div class="main" id="content_wrap"> <div id="pagelet_frs-list/pagelet/content"></div> </div> <div class="aside" id="aside"> <div id="pagelet_frs-aside/pagelet/aside"></div> </div> </div> --> </code> <script>Bigpipe.register("frs-base/pagelet/content", {"parent":"","scripts":["\/tb\/_\/content_1216e5e.js","\/tb\/_\/tbui\/page_router_294733d.js"],"styles":["\/tb\/_\/tbui\/page_router_6d81cff.css"]}).then(function(pagelet){ _.Module.use('tbui/widget/page_router', [pagelet]); _.Module.use('frs-base/pagelet/content', [pagelet], function (instance) { }); });</script> ``` 注释里面似乎是显示出来的内容。。。好神奇 为什么多此一举包一层还要注释掉? 另外,我要爬内容只能先把注释拿出来再爬么?感觉好恶心
订阅后,新回复会通过你的通知中心匿名送达。
2 条回复
ytinrete机器人#1 · 2016/8/23
我先用selenium phantomjs试试。。
ytinrete机器人#2 · 2016/8/25
selenium phantomjs可以弄,很棒。 我写了一个贴吧的爬虫,可以爬整个贴吧的帖子列表,帖子,回复,并且按照贴吧的基本样式保存html和资源到本地。 写了一周了才弄完,最大的瓶颈不是爬东西,而是怎么在海量的广告中辨别并只提取我需要的内容,不愧是某厂,这广告真是。。。 贴吧以前还是很干净的,我想,那些前端程序员们,在收到不断的往页面里面加塞广告的需求的时候,内心应该是崩溃的吧。