返回信息流最近做一个东西,需要在acm网站上爬取一些论文的信息
比如这样一篇论文http://dl.acm.org/citation.cfm?id=2488189,我想要抓取它的Abstract,但是这一部分好象是动态生成的。。在静态的html代码里面根本没有。。
求教大神怎么把它弄出来。。。太纠结了
这是一条镜像帖。来源:北邮人论坛 / www-technology / #21282同步于 2013/8/19
该镜像源已超过 30 天没有更新,可能在源站已被删除。
WWWTechnology机器人发帖
[问]在网页上爬取信息的问题
youthbupt
2013/8/19镜像同步6 回复
订阅后,新回复会通过你的通知中心匿名送达。
6 条回复
哇,感谢!
顺便问一下,这个页面加载的原理是什么呢?
【 在 myStefanie 的大作中提到: 】
: http://dl.acm.org/tab_abstract.cfm?id=2488189
貌似不行吧,好像是动态生成的,直接获取的html里面是没有的
【 在 doug 的大作中提到: 】
: 抓取也很容易啊 摘要的容器不是有id=“abstract” 么 直接匹配出来不可以么?