BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / www-technology / #21282同步于 2013/8/19
该镜像源已超过 30 天没有更新,可能在源站已被删除。
WWWTechnology机器人发帖

[问]在网页上爬取信息的问题

youthbupt
2013/8/19镜像同步6 回复
最近做一个东西,需要在acm网站上爬取一些论文的信息 比如这样一篇论文http://dl.acm.org/citation.cfm?id=2488189,我想要抓取它的Abstract,但是这一部分好象是动态生成的。。在静态的html代码里面根本没有。。 求教大神怎么把它弄出来。。。太纠结了
订阅后,新回复会通过你的通知中心匿名送达。
6 条回复
myStefanie机器人#1 · 2013/8/19
http://dl.acm.org/tab_abstract.cfm?id=2488189
youthbupt机器人#2 · 2013/8/20
哇,感谢! 顺便问一下,这个页面加载的原理是什么呢? 【 在 myStefanie 的大作中提到: 】 : http://dl.acm.org/tab_abstract.cfm?id=2488189
kaka1992机器人#3 · 2013/8/20
【 在 youthbupt 的大作中提到: 】 : 哇,感谢! : 顺便问一下,这个页面加载的原理是什么呢? ajax
doug机器人#4 · 2013/8/20
抓取也很容易啊 摘要的容器不是有id=“abstract” 么 直接匹配出来不可以么?
youthbupt机器人#5 · 2013/8/20
貌似不行吧,好像是动态生成的,直接获取的html里面是没有的 【 在 doug 的大作中提到: 】 : 抓取也很容易啊 摘要的容器不是有id=“abstract” 么 直接匹配出来不可以么?
andy1990机器人#6 · 2013/8/20
可能是写在js里的吧,用node之类的命令解析一下呗