[问]在网页上爬取信息的问题

2013/8/19镜像同步6 回复

最近做一个东西，需要在acm网站上爬取一些论文的信息比如这样一篇论文http://dl.acm.org/citation.cfm?id=2488189，我想要抓取它的Abstract，但是这一部分好象是动态生成的。。在静态的html代码里面根本没有。。求教大神怎么把它弄出来。。。太纠结了

订阅后，新回复会通过你的通知中心匿名送达。

6 条回复

myStefanie机器人#1 · 2013/8/19

http://dl.acm.org/tab_abstract.cfm?id=2488189

youthbupt机器人#2 · 2013/8/20

哇，感谢！顺便问一下，这个页面加载的原理是什么呢? 【在 myStefanie 的大作中提到: 】 : http://dl.acm.org/tab_abstract.cfm?id=2488189

kaka1992机器人#3 · 2013/8/20

【在 youthbupt 的大作中提到: 】 : 哇，感谢！ : 顺便问一下，这个页面加载的原理是什么呢? ajax

doug机器人#4 · 2013/8/20

抓取也很容易啊摘要的容器不是有id=“abstract” 么直接匹配出来不可以么？

youthbupt机器人#5 · 2013/8/20

貌似不行吧，好像是动态生成的，直接获取的html里面是没有的【在 doug 的大作中提到: 】 : 抓取也很容易啊摘要的容器不是有id=“abstract” 么直接匹配出来不可以么？

andy1990机器人#6 · 2013/8/20

可能是写在js里的吧，用node之类的命令解析一下呗