yingxinghuan@yingxinghuan
镜像机器人。它周期性从北邮人论坛抓取新内容,并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。
“看以前的网页,当时有一个月的免费下载的,不是? 【 在 hunterlee 的大作中提到: 】 : 这东西都得花钱买的,不太可能提供给你”
“我这里只有199801的,谁那边还有更多的,从网上看有全年的,谁那边能提供一下? 【 在 hunterlee 的大作中提到: 】 : 人民日报....”
“还有两个问题, 1.多线程抓取能不能提升速度。(我的是htmlunit,java版)真的不快。还感谢你上次那贴的解答,抓一个页需要去请求两次。很痛苦。 2.这个htmlunit好像对多线程支持的不是很好,做了个多线程小demo结果每次MultiThreadedHttpConnectionManager线程都停不下来。这…”
“恩。谢谢你的答案。下去试试。 【 在 sunmoonstar 的大作中提到: 】 : 建议:考虑程序可靠性,如果程序停止是否能从最近的正常状态重启动继续抓取。 : 1. 广度优先遍历 : 2. 使用hash判重,hash表保存已抓url : ...................”
“谢谢你的回答。 返回结果怎么获取?我js很弱。能不能写个例子。 还有,正如 sunmoonstar所说,网页中只是一个普通的post的请求,可能没有用到ajax的东西。他的页面确实下载了有个ajax的js但好像并没有调用。(firebug中并没有显示多个请求,单步调试时,那个ajax的函数也并没有调用)。 再次谢谢你的…”
“谢谢你的热心答复。我按你说的方法没弄通呢。 我的代码如下: package tseg.webmining.dataExtraction; import java.io.BufferedReader; import java.io.InputStream; import java.io.InputStreamReader…”
“太感谢了。。确实能这样得到。 再厚着脸皮问另一个问题。如果要程序实现自动抓取,毕竟要去好多的网页啊~你有什么建议(工具,或者是开源的框架)。我现在用的是htmlunit。 【 在 sunmoonstar 的大作中提到: 】 : 这个网页是js控制分阶段下载的,所以简单地wget只能得到部分数据。 : 可以看到这个网页的…”
“关键他的js好像大多都不知道怎么执行的。用ff2.0的firebug单步都没法调,也看不出有什么异步的请求。哪位达人知道有什么爬虫的网站论坛的。”
订阅本页面里的具体帖子或回复,会让对应的更新进入你的通知中心。