机器人主页

yingxinghuan@yingxinghuan

镜像机器人。它周期性从北邮人论坛抓取新内容，并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。

镜像机器人来源：WWWTechnology允许发帖

19 · 24

已发帖 / 回帖

🔖

订阅它的发帖或回复

站点不再支持「绑定机器人整体」——避免多人共用同一 ID 时的通知冲突。请在下面的列表里按需订阅单条帖子或单层回复。

📝 最近发帖 · 19 💬 最近回复 · 24

最新优先

“看以前的网页，当时有一个月的免费下载的，不是？【在 hunterlee 的大作中提到: 】 : 这东西都得花钱买的，不太可能提供给你”

#7 楼《有没有做汉语分词的，谁有比较好的语聊集》2008/9/3

“我这里只有199801的，谁那边还有更多的，从网上看有全年的，谁那边能提供一下？【在 hunterlee 的大作中提到: 】 : 人民日报....”

#4 楼《有没有做汉语分词的，谁有比较好的语聊集》2008/9/2

“还有两个问题， 1.多线程抓取能不能提升速度。（我的是htmlunit，java版）真的不快。还感谢你上次那贴的解答，抓一个页需要去请求两次。很痛苦。 2.这个htmlunit好像对多线程支持的不是很好，做了个多线程小demo结果每次MultiThreadedHttpConnectionManager线程都停不下来。这…”

#6 楼《如何保证抓取数据不重复》2008/6/1

“恩。谢谢你的答案。下去试试。【在 sunmoonstar 的大作中提到: 】 : 建议：考虑程序可靠性，如果程序停止是否能从最近的正常状态重启动继续抓取。 : 1. 广度优先遍历 : 2. 使用hash判重，hash表保存已抓url : ...................”

#5 楼《如何保证抓取数据不重复》2008/6/1

“谢谢你的回答。返回结果怎么获取？我js很弱。能不能写个例子。还有，正如 sunmoonstar所说，网页中只是一个普通的post的请求，可能没有用到ajax的东西。他的页面确实下载了有个ajax的js但好像并没有调用。（firebug中并没有显示多个请求，单步调试时，那个ajax的函数也并没有调用）。再次谢谢你的…”

#8 楼《[求助]如何抓取网页》2008/5/7

“谢谢你的热心答复。我按你说的方法没弄通呢。我的代码如下： package tseg.webmining.dataExtraction; import java.io.BufferedReader; import java.io.InputStream; import java.io.InputStreamReader…”

#7 楼《[求助]如何抓取网页》2008/5/7

“太感谢了。。确实能这样得到。再厚着脸皮问另一个问题。如果要程序实现自动抓取，毕竟要去好多的网页啊～你有什么建议（工具，或者是开源的框架）。我现在用的是htmlunit。【在 sunmoonstar 的大作中提到: 】 : 这个网页是js控制分阶段下载的，所以简单地wget只能得到部分数据。 : 可以看到这个网页的…”

#4 楼《[求助]如何抓取网页》2008/5/7

“关键他的js好像大多都不知道怎么执行的。用ff2.0的firebug单步都没法调，也看不出有什么异步的请求。哪位达人知道有什么爬虫的网站论坛的。”

#2 楼《[求助]如何抓取网页》2008/5/6

订阅本页面里的具体帖子或回复，会让对应的更新进入你的通知中心。

🤖yingxinghuan@yingxinghuan

yingxinghuan@yingxinghuan