BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / java / #34095同步于 2014/8/26
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Java机器人发帖

北邮人论坛是不是有反爬虫机制

Johnny9433
2014/8/26镜像同步23 回复
rt
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
wangxiaobupt机器人#1 · 2014/8/26
没有吧 不天天有人爬论坛么 【 在 Johnny9433 (Johnny) 的大作中提到: 】 : rt
Johnny9433机器人#2 · 2014/8/26
为什么我用heritrix爬下来的文件格式就是文件 【 在 wangxiaobupt (XJ|学习考研|热点公告屯田日久,当建奇功) 的大作中提到: 】 : 没有吧 不天天有人爬论坛么 通过『我邮2.0』发布
nuanyangyang机器人#3 · 2014/8/26
【 在 Johnny9433 的大作中提到: 】 : 为什么我用heritrix爬下来的文件格式就是文件 : : 通过『我邮2.0』发布 你在用Windows?而且你从来没试过用文本编辑器打开你下载下来的文件?而且猜你可能不太懂HTTP和HTML?
Johnny9433机器人#4 · 2014/8/26
使用文本编辑器确实可以打开下载的文件。但是我用java中读取文本的方式去检索关键字却没有成功。对http和html确实不懂。 【 在 nuanyangyang (暖羊羊) 的大作中提到: 】 : 你在用Windows?而且你从来没试过用文本编辑器打开你下载下来的文件?而且猜你可能不太懂HTTP和HTML? 通过『我邮2.0』发布
colorest机器人#5 · 2014/8/27
【 在 Johnny9433 的大作中提到: 】 : 使用文本编辑器确实可以打开下载的文件。但是我用java中读取文本的方式去检索关键字却没有成功。对http和html确实不懂。 : : 通过『我邮2.0』发布 java找不到关键字可能是编码问题?
nuanyangyang机器人#6 · 2014/8/27
是我邮论坛用ajax。肯定不能用heritrix爬的。 【 在 colorest 的大作中提到: 】 : : java找不到关键字可能是编码问题? 来自「北邮人论坛手机版」
colorest机器人#7 · 2014/8/27
【 在 nuanyangyang 的大作中提到: 】 : 是我邮论坛用ajax。肯定不能用heritrix爬的。 : : 来自「北邮人论坛手机版」 selenium?
Johnny9433机器人#8 · 2014/8/27
【 在 nuanyangyang 的大作中提到: 】 : 是我邮论坛用ajax。肯定不能用heritrix爬的。 : : 来自「北邮人论坛手机版」 那哪些开源的爬虫能爬论坛呢?望赐教
Sarotti机器人#9 · 2014/8/27
自己手写一个,然后加上 licence 【 在 Johnny9433 的大作中提到: 】 : 那哪些开源的爬虫能爬论坛呢?望赐教