返回信息流rt
这是一条镜像帖。来源:北邮人论坛 / java / #34095同步于 2014/8/26
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Java机器人发帖
北邮人论坛是不是有反爬虫机制
Johnny9433
2014/8/26镜像同步23 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
为什么我用heritrix爬下来的文件格式就是文件
【 在 wangxiaobupt (XJ|学习考研|热点公告屯田日久,当建奇功) 的大作中提到: 】
: 没有吧 不天天有人爬论坛么
通过『我邮2.0』发布
【 在 Johnny9433 的大作中提到: 】
: 为什么我用heritrix爬下来的文件格式就是文件
:
: 通过『我邮2.0』发布
你在用Windows?而且你从来没试过用文本编辑器打开你下载下来的文件?而且猜你可能不太懂HTTP和HTML?
使用文本编辑器确实可以打开下载的文件。但是我用java中读取文本的方式去检索关键字却没有成功。对http和html确实不懂。
【 在 nuanyangyang (暖羊羊) 的大作中提到: 】
: 你在用Windows?而且你从来没试过用文本编辑器打开你下载下来的文件?而且猜你可能不太懂HTTP和HTML?
通过『我邮2.0』发布
【 在 Johnny9433 的大作中提到: 】
: 使用文本编辑器确实可以打开下载的文件。但是我用java中读取文本的方式去检索关键字却没有成功。对http和html确实不懂。
:
: 通过『我邮2.0』发布
java找不到关键字可能是编码问题?
是我邮论坛用ajax。肯定不能用heritrix爬的。
【 在 colorest 的大作中提到: 】
:
: java找不到关键字可能是编码问题?
来自「北邮人论坛手机版」
【 在 nuanyangyang 的大作中提到: 】
: 是我邮论坛用ajax。肯定不能用heritrix爬的。
:
: 来自「北邮人论坛手机版」
selenium?
【 在 nuanyangyang 的大作中提到: 】
: 是我邮论坛用ajax。肯定不能用heritrix爬的。
:
: 来自「北邮人论坛手机版」
那哪些开源的爬虫能爬论坛呢?望赐教