BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / java / #30905同步于 2014/7/7
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Java机器人发帖

小白第一次来问下heritrix求各种大神临幸!!

meo
2014/7/7镜像同步12 回复
是这样的!我现在有一个heritrix能跑了想问下怎么把他从调试环境中放到服务器的实际环境中跑?他里面用的spring我也没学,我觉得就是我需要写一个jsp发布在www 目录下,但是后台怎么跑程序?怎么和jsp连接到一起?还有heritrix自己有界面啊我怎么把他那个修改了?话说我并没找到有jsp文件啊妈蛋……T_T主要是这一套发布的过程吧……或者告诉我我需要学习些什么看些什么…… 发自「贵邮」
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
nuanyangyang机器人#1 · 2014/7/8
简单地说,还是学spring吧。很好用的。spring的bean container做的事只是创建对象和设置属性。你会爱上它的。 另外,heritrix自己有界面,但不建议你把heritrix结合到你自己的项目中。heritrix是需要很多网络和编程知识才能用好的一个工具,不是随便一个小白用户都能用的。
meo机器人#2 · 2014/7/8
谢谢解答!! 然后可是如果不用heritrix的话,用什么爬网页数据呢?我看书上的有一个简化的爬虫程序也可以爬应该自己用jsp也能做出交互界面,但是效率和完整度和heritrix差多啊,话说其他的搜索引擎是如何整合heritrix的? 【 在 nuanyangyang 的大作中提到: 】 : 简单地说,还是学spring吧。很好用的。spring的bean container做的事只是创建对象和设置属性。你会爱上它的。 : : 另外,heritrix自己有界面,但不建议你把heritrix结合到你自己的项目中。heritrix是需要很多网络和编程知识才能用好的一个工具,不是随便一个小白用户都能用的。 : ................... 发自「贵邮」
nuanyangyang机器人#3 · 2014/7/8
你的具体应用是什么呢? 【 在 meo 的大作中提到: 】 : 谢谢解答!! : 然后可是如果不用heritrix的话,用什么爬网页数据呢?我看书上的有一个简化的爬虫程序也可以爬应该自己用jsp也能做出交互界面,但是效率和完整度和heritrix差多啊,话说其他的搜索引擎是如何整合heritrix的? : 发自「贵邮」 来自「北邮人论坛手机版」
meo机器人#4 · 2014/7/8
现在就是想输入网站,关键词,爬取相关内容…… 【 在 nuanyangyang 的大作中提到: 】 : 你的具体应用是什么呢? : : : ................... 发自「贵邮」
nuanyangyang机器人#5 · 2014/7/9
关键词?某种智能的爬虫吗? 【 在 meo 的大作中提到: 】 : 现在就是想输入网站,关键词,爬取相关内容…… : 发自「贵邮」 来自「北邮人论坛手机版」
meo机器人#6 · 2014/7/9
不只能啊⊙﹏⊙爬虫不要过滤么?…… 【 在 nuanyangyang 的大作中提到: 】 : 关键词?某种智能的爬虫吗? : : 来自「北邮人论坛手机版」 : ................... 发自「贵邮」
nuanyangyang机器人#7 · 2014/7/9
关键是你需要把网页下载下来才知道网页上有什么关键字,而不是选择一个关键字然后去决定是否下载某个网页。 heritrix是archive.org开发的,他们的目标是构建一个全网的爬虫,把因特网的历史保存下来。所以这个可能决定了heritrix的设计。 【 在 meo 的大作中提到: 】 : 不只能啊⊙﹏⊙爬虫不要过滤么?…… : 发自「贵邮」
meo机器人#8 · 2014/7/9
那也就是说搜索引擎他们都是提前先下载好,然后保存在本地然后再在本地这边建立索引然后搜索显示出来的么? 【 在 nuanyangyang 的大作中提到: 】 : 关键是你需要把网页下载下来才知道网页上有什么关键字,而不是选择一个关键字然后去决定是否下载某个网页。 : : heritrix是archive.org开发的,他们的目标是构建一个全网的爬虫,把因特网的历史保存下来。所以这个可能决定了heritrix的设计。 : ................... 发自「贵邮」
nuanyangyang机器人#9 · 2014/7/9
显然。搜索引擎“效果好”全靠前期大规模广泛收集数据,然后索引起来。临到需要的时候,就该后悔当初收集得太少,或者索引建立得不好了。 【 在 meo 的大作中提到: 】 : 那也就是说搜索引擎他们都是提前先下载好,然后保存在本地然后再在本地这边建立索引然后搜索显示出来的么? : 发自「贵邮」