小白第一次来问下heritrix求各种大神临幸！！

2014/7/7镜像同步12 回复

是这样的！我现在有一个heritrix能跑了想问下怎么把他从调试环境中放到服务器的实际环境中跑？他里面用的spring我也没学，我觉得就是我需要写一个jsp发布在www 目录下，但是后台怎么跑程序？怎么和jsp连接到一起？还有heritrix自己有界面啊我怎么把他那个修改了？话说我并没找到有jsp文件啊妈蛋……T_T主要是这一套发布的过程吧……或者告诉我我需要学习些什么看些什么…… 发自「贵邮」

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

nuanyangyang机器人#1 · 2014/7/8

简单地说，还是学spring吧。很好用的。spring的bean container做的事只是创建对象和设置属性。你会爱上它的。另外，heritrix自己有界面，但不建议你把heritrix结合到你自己的项目中。heritrix是需要很多网络和编程知识才能用好的一个工具，不是随便一个小白用户都能用的。

meo机器人#2 · 2014/7/8

谢谢解答！！然后可是如果不用heritrix的话，用什么爬网页数据呢？我看书上的有一个简化的爬虫程序也可以爬应该自己用jsp也能做出交互界面，但是效率和完整度和heritrix差多啊，话说其他的搜索引擎是如何整合heritrix的？【在 nuanyangyang 的大作中提到: 】 : 简单地说，还是学spring吧。很好用的。spring的bean container做的事只是创建对象和设置属性。你会爱上它的。 : : 另外，heritrix自己有界面，但不建议你把heritrix结合到你自己的项目中。heritrix是需要很多网络和编程知识才能用好的一个工具，不是随便一个小白用户都能用的。 : ................... 发自「贵邮」

nuanyangyang机器人#3 · 2014/7/8

你的具体应用是什么呢？【在 meo 的大作中提到: 】 : 谢谢解答！！ : 然后可是如果不用heritrix的话，用什么爬网页数据呢？我看书上的有一个简化的爬虫程序也可以爬应该自己用jsp也能做出交互界面，但是效率和完整度和heritrix差多啊，话说其他的搜索引擎是如何整合heritrix的？ : 发自「贵邮」来自「北邮人论坛手机版」

meo机器人#4 · 2014/7/8

现在就是想输入网站，关键词，爬取相关内容…… 【在 nuanyangyang 的大作中提到: 】 : 你的具体应用是什么呢？ : : : ................... 发自「贵邮」

nuanyangyang机器人#5 · 2014/7/9

关键词？某种智能的爬虫吗？【在 meo 的大作中提到: 】 : 现在就是想输入网站，关键词，爬取相关内容…… : 发自「贵邮」来自「北邮人论坛手机版」

meo机器人#6 · 2014/7/9

不只能啊⊙﹏⊙爬虫不要过滤么？…… 【在 nuanyangyang 的大作中提到: 】 : 关键词？某种智能的爬虫吗？ : : 来自「北邮人论坛手机版」 : ................... 发自「贵邮」

nuanyangyang机器人#7 · 2014/7/9

关键是你需要把网页下载下来才知道网页上有什么关键字，而不是选择一个关键字然后去决定是否下载某个网页。 heritrix是archive.org开发的，他们的目标是构建一个全网的爬虫，把因特网的历史保存下来。所以这个可能决定了heritrix的设计。【在 meo 的大作中提到: 】 : 不只能啊⊙﹏⊙爬虫不要过滤么？…… : 发自「贵邮」

meo机器人#8 · 2014/7/9

那也就是说搜索引擎他们都是提前先下载好，然后保存在本地然后再在本地这边建立索引然后搜索显示出来的么？【在 nuanyangyang 的大作中提到: 】 : 关键是你需要把网页下载下来才知道网页上有什么关键字，而不是选择一个关键字然后去决定是否下载某个网页。 : : heritrix是archive.org开发的，他们的目标是构建一个全网的爬虫，把因特网的历史保存下来。所以这个可能决定了heritrix的设计。 : ................... 发自「贵邮」

nuanyangyang机器人#9 · 2014/7/9

显然。搜索引擎“效果好”全靠前期大规模广泛收集数据，然后索引起来。临到需要的时候，就该后悔当初收集得太少，或者索引建立得不好了。【在 meo 的大作中提到: 】 : 那也就是说搜索引擎他们都是提前先下载好，然后保存在本地然后再在本地这边建立索引然后搜索显示出来的么？ : 发自「贵邮」