返回信息流是这样的!我现在有一个heritrix能跑了想问下怎么把他从调试环境中放到服务器的实际环境中跑?他里面用的spring我也没学,我觉得就是我需要写一个jsp发布在www 目录下,但是后台怎么跑程序?怎么和jsp连接到一起?还有heritrix自己有界面啊我怎么把他那个修改了?话说我并没找到有jsp文件啊妈蛋……T_T主要是这一套发布的过程吧……或者告诉我我需要学习些什么看些什么……
发自「贵邮」
这是一条镜像帖。来源:北邮人论坛 / java / #30905同步于 2014/7/7
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Java机器人发帖
小白第一次来问下heritrix求各种大神临幸!!
meo
2014/7/7镜像同步12 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
简单地说,还是学spring吧。很好用的。spring的bean container做的事只是创建对象和设置属性。你会爱上它的。
另外,heritrix自己有界面,但不建议你把heritrix结合到你自己的项目中。heritrix是需要很多网络和编程知识才能用好的一个工具,不是随便一个小白用户都能用的。
谢谢解答!!
然后可是如果不用heritrix的话,用什么爬网页数据呢?我看书上的有一个简化的爬虫程序也可以爬应该自己用jsp也能做出交互界面,但是效率和完整度和heritrix差多啊,话说其他的搜索引擎是如何整合heritrix的?
【 在 nuanyangyang 的大作中提到: 】
: 简单地说,还是学spring吧。很好用的。spring的bean container做的事只是创建对象和设置属性。你会爱上它的。
:
: 另外,heritrix自己有界面,但不建议你把heritrix结合到你自己的项目中。heritrix是需要很多网络和编程知识才能用好的一个工具,不是随便一个小白用户都能用的。
: ...................
发自「贵邮」
你的具体应用是什么呢?
【 在 meo 的大作中提到: 】
: 谢谢解答!!
: 然后可是如果不用heritrix的话,用什么爬网页数据呢?我看书上的有一个简化的爬虫程序也可以爬应该自己用jsp也能做出交互界面,但是效率和完整度和heritrix差多啊,话说其他的搜索引擎是如何整合heritrix的?
: 发自「贵邮」
来自「北邮人论坛手机版」
现在就是想输入网站,关键词,爬取相关内容……
【 在 nuanyangyang 的大作中提到: 】
: 你的具体应用是什么呢?
:
:
: ...................
发自「贵邮」
关键词?某种智能的爬虫吗?
【 在 meo 的大作中提到: 】
: 现在就是想输入网站,关键词,爬取相关内容……
: 发自「贵邮」
来自「北邮人论坛手机版」
不只能啊⊙﹏⊙爬虫不要过滤么?……
【 在 nuanyangyang 的大作中提到: 】
: 关键词?某种智能的爬虫吗?
:
: 来自「北邮人论坛手机版」
: ...................
发自「贵邮」
关键是你需要把网页下载下来才知道网页上有什么关键字,而不是选择一个关键字然后去决定是否下载某个网页。
heritrix是archive.org开发的,他们的目标是构建一个全网的爬虫,把因特网的历史保存下来。所以这个可能决定了heritrix的设计。
【 在 meo 的大作中提到: 】
: 不只能啊⊙﹏⊙爬虫不要过滤么?……
: 发自「贵邮」
那也就是说搜索引擎他们都是提前先下载好,然后保存在本地然后再在本地这边建立索引然后搜索显示出来的么?
【 在 nuanyangyang 的大作中提到: 】
: 关键是你需要把网页下载下来才知道网页上有什么关键字,而不是选择一个关键字然后去决定是否下载某个网页。
:
: heritrix是archive.org开发的,他们的目标是构建一个全网的爬虫,把因特网的历史保存下来。所以这个可能决定了heritrix的设计。
: ...................
发自「贵邮」
显然。搜索引擎“效果好”全靠前期大规模广泛收集数据,然后索引起来。临到需要的时候,就该后悔当初收集得太少,或者索引建立得不好了。
【 在 meo 的大作中提到: 】
: 那也就是说搜索引擎他们都是提前先下载好,然后保存在本地然后再在本地这边建立索引然后搜索显示出来的么?
: 发自「贵邮」