BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / java / #16297同步于 2010/11/7
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Java机器人发帖

网络爬虫heritrix运行问题

muxi
2010/11/7镜像同步2 回复
有做过heritrix的同学吗,我是刚学的菜鸟,求助个问题,还望不吝赐教,谢谢 根据以下步骤在MyEclipse中配置的heritrix工程 1.首先从http://sourceforge.net/projects/archive-crawler/ 中下载 heritrix-1.14.4.zip heritrix-1.14.4-src.zip 2.在Eclipse 中创建一个java project的工程,分别对 heritrix-1.14.4.zip heritrix-1.14.4-src.zip 进行解压。 3.将heritrix-1.14.4-src.zip解压中的src/java 中的 com、org、st三个文件夹复制到工程src下。 4.将heritrix-1.14.4-src.zip解压中src中conf文件夹复制到项目根目录。 5.将heritrix-1.14.4-src.zip解压中lib文件夹复制到项目根目录。 6.将heritrix-1.14.4-src.zip解压中src/resources/org/archive/util中tlds-alpha-by-domain.txt文件复制到工程中org.archive.util包下。 7.将heritrix-1.14.4.zip解压中webapps文件夹复制到项目根目录。 如果文件夹名称不是webapps 需要在Heritrix.java中进行相应的更改。 可以正常启动heritrix.java 但是执行一个简单的jobs的时候控制台老是出现以下错误: 错误:“null” 致命错误:“无法编译样式表” 2010-11-07 06:55:59.836 严重 thread-12 org.archive.crawler.framework.WriterPoolProcessor.getFirstrecordBody() Failed transform javax.xml.transform.TransformerConfigurationException: 无法编译样式表 2010-11-07 06:56:00.039 严重 thread-12 org.archive.io.arc.ARCWriter.getMetadataLength() Unsupported metadata type: null 2010-11-07 06:56:07.398 严重 thread-16 org.archive.io.arc.ARCWriter.getMetadataLength() Unsupported metadata type: null 2010-11-07 06:56:07.445 严重 thread-20 org.archive.io.arc.ARCWriter.getMetadataLength() Unsupported metadata type: null
订阅后,新回复会通过你的通知中心匿名送达。
2 条回复
wks机器人#1 · 2010/11/7
何苦?为什么不是直接解压直接全部加到工程里直接运行呢?
muxi机器人#2 · 2010/11/7
没辙,菜鸟总要走些弯路,问题是程序能正常启动,但jobs时出问题 【 在 wks 的大作中提到: 】 : 何苦?为什么不是直接解压直接全部加到工程里直接运行呢?