返回信息流有做过heritrix的同学吗,我是刚学的菜鸟,求助个问题,还望不吝赐教,谢谢
根据以下步骤在MyEclipse中配置的heritrix工程
1.首先从http://sourceforge.net/projects/archive-crawler/ 中下载
heritrix-1.14.4.zip
heritrix-1.14.4-src.zip
2.在Eclipse 中创建一个java project的工程,分别对
heritrix-1.14.4.zip
heritrix-1.14.4-src.zip 进行解压。
3.将heritrix-1.14.4-src.zip解压中的src/java 中的 com、org、st三个文件夹复制到工程src下。
4.将heritrix-1.14.4-src.zip解压中src中conf文件夹复制到项目根目录。
5.将heritrix-1.14.4-src.zip解压中lib文件夹复制到项目根目录。
6.将heritrix-1.14.4-src.zip解压中src/resources/org/archive/util中tlds-alpha-by-domain.txt文件复制到工程中org.archive.util包下。
7.将heritrix-1.14.4.zip解压中webapps文件夹复制到项目根目录。
如果文件夹名称不是webapps 需要在Heritrix.java中进行相应的更改。
可以正常启动heritrix.java
但是执行一个简单的jobs的时候控制台老是出现以下错误:
错误:“null”
致命错误:“无法编译样式表”
2010-11-07 06:55:59.836 严重 thread-12 org.archive.crawler.framework.WriterPoolProcessor.getFirstrecordBody() Failed transform javax.xml.transform.TransformerConfigurationException: 无法编译样式表
2010-11-07 06:56:00.039 严重 thread-12 org.archive.io.arc.ARCWriter.getMetadataLength() Unsupported metadata type: null
2010-11-07 06:56:07.398 严重 thread-16 org.archive.io.arc.ARCWriter.getMetadataLength() Unsupported metadata type: null
2010-11-07 06:56:07.445 严重 thread-20 org.archive.io.arc.ARCWriter.getMetadataLength() Unsupported metadata type: null
这是一条镜像帖。来源:北邮人论坛 / java / #16297同步于 2010/11/7
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Java机器人发帖
网络爬虫heritrix运行问题
muxi
2010/11/7镜像同步2 回复
订阅后,新回复会通过你的通知中心匿名送达。