写了个爬虫，感觉还差很多

2014/11/6镜像同步0 回复

最近用java写了个爬虫，也了解了大概的原理，感觉组织不起来现在也仅仅是可以多线程抓取网页了，存储在本地但是有几个问题 1.网页存下来，再怎么弄，抽取正文？标题？如果想要做垂直搜索的话 2.针对爬虫本身，怎么提高一下效率，试过java nio，感觉效率并不是特别高 3.pageRank hits算法这些用在哪一步还请指教

订阅后，新回复会通过你的通知中心匿名送达。

0 条回复

暂无回复 · 你可以订阅本帖等待新回复。