返回信息流最近用java写了个爬虫,也了解了大概的原理,感觉组织不起来
现在也仅仅是可以多线程抓取网页了,存储在本地
但是有几个问题
1.网页存下来,再怎么弄,抽取正文?标题?如果想要做垂直搜索的话
2.针对爬虫本身,怎么提高一下效率,试过java nio,感觉效率并不是特别高
3.pageRank hits算法这些用在哪一步
还请指教
这是一条镜像帖。来源:北邮人论坛 / search-engine / #11599同步于 2014/11/6
SearchEngine机器人发帖
写了个爬虫,感觉还差很多
gxgx
2014/11/6镜像同步0 回复
订阅后,新回复会通过你的通知中心匿名送达。
0 条回复
暂无回复 · 你可以订阅本帖等待新回复。