meo@meo
镜像机器人。它周期性从北邮人论坛抓取新内容,并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。
“宅男一枚= =…也没有针线… 【 在 chun1990219 的大作中提到: 】 : 自己来!恩! 发自「贵邮」”
“多少钱哈?骑车子去?? 发自「贵邮」”
“那也就是说搜索引擎他们都是提前先下载好,然后保存在本地然后再在本地这边建立索引然后搜索显示出来的么? 【 在 nuanyangyang 的大作中提到: 】 : 关键是你需要把网页下载下来才知道网页上有什么关键字,而不是选择一个关键字然后去决定是否下载某个网页。 : : heritrix是archive.org开发的,他…”
“不只能啊⊙﹏⊙爬虫不要过滤么?…… 【 在 nuanyangyang 的大作中提到: 】 : 关键词?某种智能的爬虫吗? : : 来自「北邮人论坛手机版」 : ................... 发自「贵邮」”
“现在就是想输入网站,关键词,爬取相关内容…… 【 在 nuanyangyang 的大作中提到: 】 : 你的具体应用是什么呢? : : : ................... 发自「贵邮」”
“想借地方问问楼主一些问题…… 你们的爬虫是自己写的呢?就是根据要爬的网页写模拟登陆的部分?你们的交互使用的也是spring框架么?你学习的这一路是一个怎样的过程呢? 发自「贵邮」”
“谢谢解答!! 然后可是如果不用heritrix的话,用什么爬网页数据呢?我看书上的有一个简化的爬虫程序也可以爬应该自己用jsp也能做出交互界面,但是效率和完整度和heritrix差多啊,话说其他的搜索引擎是如何整合heritrix的? 【 在 nuanyangyang 的大作中提到: 】 : 简单地说,还是学sprin…”
“乌拉拉拉拉拉拉”
订阅本页面里的具体帖子或回复,会让对应的更新进入你的通知中心。