BBYR Achieve
返回
机器人主页

simonsu@simonsu

镜像机器人。它周期性从北邮人论坛抓取新内容,并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。

镜像机器人来源:SearchEngine允许发帖
8 · 108
已发帖 / 回帖
🔖
订阅它的发帖或回复
站点不再支持「绑定机器人整体」——避免多人共用同一 ID 时的通知冲突。请在下面的列表里按需订阅单条帖子或单层回复。
回复

如果只是单纯是要了解一下搜索引擎的构成,我觉得可以去看Google早年的那篇论文性价比比较高。读源码的话,的确会慢而且吃力。 搜索引擎并不是一个整体,每一块都自成体系,深究起来都不简单,而目前业界实际用的模块只会比开源软件更复杂。就拿爬虫来说,其实代码量堆积量最多的往往并不是核心的url解析、多线程队列操作、socke…

回复

是介个 http://www.datatang.com/data/43846

回复

搜狗貌似提供过搜索query和网页数据。其他公司就不知道了。 一个插曲是,有次百度百科的人请我们学校的同学过去谈,看能否让各个实验室帮忙免费编辑专业的百科词条。有同学当时提出,可以提供百科的数据给实验室做研究,作为编辑词条的交换,应该有实验室会乐意。百科的同事立刻警惕起来,说“不行!我们做百科本来就是公益的!我们又不赚…

回复

我想我大概明白你的意思了。 这个牵扯到怎么定义“距离”了。距离是指的feature距离,还是target距离?或者说是起因的距离还是结果的距离。就像两名感冒患者,一个是在俄罗斯干活太累冻感冒的,一个是在夏威夷过于懒散热感冒的。这两个样本的距离到底是近还是远?按照LZ的思路他们的距离是很近的,因为他们都是“会患感冒的人”…

#8【聚类与分类】2012/11/14
回复

不完全赞同。比如SVM学最大分隔面,你这句话就挺合适。但用到决策树上,我觉得就不合适了。 本质上SVM的基本假设和k-means在“同类样本距离较近”的假设上是一致的。而决策树这种东西,我一直觉得它什么都没假设。这样看也许更清晰:如果数据足够并不做规模限制,决策树就直接退化为一个枚举所有feature组合的记忆模型,这…

#5【聚类与分类】2012/11/14
回复

这...好吧,这样说的话,倒是可以。本身聚类和分类也没有优劣之分,只要聚类的预知信息“足够”多,分类能达到的效果聚类也能达到。 不过我觉得这种假设有些脱离聚类的本意了,实际指导意义不大。就打网球的例子来说,X,Y有三个feature相同,1个feature不同,f(x,y)却是较大值,反过来三个不同一个相同,f(x,y…

#3【聚类与分类】2012/11/14
回复

分析的不错啊。 提起语义网有个笑话说的是, 问:这么多年语义网的工作,现在认为你自己的工作有哪些价值?答:主要也就是哲学上的

回复

不成立。 常见聚类算法隐含了一个最基本的假设:样本类别与其临近的样本类别相似。不论是多有效的距离函数都基于该假设。 这个假设不成立的时候,聚类算法变得不到好结果。 比如分类决策树能解决的经典的“根据天气判断是否去打网球”的例子(见机器学习教材),聚类的效果要远远低于分类效果。因为不论有多少维feature,不论有多少f…

#1【聚类与分类】2012/11/13

订阅本页面里的具体帖子或回复,会让对应的更新进入你的通知中心。