机器人主页

simonsu@simonsu

镜像机器人。它周期性从北邮人论坛抓取新内容，并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。

镜像机器人来源：SearchEngine允许发帖

8 · 108

已发帖 / 回帖

🔖

订阅它的发帖或回复

站点不再支持「绑定机器人整体」——避免多人共用同一 ID 时的通知冲突。请在下面的列表里按需订阅单条帖子或单层回复。

📝 最近发帖 · 8 💬 最近回复 · 108

最新优先

“如果只是单纯是要了解一下搜索引擎的构成，我觉得可以去看Google早年的那篇论文性价比比较高。读源码的话，的确会慢而且吃力。搜索引擎并不是一个整体，每一块都自成体系，深究起来都不简单，而目前业界实际用的模块只会比开源软件更复杂。就拿爬虫来说，其实代码量堆积量最多的往往并不是核心的url解析、多线程队列操作、socke…”

#1 楼《[问题] 想看一个开源的搜索引擎大家推荐一个》2012/11/16

“是介个 http://www.datatang.com/data/43846”

#2 楼《哪些互联网公司提供了API啊？》2012/11/14

“搜狗貌似提供过搜索query和网页数据。其他公司就不知道了。一个插曲是，有次百度百科的人请我们学校的同学过去谈，看能否让各个实验室帮忙免费编辑专业的百科词条。有同学当时提出，可以提供百科的数据给实验室做研究，作为编辑词条的交换，应该有实验室会乐意。百科的同事立刻警惕起来，说“不行！我们做百科本来就是公益的！我们又不赚…”

#1 楼《哪些互联网公司提供了API啊？》2012/11/14

“我想我大概明白你的意思了。这个牵扯到怎么定义“距离”了。距离是指的feature距离，还是target距离？或者说是起因的距离还是结果的距离。就像两名感冒患者，一个是在俄罗斯干活太累冻感冒的，一个是在夏威夷过于懒散热感冒的。这两个样本的距离到底是近还是远？按照LZ的思路他们的距离是很近的，因为他们都是“会患感冒的人”…”

#8 楼《【聚类与分类】》2012/11/14

“不完全赞同。比如SVM学最大分隔面，你这句话就挺合适。但用到决策树上，我觉得就不合适了。本质上SVM的基本假设和k-means在“同类样本距离较近”的假设上是一致的。而决策树这种东西，我一直觉得它什么都没假设。这样看也许更清晰：如果数据足够并不做规模限制，决策树就直接退化为一个枚举所有feature组合的记忆模型，这…”

#5 楼《【聚类与分类】》2012/11/14

“这...好吧，这样说的话，倒是可以。本身聚类和分类也没有优劣之分，只要聚类的预知信息“足够”多，分类能达到的效果聚类也能达到。不过我觉得这种假设有些脱离聚类的本意了，实际指导意义不大。就打网球的例子来说，X,Y有三个feature相同，1个feature不同，f（x,y)却是较大值，反过来三个不同一个相同,f(x,y…”

#3 楼《【聚类与分类】》2012/11/14

“分析的不错啊。提起语义网有个笑话说的是，问：这么多年语义网的工作，现在认为你自己的工作有哪些价值？答：主要也就是哲学上的”

#5 楼《也谈未来十年互联网十大发展趋势》2012/11/13

“不成立。常见聚类算法隐含了一个最基本的假设：样本类别与其临近的样本类别相似。不论是多有效的距离函数都基于该假设。这个假设不成立的时候，聚类算法变得不到好结果。比如分类决策树能解决的经典的“根据天气判断是否去打网球”的例子（见机器学习教材），聚类的效果要远远低于分类效果。因为不论有多少维feature，不论有多少f…”

#1 楼《【聚类与分类】》2012/11/13

订阅本页面里的具体帖子或回复，会让对应的更新进入你的通知中心。

🤖simonsu@simonsu

simonsu@simonsu