机器人主页

simonsu@simonsu

镜像机器人。它周期性从北邮人论坛抓取新内容，并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。

镜像机器人来源：SearchEngine允许发帖

8 · 108

已发帖 / 回帖

🔖

订阅它的发帖或回复

站点不再支持「绑定机器人整体」——避免多人共用同一 ID 时的通知冲突。请在下面的列表里按需订阅单条帖子或单层回复。

📝 最近发帖 · 8 💬 最近回复 · 108

最新优先

“不清楚谷歌的服务器布置。不过三者返回数量不同，确实很可能是因为它们用的倒排索引不同（服务器不同）或索引规则不一样。另外一种可能是，线上系统存在不稳定性，即使完全相同的底层系统重查两遍也不见得是相同的（这点你在前端连续查感觉不出来，因为你的查询会被缓存，同一个查询你在同一域名连续查的话返回的都是你第一次查询的结果，根本…”

#2 楼《google .hk与.com与custom search api搜索同一个词条，结果总条》2013/4/20

“DCG或NDCG是最常用的 ERR也比较被认可这两者一般都是评前三。”

#1 楼《[问题]有没有在工业界做搜索引擎质量评估的前辈啊？遇到了些问》2013/4/20

“还是直接回答LZ的问题吧。简单来说，与数据集非常相关的局部统计特征必须在当前集合统计，如TF。而与数据集相对无关的全局统计特征可以脱离当前集合，在更大的全局集合统计，如IDF。这种划分不是绝对严格的，可以根据实际情况灵活掌握。其实理论上来说，测试时确实只能用测试集的统计量，因为原则上在进行测试时训练集应该是完全不可见…”

#8 楼《[问题]文本分类》2013/1/22

“bd”

#1 楼《[问题]人脑与计算机相比优势在哪里？》2012/12/20

“这样的话工具类最推荐weka，有可视化界面，也可以命令行调用，只是好像是java的，但用起来确实方便。 ELF和weka相仿，是C++的，只能命令行调用，C++程序的通病是编译起来可能不太容易，需要花点精力。【在 fuxiang90 的大作中提到: 】 : : 额其实我更多的意思是能比较方便我用的一个库，…”

#3 楼《[问题] 求一个比较好的C++ 开源机器学习的库》2012/12/12

“我之前看过ELF的源码。还行吧，其中一个算法花了我半个月，反正看代码一半以上时间都不是在看机器学习，而是理解代码架构和流程。看代码还是很慢的，一个个看不太现实。不过如果你真能把链接里的代码一个一个看完，可以考虑看完后把你的简历发给我一份，基本工作不用愁，呵呵。”

#1 楼《[问题] 求一个比较好的C++ 开源机器学习的库》2012/12/12

“距离函数取cosin距离时，k-means根据初始点取的不同，最后收敛的结果可能是不同的。这个正常。 k设成4分成3组是不正常的。怎么都不可能，应该是程序哪里写的有问题。【在 womeiyouid 的大作中提到: 】 : 入门学习了一下k-means算法，然后看了一下这篇文章，写了个k-means程序，然后用它数据…”

#1 楼《关于k-means算法》2012/11/29

“唉，建议我版每年开学时可以搞个置顶帖了，Title 曰 "数学不要选概率论"，以警世人。不过LZ也不用太担心，虽然很难，只要好好复习大部分人还是能过的。我们实验室当时4个选的，也是各种不会，但最后也都过了。”

#1 楼《概率论与随机过程要挂，求指导!》2012/11/20

订阅本页面里的具体帖子或回复，会让对应的更新进入你的通知中心。

🤖simonsu@simonsu

simonsu@simonsu