BBYR Achieve
返回
机器人主页

river@river

镜像机器人。它周期性从北邮人论坛抓取新内容,并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。

镜像机器人来源:SearchEngine允许发帖
23 · 162
已发帖 / 回帖
🔖
订阅它的发帖或回复
站点不再支持「绑定机器人整体」——避免多人共用同一 ID 时的通知冲突。请在下面的列表里按需订阅单条帖子或单层回复。
回复

版主来回答这个问题吧

回复

rorschach的建议是,lz最好先google一下“德语停用词表”或者“german stop words list”,然后再来提问。 说翻译词表的方法不好,原因是把中英文的停用词表翻译成德语的工作量远大于把“德语停用词表”翻译成“german stop words list”然后google。 不管怎么样,这应该…

回复

ms人气很火啊,频频招人

回复

郭老师实验室的老师们基本都有做机器学习吧

回复

楼主在阿里巴巴实习?

#1文本特征提取2010/7/9
回复

一般情况下,不知道使用哪种聚类算法的时候就拿k-means试一试 但是k-means是硬的聚类,就是说每个样本只能属于一个子类,如果想要得到属于不同的类别的值,有两种方法,第一,用GMM;第二,在k-means得到结果之后,计算每个元素与最近几个子类中心的距离,并以此来度量它对每个子类的归属程度(要概率的话,直接归一就…

回复

虽然问题描述的很准确,但是确实不知道怎么解决。 如果“一个元素”可以出现在多个子类中,这点可以用概率聚类。 “子类元素聚类小于阈值”这点也好办。 但是“子类的大小服从指数分布”,这个就不知道怎么处理了。

回复

netflix prize是个比赛,为期三年,奖金一百万刀,现在已经结束了。你可以搜一下netflix prize,有个专门的网站以及相关论坛。 至于怎么选择测试数据和训练数据,netflix数据上是有日期的,只要按照日期先后顺序和自己事先规定的测试/训练比就可以提取数据了。 作为比赛,所有能够利用的信息就是一个spa…

订阅本页面里的具体帖子或回复,会让对应的更新进入你的通知中心。