BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #6960同步于 2010/7/7
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

Re: 问个数据聚类的问题

ps
2010/7/7镜像同步12 回复
any suggestions? 急哇
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
river机器人#1 · 2010/7/7
虽然问题描述的很准确,但是确实不知道怎么解决。 如果“一个元素”可以出现在多个子类中,这点可以用概率聚类。 “子类元素聚类小于阈值”这点也好办。 但是“子类的大小服从指数分布”,这个就不知道怎么处理了。
ps机器人#2 · 2010/7/8
谢谢,那我先不考虑大小服从指数分布的那条了 你能说再具体点吗,感觉聚类的算法太多了,我看的很少,不知道哪种方法合适 【 在 river 的大作中提到: 】 : 虽然问题描述的很准确,但是确实不知道怎么解决。 : 如果“一个元素”可以出现在多个子类中,这点可以用概率聚类。 : “子类元素聚类小于阈值”这点也好办。 : ...................
river机器人#3 · 2010/7/8
一般情况下,不知道使用哪种聚类算法的时候就拿k-means试一试 但是k-means是硬的聚类,就是说每个样本只能属于一个子类,如果想要得到属于不同的类别的值,有两种方法,第一,用GMM;第二,在k-means得到结果之后,计算每个元素与最近几个子类中心的距离,并以此来度量它对每个子类的归属程度(要概率的话,直接归一就可以了) 聚类时两点距离小于阈值这点在程序里很容易修改的
cclive机器人#4 · 2010/7/8
楼上是大牛。。。
ps机器人#5 · 2010/7/9
第一的GMM是指混合高斯吗,不知道怎么用在这里。。 我现在想了个比较直白的方法: 初始时,每个数据都是一个单独的类 从第二条数据开始,跟之前已有的类进行比较,如果数据和某个类里所有数据的距离都小于阈值,则加入该类 直到运行前一步到最后一条数据 【 在 river 的大作中提到: 】 : 一般情况下,不知道使用哪种聚类算法的时候就拿k-means试一试 : 但是k-means是硬的聚类,就是说每个样本只能属于一个子类,如果想要得到属于不同的类别的值,有两种方法,第一,用GMM;第二,在k-means得到结果之后,计算每个元素与最近几个子类中心的距离,并以此来度量它对每个子类的归属程度(要概率的话,直接归一就可以了) : 聚类时两点距离小于阈值这点在程序里很容易修改的
luoye机器人#6 · 2010/7/10
【 在 ps 的大作中提到: 】 : 现在有N个64bits的数据,定义数据间的距离就是汉明距离,我想对这N个数据聚类,子类的约束条件是每个子类里的元素间的相互距离都小于阈值,一个元素可以出现在多个子类里,而且原数据集的子类的大小是服从指数分布的,我也想把它聚类成这样,这用什么聚类算法合适 : -- 1:定义数据间的距离就是汉明距离(这个也就是数据间的测度,这个可以自己定义,欧式距离用的最多,chi-square性能很好)。 2:子类的约束条件是每个子类里的元素间的相互距离都小于阈值。准则虽然给了,请问这个阈值怎么选择,是说不同的数据用不同的阈值。K-means中的假设是离哪个中心最近就给它打上那个类别标签,GMM(高斯混合模型)是一种soft assignment的假设,也就是一个数据可能是多个标签,只是各个标签的概率不一样,但是概率归一化。 3:一个元素可以出现在多个子类里。这个在GMM(高斯混合模型)中是有这个假设的,认为每个数据可能是任何一个高斯分布产生,这是概率不一样。 4:原数据集的子类的大小是服从指数分布的。这个是你想强加的先验信息吗?不是很懂如何加入。可能是加到限制条件中吧。 从你描述的东西来说应该是用GMM之类的东西,但是其中部分条件不知如何数学化,实现的时候不清晰,你还是先去读读K-means和GMM吧。
lclc413机器人#7 · 2010/7/10
大牛,围观学习 【 在 luoye (清风) 的大作中提到: 】 : 1:定义数据间的距离就是汉明距离(这个也就是数据间的测度,这个可以自己定义,欧式距离用的最多,chi-square性能很好)。 : 2:子类的约束条件是每个子类里的元素间的相互距离都小于阈值。准则虽然给了,请问这个阈值怎么选择,是说不同的数据用不同的阈值。K-means中的假设是离哪个中心最近就给它打上那个类别标签,GMM(高斯混合模型)是一种soft assignment的假设,也就是一个数据可能是多个 : 3:一个元素可以出现在多个子类里。这个在GMM(高斯混合模型)中是有这个假设的,认为每个数据可能是任何一个高斯分布产生,这是概率不一样。 : ...................
zhang0108795机器人#8 · 2010/7/10
大牛。。。 【 在 luoye (清风) 的大作中提到: 】 : 1:定义数据间的距离就是汉明距离(这个也就是数据间的测度,这个可以自己定义,欧式距离用的最多,chi-square性能很好)。 : 2:子类的约束条件是每个子类里的元素间的相互距离都小于阈值。准则虽然给了,请问这个阈值怎么选择,是说不同的数据用不同的阈值。K-means中的假设是离哪个中心最近就给它打上那个类别标签,GMM(高斯混合模型)是一种soft assignment的假设,也就是一个数据可能是多个 : 3:一个元素可以出现在多个子类里。这个在GMM(高斯混合模型)中是有这个假设的,认为每个数据可能是任何一个高斯分布产生,这是概率不一样。 : ...................
gootyking机器人#9 · 2010/7/12
哇 【 在 luoye (清风) 的大作中提到: 】 : 1:定义数据间的距离就是汉明距离(这个也就是数据间的测度,这个可以自己定义,欧式距离用的最多,chi-square性能很好)。 : 2:子类的约束条件是每个子类里的元素间的相互距离都小于阈值。准则虽然给了,请问这个阈值怎么选择,是说不同的数据用不同的阈值。K-means中的假设是离哪个中心最近就给它打上那个类别标签,GMM(高斯混合模型)是一种soft assignment的假设,也就是一个数据可能是多个 : 3:一个元素可以出现在多个子类里。这个在GMM(高斯混合模型)中是有这个假设的,认为每个数据可能是任何一个高斯分布产生,这是概率不一样。 : ...................