返回信息流any suggestions?
急哇
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #6960同步于 2010/7/7
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
Re: 问个数据聚类的问题
ps
2010/7/7镜像同步12 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
虽然问题描述的很准确,但是确实不知道怎么解决。
如果“一个元素”可以出现在多个子类中,这点可以用概率聚类。
“子类元素聚类小于阈值”这点也好办。
但是“子类的大小服从指数分布”,这个就不知道怎么处理了。
谢谢,那我先不考虑大小服从指数分布的那条了
你能说再具体点吗,感觉聚类的算法太多了,我看的很少,不知道哪种方法合适
【 在 river 的大作中提到: 】
: 虽然问题描述的很准确,但是确实不知道怎么解决。
: 如果“一个元素”可以出现在多个子类中,这点可以用概率聚类。
: “子类元素聚类小于阈值”这点也好办。
: ...................
一般情况下,不知道使用哪种聚类算法的时候就拿k-means试一试
但是k-means是硬的聚类,就是说每个样本只能属于一个子类,如果想要得到属于不同的类别的值,有两种方法,第一,用GMM;第二,在k-means得到结果之后,计算每个元素与最近几个子类中心的距离,并以此来度量它对每个子类的归属程度(要概率的话,直接归一就可以了)
聚类时两点距离小于阈值这点在程序里很容易修改的
第一的GMM是指混合高斯吗,不知道怎么用在这里。。
我现在想了个比较直白的方法:
初始时,每个数据都是一个单独的类
从第二条数据开始,跟之前已有的类进行比较,如果数据和某个类里所有数据的距离都小于阈值,则加入该类
直到运行前一步到最后一条数据
【 在 river 的大作中提到: 】
: 一般情况下,不知道使用哪种聚类算法的时候就拿k-means试一试
: 但是k-means是硬的聚类,就是说每个样本只能属于一个子类,如果想要得到属于不同的类别的值,有两种方法,第一,用GMM;第二,在k-means得到结果之后,计算每个元素与最近几个子类中心的距离,并以此来度量它对每个子类的归属程度(要概率的话,直接归一就可以了)
: 聚类时两点距离小于阈值这点在程序里很容易修改的
【 在 ps 的大作中提到: 】
: 现在有N个64bits的数据,定义数据间的距离就是汉明距离,我想对这N个数据聚类,子类的约束条件是每个子类里的元素间的相互距离都小于阈值,一个元素可以出现在多个子类里,而且原数据集的子类的大小是服从指数分布的,我也想把它聚类成这样,这用什么聚类算法合适
: --
1:定义数据间的距离就是汉明距离(这个也就是数据间的测度,这个可以自己定义,欧式距离用的最多,chi-square性能很好)。
2:子类的约束条件是每个子类里的元素间的相互距离都小于阈值。准则虽然给了,请问这个阈值怎么选择,是说不同的数据用不同的阈值。K-means中的假设是离哪个中心最近就给它打上那个类别标签,GMM(高斯混合模型)是一种soft assignment的假设,也就是一个数据可能是多个标签,只是各个标签的概率不一样,但是概率归一化。
3:一个元素可以出现在多个子类里。这个在GMM(高斯混合模型)中是有这个假设的,认为每个数据可能是任何一个高斯分布产生,这是概率不一样。
4:原数据集的子类的大小是服从指数分布的。这个是你想强加的先验信息吗?不是很懂如何加入。可能是加到限制条件中吧。
从你描述的东西来说应该是用GMM之类的东西,但是其中部分条件不知如何数学化,实现的时候不清晰,你还是先去读读K-means和GMM吧。
大牛,围观学习
【 在 luoye (清风) 的大作中提到: 】
: 1:定义数据间的距离就是汉明距离(这个也就是数据间的测度,这个可以自己定义,欧式距离用的最多,chi-square性能很好)。
: 2:子类的约束条件是每个子类里的元素间的相互距离都小于阈值。准则虽然给了,请问这个阈值怎么选择,是说不同的数据用不同的阈值。K-means中的假设是离哪个中心最近就给它打上那个类别标签,GMM(高斯混合模型)是一种soft assignment的假设,也就是一个数据可能是多个
: 3:一个元素可以出现在多个子类里。这个在GMM(高斯混合模型)中是有这个假设的,认为每个数据可能是任何一个高斯分布产生,这是概率不一样。
: ...................
大牛。。。
【 在 luoye (清风) 的大作中提到: 】
: 1:定义数据间的距离就是汉明距离(这个也就是数据间的测度,这个可以自己定义,欧式距离用的最多,chi-square性能很好)。
: 2:子类的约束条件是每个子类里的元素间的相互距离都小于阈值。准则虽然给了,请问这个阈值怎么选择,是说不同的数据用不同的阈值。K-means中的假设是离哪个中心最近就给它打上那个类别标签,GMM(高斯混合模型)是一种soft assignment的假设,也就是一个数据可能是多个
: 3:一个元素可以出现在多个子类里。这个在GMM(高斯混合模型)中是有这个假设的,认为每个数据可能是任何一个高斯分布产生,这是概率不一样。
: ...................
哇
【 在 luoye (清风) 的大作中提到: 】
: 1:定义数据间的距离就是汉明距离(这个也就是数据间的测度,这个可以自己定义,欧式距离用的最多,chi-square性能很好)。
: 2:子类的约束条件是每个子类里的元素间的相互距离都小于阈值。准则虽然给了,请问这个阈值怎么选择,是说不同的数据用不同的阈值。K-means中的假设是离哪个中心最近就给它打上那个类别标签,GMM(高斯混合模型)是一种soft assignment的假设,也就是一个数据可能是多个
: 3:一个元素可以出现在多个子类里。这个在GMM(高斯混合模型)中是有这个假设的,认为每个数据可能是任何一个高斯分布产生,这是概率不一样。
: ...................