Re: 问个数据聚类的问题

2010/7/7镜像同步12 回复

any suggestions? 急哇

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

river机器人#1 · 2010/7/7

虽然问题描述的很准确，但是确实不知道怎么解决。如果“一个元素”可以出现在多个子类中，这点可以用概率聚类。 “子类元素聚类小于阈值”这点也好办。但是“子类的大小服从指数分布”，这个就不知道怎么处理了。

ps机器人#2 · 2010/7/8

谢谢，那我先不考虑大小服从指数分布的那条了你能说再具体点吗，感觉聚类的算法太多了，我看的很少，不知道哪种方法合适【在 river 的大作中提到: 】 : 虽然问题描述的很准确，但是确实不知道怎么解决。 : 如果“一个元素”可以出现在多个子类中，这点可以用概率聚类。 : “子类元素聚类小于阈值”这点也好办。 : ...................

river机器人#3 · 2010/7/8

一般情况下，不知道使用哪种聚类算法的时候就拿k-means试一试但是k-means是硬的聚类，就是说每个样本只能属于一个子类，如果想要得到属于不同的类别的值，有两种方法，第一，用GMM；第二，在k-means得到结果之后，计算每个元素与最近几个子类中心的距离，并以此来度量它对每个子类的归属程度（要概率的话，直接归一就可以了）聚类时两点距离小于阈值这点在程序里很容易修改的

cclive机器人#4 · 2010/7/8

楼上是大牛。。。

ps机器人#5 · 2010/7/9

第一的GMM是指混合高斯吗，不知道怎么用在这里。。我现在想了个比较直白的方法：初始时，每个数据都是一个单独的类从第二条数据开始，跟之前已有的类进行比较，如果数据和某个类里所有数据的距离都小于阈值，则加入该类直到运行前一步到最后一条数据【在 river 的大作中提到: 】 : 一般情况下，不知道使用哪种聚类算法的时候就拿k-means试一试 : 但是k-means是硬的聚类，就是说每个样本只能属于一个子类，如果想要得到属于不同的类别的值，有两种方法，第一，用GMM；第二，在k-means得到结果之后，计算每个元素与最近几个子类中心的距离，并以此来度量它对每个子类的归属程度（要概率的话，直接归一就可以了） : 聚类时两点距离小于阈值这点在程序里很容易修改的

luoye机器人#6 · 2010/7/10

【在 ps 的大作中提到: 】 : 现在有N个64bits的数据，定义数据间的距离就是汉明距离，我想对这N个数据聚类，子类的约束条件是每个子类里的元素间的相互距离都小于阈值，一个元素可以出现在多个子类里，而且原数据集的子类的大小是服从指数分布的，我也想把它聚类成这样，这用什么聚类算法合适 : -- 1:定义数据间的距离就是汉明距离(这个也就是数据间的测度，这个可以自己定义，欧式距离用的最多，chi-square性能很好)。 2：子类的约束条件是每个子类里的元素间的相互距离都小于阈值。准则虽然给了，请问这个阈值怎么选择，是说不同的数据用不同的阈值。K-means中的假设是离哪个中心最近就给它打上那个类别标签，GMM（高斯混合模型）是一种soft assignment的假设，也就是一个数据可能是多个标签，只是各个标签的概率不一样，但是概率归一化。 3：一个元素可以出现在多个子类里。这个在GMM（高斯混合模型）中是有这个假设的，认为每个数据可能是任何一个高斯分布产生，这是概率不一样。 4：原数据集的子类的大小是服从指数分布的。这个是你想强加的先验信息吗？不是很懂如何加入。可能是加到限制条件中吧。从你描述的东西来说应该是用GMM之类的东西，但是其中部分条件不知如何数学化，实现的时候不清晰，你还是先去读读K-means和GMM吧。

lclc413机器人#7 · 2010/7/10

大牛，围观学习【在 luoye (清风) 的大作中提到: 】 : 1:定义数据间的距离就是汉明距离(这个也就是数据间的测度，这个可以自己定义，欧式距离用的最多，chi-square性能很好)。 : 2：子类的约束条件是每个子类里的元素间的相互距离都小于阈值。准则虽然给了，请问这个阈值怎么选择，是说不同的数据用不同的阈值。K-means中的假设是离哪个中心最近就给它打上那个类别标签，GMM（高斯混合模型）是一种soft assignment的假设，也就是一个数据可能是多个 : 3：一个元素可以出现在多个子类里。这个在GMM（高斯混合模型）中是有这个假设的，认为每个数据可能是任何一个高斯分布产生，这是概率不一样。 : ...................

zhang0108795机器人#8 · 2010/7/10

大牛。。。【在 luoye (清风) 的大作中提到: 】 : 1:定义数据间的距离就是汉明距离(这个也就是数据间的测度，这个可以自己定义，欧式距离用的最多，chi-square性能很好)。 : 2：子类的约束条件是每个子类里的元素间的相互距离都小于阈值。准则虽然给了，请问这个阈值怎么选择，是说不同的数据用不同的阈值。K-means中的假设是离哪个中心最近就给它打上那个类别标签，GMM（高斯混合模型）是一种soft assignment的假设，也就是一个数据可能是多个 : 3：一个元素可以出现在多个子类里。这个在GMM（高斯混合模型）中是有这个假设的，认为每个数据可能是任何一个高斯分布产生，这是概率不一样。 : ...................

gootyking机器人#9 · 2010/7/12

哇【在 luoye (清风) 的大作中提到: 】 : 1:定义数据间的距离就是汉明距离(这个也就是数据间的测度，这个可以自己定义，欧式距离用的最多，chi-square性能很好)。 : 2：子类的约束条件是每个子类里的元素间的相互距离都小于阈值。准则虽然给了，请问这个阈值怎么选择，是说不同的数据用不同的阈值。K-means中的假设是离哪个中心最近就给它打上那个类别标签，GMM（高斯混合模型）是一种soft assignment的假设，也就是一个数据可能是多个 : 3：一个元素可以出现在多个子类里。这个在GMM（高斯混合模型）中是有这个假设的，认为每个数据可能是任何一个高斯分布产生，这是概率不一样。 : ...................