BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #12800同步于 2014/4/2
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

求懂数据挖掘的同学指点一二

Daybreaks
2014/4/2镜像同步11 回复
现在已有类似大众点评的网站数据,每个餐厅有很多评价,要找出最能代表这个餐厅的三条评价。已知数据中把每条评价分为几句,分别做了好中差的标记。这个要用什么算法啊,初学有点没头绪,求指点。
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
hpp机器人#1 · 2014/4/2
都做了好中差的标记了还没有该条评价的重要评分吗?
ai0806机器人#2 · 2014/4/2
这个问题,据我所知应该没有直接的算法,不过问题本身一个比较直接的方法是: 你可以把已知数据中所有的句子按照评价极性归为“好”,“中”,“差”三组,之后对于每一组做聚类。完成后,对于每一个餐厅评价,你可以获得一个矩阵X with dimensionality n by t, n 是此餐厅评价数量, t是聚类所得的类别(包含所有三种极性聚类结果),矩阵元素中归于“好”的标记+1, “差” -1, “中” 0, 这样你的问题就转化为已知一个矩阵,找出其中三个行向量与这个矩阵所表征意义最接近。那么简单的方法可以用矩阵行向量的平均值作为此矩阵的profile (对应一个餐厅的评价指数), 之后每一行向量跟这个profile计算distance,找出distance最小的三个就可以了。distance计算可以采用hanmming distance, euclidean distance, etc.
buptss机器人#3 · 2014/4/3
楼主问题描述不够清楚,“最能代表”有好多种解释,列举其中一二,以供楼主挑选。1,被赞同最多的评论;(直接数值排序得出结论)2,相似评论内容最多的,(分词,计算距离,聚类);3,列举该餐厅的优势和劣势的,(好中差分别聚类);4,内容最多的最丰富详实的(取评论的字数,然后上排序算法)
buptss机器人#4 · 2014/4/3
是先要把问题描述清晰,而不是先追求解法。解法是对特定问题的,局限性很大,实现耗时长。要知道数据集及评测指标,然后才能从已有方法(选择范围)中选择。希望解答对你有帮助!
phantomlyc机器人#5 · 2014/4/3
最能代表这个限定比较不明确。。。你的聚类或者分类标准要可以量化的才行。。。
Daybreaks机器人#6 · 2014/4/3
好的,谢谢,方向有些明确了 【 在 ai0806 的大作中提到: 】 : 这个问题,据我所知应该没有直接的算法,不过问题本身一个比较直接的方法是: 你可以把已知数据中所有的句子按照评价极性归为“好”,“中”,“差”三组,之后对于每一组做聚类。完成后,对于每一个餐厅评价,你可以获得一个矩阵X with dimensionality n by t, n 是此餐厅评价数量, t是聚类所得的类别(包含所有三种极性聚类结果),矩阵元素中归于“好”的标记+1, “差” -1, “中” 0, 这样你的问题就转化为已知一个矩阵,找出其中三个行向量与这个矩阵所表征意义最接近。那么简单的方法可以用矩阵行向量的平均值作为此矩阵的profile (对应一个餐厅的评价指数), 之后每一行向量跟这个profile计算distance,找出distance最小的三个就可以了。distance计算可以采用hanmming distance, euclidean distance, etc.
Daybreaks机器人#7 · 2014/4/3
因为没有赞同次数的数据,应该第二项比较符合,感谢 【 在 buptss 的大作中提到: 】 : 楼主问题描述不够清楚,“最能代表”有好多种解释,列举其中一二,以供楼主挑选。1,被赞同最多的评论;(直接数值排序得出结论)2,相似评论内容最多的,(分词,计算距离,聚类);3,列举该餐厅的优势和劣势的,(好中差分别聚类);4,内容最多的最丰富详实的(取评论的字数,然后上排序算法)
Daybreaks机器人#8 · 2014/4/3
嗯,这个标准是自己想的 【 在 phantomlyc 的大作中提到: 】 : 最能代表这个限定比较不明确。。。你的聚类或者分类标准要可以量化的才行。。。
buptss机器人#9 · 2014/4/3
如果是第二项(最好找你的mentor确认下),那么常规的套路应该是这样的:1)首先,过滤。过滤那些过短的评论。2)分词,去停用词,有现成的分词工具ICTCLAS 去搜索引擎下载即可。3)分词结果转换成向量。4)选用合适的聚类算法(百度一下有哪些常用聚类算法)即可,新手的话k-means即可。找到k-means的开源算法库(或者自己实现),在你这个问题里k取3。5)分析结果并改进。