求懂数据挖掘的同学指点一二

Daybreaks

2014/4/2镜像同步11 回复

现在已有类似大众点评的网站数据，每个餐厅有很多评价，要找出最能代表这个餐厅的三条评价。已知数据中把每条评价分为几句，分别做了好中差的标记。这个要用什么算法啊，初学有点没头绪，求指点。

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

hpp机器人#1 · 2014/4/2

都做了好中差的标记了还没有该条评价的重要评分吗？

ai0806机器人#2 · 2014/4/2

这个问题，据我所知应该没有直接的算法，不过问题本身一个比较直接的方法是：你可以把已知数据中所有的句子按照评价极性归为“好”，“中”，“差”三组，之后对于每一组做聚类。完成后，对于每一个餐厅评价，你可以获得一个矩阵X with dimensionality n by t, n 是此餐厅评价数量， t是聚类所得的类别（包含所有三种极性聚类结果），矩阵元素中归于“好”的标记+1， “差” -1， “中” 0，这样你的问题就转化为已知一个矩阵，找出其中三个行向量与这个矩阵所表征意义最接近。那么简单的方法可以用矩阵行向量的平均值作为此矩阵的profile （对应一个餐厅的评价指数）, 之后每一行向量跟这个profile计算distance，找出distance最小的三个就可以了。distance计算可以采用hanmming distance, euclidean distance, etc.

buptss机器人#3 · 2014/4/3

楼主问题描述不够清楚，“最能代表”有好多种解释，列举其中一二，以供楼主挑选。1，被赞同最多的评论；（直接数值排序得出结论）2，相似评论内容最多的，（分词，计算距离，聚类）；3，列举该餐厅的优势和劣势的，（好中差分别聚类）；4，内容最多的最丰富详实的（取评论的字数，然后上排序算法）

buptss机器人#4 · 2014/4/3

是先要把问题描述清晰，而不是先追求解法。解法是对特定问题的，局限性很大，实现耗时长。要知道数据集及评测指标，然后才能从已有方法（选择范围）中选择。希望解答对你有帮助！

phantomlyc机器人#5 · 2014/4/3

最能代表这个限定比较不明确。。。你的聚类或者分类标准要可以量化的才行。。。

Daybreaks机器人#6 · 2014/4/3

好的，谢谢，方向有些明确了【在 ai0806 的大作中提到: 】 : 这个问题，据我所知应该没有直接的算法，不过问题本身一个比较直接的方法是：你可以把已知数据中所有的句子按照评价极性归为“好”，“中”，“差”三组，之后对于每一组做聚类。完成后，对于每一个餐厅评价，你可以获得一个矩阵X with dimensionality n by t, n 是此餐厅评价数量， t是聚类所得的类别（包含所有三种极性聚类结果），矩阵元素中归于“好”的标记+1， “差” -1， “中” 0，这样你的问题就转化为已知一个矩阵，找出其中三个行向量与这个矩阵所表征意义最接近。那么简单的方法可以用矩阵行向量的平均值作为此矩阵的profile （对应一个餐厅的评价指数）, 之后每一行向量跟这个profile计算distance，找出distance最小的三个就可以了。distance计算可以采用hanmming distance, euclidean distance, etc.

Daybreaks机器人#7 · 2014/4/3

因为没有赞同次数的数据，应该第二项比较符合，感谢【在 buptss 的大作中提到: 】 : 楼主问题描述不够清楚，“最能代表”有好多种解释，列举其中一二，以供楼主挑选。1，被赞同最多的评论；（直接数值排序得出结论）2，相似评论内容最多的，（分词，计算距离，聚类）；3，列举该餐厅的优势和劣势的，（好中差分别聚类）；4，内容最多的最丰富详实的（取评论的字数，然后上排序算法）

Daybreaks机器人#8 · 2014/4/3

嗯，这个标准是自己想的【在 phantomlyc 的大作中提到: 】 : 最能代表这个限定比较不明确。。。你的聚类或者分类标准要可以量化的才行。。。

buptss机器人#9 · 2014/4/3

如果是第二项（最好找你的mentor确认下），那么常规的套路应该是这样的：1）首先，过滤。过滤那些过短的评论。2）分词，去停用词，有现成的分词工具ICTCLAS 去搜索引擎下载即可。3）分词结果转换成向量。4)选用合适的聚类算法（百度一下有哪些常用聚类算法）即可，新手的话k-means即可。找到k-means的开源算法库（或者自己实现），在你这个问题里k取3。5)分析结果并改进。