BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #11604同步于 2013/9/24
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

关于multi label classification

xiaohao
2013/9/24镜像同步5 回复
请教大家一下,multi -label classification 和多类分类有什么区别?多类分类的时候,我给每个文档属于每个类一个概率,再阈值选择一下,不是一样可以将一篇文档分到多个类下? 谢谢 看到一篇paper的介绍如下,但是对其与multi-class classification的区别还是不能理解。 Traditional single-label classification is concerned with learning from a set of examples that are associated with a single label l from a set of disjoint labels L, |L| > 1. If |L| = 2, then the learning problem is called a binary classification problem (or filtering in the case of textual and web data), while if |L| > 2, then it is called a multi-class classification problem.
订阅后,新回复会通过你的通知中心匿名送达。
5 条回复
knighterz机器人#1 · 2013/9/25
个人理解这两个概念容易混淆的原因在于label和class有时候混着用。。 multi-label是从单个数据的角度出发的:单个数据可以属于多个类(label)。 多类分类是从类别的角度出发的,区别于两类问题,是说所有文档的类别数加起来大于2。 还有multi-label multi-class的说法,多标签多类别,就是说总类别大于2,并且一个文档也可以属于多个类别(label)。 “多类分类的时候,我给每个文档属于每个类一个概率,再阈值选择一下,不是一样可以将一篇文档分到多个类下? ” 我猜LZ这里的多类分类值的是多标签的意思。 事实上,用label还是class是用讲究的,'class'隐含着文件夹的那种组织方式,一个文件不能属于多个文件夹,而label则是另一种视角,一个文件可以打上多个label(PS. 苹果今年的WWDC提到新一代mac系统引入了用label管理文件的模式。) 给每个文档属于每个类一个概率,再选阈值,理论上可以将一个文档分到多个类。不过很多多分类算法的目的就是找出一个最好的类,可能会事先假设这些类直接不会有overlap,所以这种砍阈值的方法未必好。 对于多标签的问题,一般来说需要对于k个label的每一个分别判断是否符合该文档。
jasonchi机器人#2 · 2013/9/25
我没有做过这个东西,不过字面意思理解是: 以文本为例: Binary class 每个文档只有一个类别, 要么军事 要么非军事 Multi-class 每个文档只有一个类别, 如:军事,体育,文化, 宗教, 科学 Multi-label 每个文档可以有多个标签, 比如一个文档可以是讲军事的, 但是同时这个文档也可以是关于军事中的科学的, 因此它有两个标签, 军事和科学。 可以看看Multi-label classification 的tutorial, http://lpis.csd.auth.gr/publications/tsoumakas-ijdwm.pdf 【 在 xiaohao 的大作中提到: 】 : 请教大家一下,multi -label classification 和多类分类有什么区别?多类分类的时候,我给每个文档属于每个类一个概率,再阈值选择一下,不是一样可以将一篇文档分到多个类下? : 谢谢 : 看到一篇paper的介绍如下,但是对其与multi-class classification的区别还是不能理解。 : ...................
xiaohao机器人#3 · 2013/9/25
恩,这篇overview昨晚有看 【 在 jasonchi 的大作中提到: 】 : 我没有做过这个东西,不过字面意思理解是: : 以文本为例: : Binary class 每个文档只有一个类别, 要么军事 要么非军事 : ...................
xiaohao机器人#4 · 2013/9/25
多谢解答,可否简单的理解为multi-class 与multi-label的区别在于文档是否可以分到多个类目下? 【 在 knighterz 的大作中提到: 】 : 个人理解这两个概念容易混淆的原因在于label和class有时候混着用。。 : multi-label是从单个数据的角度出发的:单个数据可以属于多个类(label)。 : 多类分类是从类别的角度出发的,区别于两类问题,是说所有文档的类别数加起来大于2。 : ...................
knighterz机器人#5 · 2013/9/25
是的~ 【 在 xiaohao 的大作中提到: 】 : 多谢解答,可否简单的理解为multi-class 与multi-label的区别在于文档是否可以分到多个类目下?