返回信息流请教大家一下,multi -label classification 和多类分类有什么区别?多类分类的时候,我给每个文档属于每个类一个概率,再阈值选择一下,不是一样可以将一篇文档分到多个类下?
谢谢
看到一篇paper的介绍如下,但是对其与multi-class classification的区别还是不能理解。
Traditional single-label classification is concerned with learning from a set of examples that are associated with a single label l from a set of disjoint labels L, |L| > 1. If |L| = 2, then the learning problem is called a binary classification problem (or filtering in the case of textual and web data), while if |L| > 2, then it is called a multi-class classification problem.
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #11604同步于 2013/9/24
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
关于multi label classification
xiaohao
2013/9/24镜像同步5 回复
订阅后,新回复会通过你的通知中心匿名送达。
5 条回复
个人理解这两个概念容易混淆的原因在于label和class有时候混着用。。
multi-label是从单个数据的角度出发的:单个数据可以属于多个类(label)。
多类分类是从类别的角度出发的,区别于两类问题,是说所有文档的类别数加起来大于2。
还有multi-label multi-class的说法,多标签多类别,就是说总类别大于2,并且一个文档也可以属于多个类别(label)。
“多类分类的时候,我给每个文档属于每个类一个概率,再阈值选择一下,不是一样可以将一篇文档分到多个类下? ”
我猜LZ这里的多类分类值的是多标签的意思。
事实上,用label还是class是用讲究的,'class'隐含着文件夹的那种组织方式,一个文件不能属于多个文件夹,而label则是另一种视角,一个文件可以打上多个label(PS. 苹果今年的WWDC提到新一代mac系统引入了用label管理文件的模式。)
给每个文档属于每个类一个概率,再选阈值,理论上可以将一个文档分到多个类。不过很多多分类算法的目的就是找出一个最好的类,可能会事先假设这些类直接不会有overlap,所以这种砍阈值的方法未必好。
对于多标签的问题,一般来说需要对于k个label的每一个分别判断是否符合该文档。
我没有做过这个东西,不过字面意思理解是:
以文本为例:
Binary class 每个文档只有一个类别, 要么军事 要么非军事
Multi-class 每个文档只有一个类别, 如:军事,体育,文化, 宗教, 科学
Multi-label 每个文档可以有多个标签, 比如一个文档可以是讲军事的, 但是同时这个文档也可以是关于军事中的科学的, 因此它有两个标签, 军事和科学。
可以看看Multi-label classification 的tutorial, http://lpis.csd.auth.gr/publications/tsoumakas-ijdwm.pdf
【 在 xiaohao 的大作中提到: 】
: 请教大家一下,multi -label classification 和多类分类有什么区别?多类分类的时候,我给每个文档属于每个类一个概率,再阈值选择一下,不是一样可以将一篇文档分到多个类下?
: 谢谢
: 看到一篇paper的介绍如下,但是对其与multi-class classification的区别还是不能理解。
: ...................
恩,这篇overview昨晚有看
【 在 jasonchi 的大作中提到: 】
: 我没有做过这个东西,不过字面意思理解是:
: 以文本为例:
: Binary class 每个文档只有一个类别, 要么军事 要么非军事
: ...................
多谢解答,可否简单的理解为multi-class 与multi-label的区别在于文档是否可以分到多个类目下?
【 在 knighterz 的大作中提到: 】
: 个人理解这两个概念容易混淆的原因在于label和class有时候混着用。。
: multi-label是从单个数据的角度出发的:单个数据可以属于多个类(label)。
: 多类分类是从类别的角度出发的,区别于两类问题,是说所有文档的类别数加起来大于2。
: ...................
是的~
【 在 xiaohao 的大作中提到: 】
: 多谢解答,可否简单的理解为multi-class 与multi-label的区别在于文档是否可以分到多个类目下?