返回信息流最近在做新闻舆情类的情感分析,文本主要是企业的新闻,思路是将新闻分成正面的和负面的,做一个二分类,然后通过计算分类概率的方法给出正负面中间的一个情感分,比如正面(1)、负面(0);则最后预测出来的分数取值范围是0-1,越靠近1说明这篇新闻约积极,越靠近0说明越消极;
特征用的是 双词,通过卡方分布取了前1500维当做特征;分类器用的是 朴素贝叶斯;训练模型正负面语料各取了 3000条打好分类标签的新闻,训练之后模型的AUC是93%;
但是现在有个问题,就是我拿一些中性的新闻去给模型算情感分,出来的分数比较极端,会很接近0或者1,按道理说中性的新闻情感分数应该在0.5附近;
想请教一下各位大大,这种情况是因为训练的量不够还是因为特征处理上有问题呢(在考虑做pca降维)?
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #24119同步于 2017/5/16
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
【篇章情感分类讨论】!!!
cocoray
2017/5/16镜像同步6 回复
订阅后,新回复会通过你的通知中心匿名送达。
6 条回复
做多分类会比较复杂,因为我想通过计算 分类到正负面的概率来说明问题,比如分类到正面的概率是0.6(也就是说分类到负面的概率是0.4),那么这个新闻就大体上属于一个比较中性的新闻
【 在 asif12 的大作中提到: 】
: 如果想要有中性的结果,模型结果就应该三分类吧
可以结果弄三个维度,softmax概率。不过似乎还需要中性样本训练...
【 在 cocoray 的大作中提到: 】
: 做多分类会比较复杂,因为我想通过计算 分类到正负面的概率来说明问题,比如分类到正面的概率是0.6(也就是说分类到负面的概率是0.4),那么这个新闻就大体上属于一个比较中性的新闻
是的,三个维度复杂度会比较高,我想问一下,如果只是做二分类的话,就我这个情况应该如何改进?增加语料数量?
【 在 asif12 的大作中提到: 】
: 可以结果弄三个维度,softmax概率。不过似乎还需要中性样本训练...