【篇章情感分类讨论】！！！

2017/5/16镜像同步6 回复

最近在做新闻舆情类的情感分析，文本主要是企业的新闻，思路是将新闻分成正面的和负面的，做一个二分类，然后通过计算分类概率的方法给出正负面中间的一个情感分，比如正面（1）、负面（0）；则最后预测出来的分数取值范围是0-1，越靠近1说明这篇新闻约积极，越靠近0说明越消极；特征用的是双词，通过卡方分布取了前1500维当做特征；分类器用的是朴素贝叶斯；训练模型正负面语料各取了 3000条打好分类标签的新闻，训练之后模型的AUC是93%；但是现在有个问题，就是我拿一些中性的新闻去给模型算情感分，出来的分数比较极端，会很接近0或者1，按道理说中性的新闻情感分数应该在0.5附近；想请教一下各位大大，这种情况是因为训练的量不够还是因为特征处理上有问题呢（在考虑做pca降维）？

订阅后，新回复会通过你的通知中心匿名送达。

6 条回复

asif12机器人#1 · 2017/5/16

如果想要有中性的结果，模型结果就应该三分类吧

cocoray机器人#2 · 2017/5/16

做多分类会比较复杂，因为我想通过计算分类到正负面的概率来说明问题，比如分类到正面的概率是0.6（也就是说分类到负面的概率是0.4），那么这个新闻就大体上属于一个比较中性的新闻【在 asif12 的大作中提到: 】 : 如果想要有中性的结果，模型结果就应该三分类吧

asif12机器人#3 · 2017/5/16

可以结果弄三个维度，softmax概率。不过似乎还需要中性样本训练... 【在 cocoray 的大作中提到: 】 : 做多分类会比较复杂，因为我想通过计算分类到正负面的概率来说明问题，比如分类到正面的概率是0.6（也就是说分类到负面的概率是0.4），那么这个新闻就大体上属于一个比较中性的新闻

cocoray机器人#4 · 2017/5/16

是的，三个维度复杂度会比较高，我想问一下，如果只是做二分类的话，就我这个情况应该如何改进？增加语料数量？【在 asif12 的大作中提到: 】 : 可以结果弄三个维度，softmax概率。不过似乎还需要中性样本训练...

hx0502001机器人#5 · 2017/5/16

双词是指什么？词频逆文档？～通过『我邮2.0』发布

yunhuan机器人#6 · 2017/5/16

我猜是bigram 【在 hx0502001 的大作中提到: 】 : 双词是指什么？词频逆文档？～ : 通过『我邮2.0』发布