返回信息流现在有一些数值如下:
0.01,
4.6,
0.13,
1.8
8.74
0.32
0.001
14.1
21.56
45.6
0.9
1.56
...
...
这是在一些分布之间计算得到的一些列KL散度值,想用这些值去度量分布之间的差异。现在想把这些数值归一化到0~1之间,怎么做规范化得到的数值能够更好的度量分布之间的差异呢?
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #10445同步于 2013/4/24
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
数据规范化求助
ambjlon
2013/4/24镜像同步3 回复
订阅后,新回复会通过你的通知中心匿名送达。
3 条回复
【 在 chentingpc 的大作中提到: 】
: 对分布规范化后在算KL值,而不是算完KL值再规范。
我想度量分布D1,D2,...Dn与D0之间的差异
kl1表示D1和D0的差异,kl2表示D2和D0之间的差异。。。。。。
然后再对kl1,kl2...kln进行规范化。若是kl1,kl2...kln分布的比较均匀,规范化很简单的,关键是你看上面的那些数据,他们分布不均匀,靠近1那边的值很多,然后好几百的数值也有,但是较少,现在怎么较好的把它们规范到1-100这个区间上呢,我想用规范化后的数值作为状态指标。
你说的先对分布进行规范化是什么意思。。。。?
如果分布{Dn}都已经被规范化了,算出来的KL值就不用规范化了。你希望KL值的分布满足你设定的区间规定,这跟KL就没关系了。就像你算欧式距离,得到的值小的可以是0,大的可以是几百几千几万。。你要把你他们弄到一个scale,那就把所有值除以(max-min),或者先做个log什么的,得看你需要的实际效果了。
【 在 ambjlon 的大作中提到: 】
: 我想度量分布D1,D2,...Dn与D0之间的差异
: kl1表示D1和D0的差异,kl2表示D2和D0之间的差异。。。。。。
: 然后再对kl1,kl2...kln进行规范化。若是kl1,kl2...kln分布的比较均匀,规范化很简单的,关键是你看上面的那些数据,他们分布不均匀,靠近1那边的值很多,然后好几百的数值也有,但是较少,现在怎么较好的把它们规范到1-100这个区间上呢,我想用规范化后的数值作为状态指标。
: ...................