返回信息流已知购买用户与总用户的比例大致为1:9,参数信息为年龄、收入、房贷、婚姻,与银行的联系近况。大致是这些,参数需要自己量化。我出来的结果,对于已知是购买用户的识别率只有5层,怎么破。怎么样才能提高这种的识别率,有4.5w个样本。
30;"unemployed";"married";"primary";"no";1787;"no";"no";"cellular";19;"oct";79;1;-1;0;"unknown";"no"
39;"technician";"married";"secondary";"no";147;"yes";"no";"cellular";6;"may";151;2;-1;0;"unknown";"no"
41;"entrepreneur";"married";"tertiary";"no";221;"yes";"no";"unknown";14;"may";57;2;-1;0;"unknown";"no"
43;"services";"married";"primary";"no";-88;"yes";"yes";"cellular";17;"apr";313;1;147;2;"failure";"no"
39;"services";"married";"secondary";"no";9374;"yes";"no";"unknown";20;"may";273;1;-1;0;"unknown";"no"
43;"admin.";"married";"secondary";"no";264;"yes";"no";"cellular";17;"apr";113;2;-1;0;"unknown";"no"
36;"technician";"married";"tertiary";"no";1109;"no";"no";"cellular";13;"aug";328;2;-1;0;"unknown";"no"
20;"student";"single";"secondary";"no";502;"no";"no";"cellular";30;"apr";261;1;-1;0;"unknown";"yes"
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #10662同步于 2013/6/3
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
对于银行用户是否会购买定期存款进行预测,用神经网络进行
kaka1992
2013/6/3镜像同步15 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
【 在 chentingpc 的大作中提到: 】
: 可以试试随机森林。
但是样本的区别度比较小,并且有很多噪声数据,你就看着数据觉得这种人不可能有定期存款的,年收入平衡小于0 ,有房贷,个人贷款。。。。。。好蛋筒。
建议您多看点相关文献
这个领域明显是Baysian Network主流的
用RF怎么做Reasoning Analysis
【 在 chentingpc 的大作中提到: 】
: 可以试试随机森林。
求推荐文献。。
不过我觉得直接当做分类问题做用RF做至少作为baseline是木有什么问题的。
【 在 antinucleon 的大作中提到: 】
: 建议您多看点相关文献
: 这个领域明显是Baysian Network主流的
: 用RF怎么做Reasoning Analysis
: ...................
有相关的文献比较过这两种方法么?
PS,为什么RF会很低但前两者会很高呢,或者说贝叶斯网络与神经网络在这个问题上的优点是什么?没做过这个问题,求拍醒。。。
@antinucleon
【 在 spiritme 的大作中提到: 】
: 比较同意三楼的观点,用贝叶斯网路或神经网络比较好,RF预测结果准确率会很低。
【 在 spiritme 的大作中提到: 】
: 比较同意三楼的观点,用贝叶斯网路或神经网络比较好,RF预测结果准确率会很低。
我用的神经网络,但是对于购买用户的识别率只有50%,怎么提高呢,我觉得是参数量化的问题。
【 在 chentingpc 的大作中提到: 】
: 有相关的文献比较过这两种方法么?
: PS,为什么RF会很低但前两者会很高呢,或者说贝叶斯网络与神经网络在这个问题上的优点是什么?没做过这个问题,求拍醒。。。
: @antinucleon
: ...................
我是打酱油的,版主不要太在意,您问的这个相关文献我真没看过,同求。
个人感觉随机森林在噪音较大的分类问题上会会过拟,还有就是在这种数据上产出的属性权值逻辑上好像是不可信的。至于LZ说的50%的精度问题,是拿样本数据测的么?还是新用户的估测?如果是样本,那么可能是拟合的还不够;如果是新用户,是不是可以考虑一下样本数据中误差过大,或是属性的分类还不够好。求大牛们给指个出路。
你要预测YES,但是样本数量NO>>YES,这样的话啥算法来了都是白搭。至于应对方法,比较简单的有课上教的重采样和代价矩阵。高端的方法应该也有,LZ可以去扒一扒IEEE。