BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #10662同步于 2013/6/3
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

对于银行用户是否会购买定期存款进行预测,用神经网络进行

kaka1992
2013/6/3镜像同步15 回复
已知购买用户与总用户的比例大致为1:9,参数信息为年龄、收入、房贷、婚姻,与银行的联系近况。大致是这些,参数需要自己量化。我出来的结果,对于已知是购买用户的识别率只有5层,怎么破。怎么样才能提高这种的识别率,有4.5w个样本。 30;"unemployed";"married";"primary";"no";1787;"no";"no";"cellular";19;"oct";79;1;-1;0;"unknown";"no" 39;"technician";"married";"secondary";"no";147;"yes";"no";"cellular";6;"may";151;2;-1;0;"unknown";"no" 41;"entrepreneur";"married";"tertiary";"no";221;"yes";"no";"unknown";14;"may";57;2;-1;0;"unknown";"no" 43;"services";"married";"primary";"no";-88;"yes";"yes";"cellular";17;"apr";313;1;147;2;"failure";"no" 39;"services";"married";"secondary";"no";9374;"yes";"no";"unknown";20;"may";273;1;-1;0;"unknown";"no" 43;"admin.";"married";"secondary";"no";264;"yes";"no";"cellular";17;"apr";113;2;-1;0;"unknown";"no" 36;"technician";"married";"tertiary";"no";1109;"no";"no";"cellular";13;"aug";328;2;-1;0;"unknown";"no" 20;"student";"single";"secondary";"no";502;"no";"no";"cellular";30;"apr";261;1;-1;0;"unknown";"yes"
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
chentingpc机器人#1 · 2013/6/3
可以试试随机森林。
kaka1992机器人#2 · 2013/6/3
【 在 chentingpc 的大作中提到: 】 : 可以试试随机森林。 但是样本的区别度比较小,并且有很多噪声数据,你就看着数据觉得这种人不可能有定期存款的,年收入平衡小于0 ,有房贷,个人贷款。。。。。。好蛋筒。
antinucleon机器人#3 · 2013/6/3
建议您多看点相关文献 这个领域明显是Baysian Network主流的 用RF怎么做Reasoning Analysis 【 在 chentingpc 的大作中提到: 】 : 可以试试随机森林。
chentingpc机器人#4 · 2013/6/3
求推荐文献。。 不过我觉得直接当做分类问题做用RF做至少作为baseline是木有什么问题的。 【 在 antinucleon 的大作中提到: 】 : 建议您多看点相关文献 : 这个领域明显是Baysian Network主流的 : 用RF怎么做Reasoning Analysis : ...................
spiritme机器人#5 · 2013/6/4
比较同意三楼的观点,用贝叶斯网路或神经网络比较好,RF预测结果准确率会很低。
chentingpc机器人#6 · 2013/6/4
有相关的文献比较过这两种方法么? PS,为什么RF会很低但前两者会很高呢,或者说贝叶斯网络与神经网络在这个问题上的优点是什么?没做过这个问题,求拍醒。。。 @antinucleon 【 在 spiritme 的大作中提到: 】 : 比较同意三楼的观点,用贝叶斯网路或神经网络比较好,RF预测结果准确率会很低。
kaka1992机器人#7 · 2013/6/4
【 在 spiritme 的大作中提到: 】 : 比较同意三楼的观点,用贝叶斯网路或神经网络比较好,RF预测结果准确率会很低。 我用的神经网络,但是对于购买用户的识别率只有50%,怎么提高呢,我觉得是参数量化的问题。
spiritme机器人#8 · 2013/6/4
【 在 chentingpc 的大作中提到: 】 : 有相关的文献比较过这两种方法么? : PS,为什么RF会很低但前两者会很高呢,或者说贝叶斯网络与神经网络在这个问题上的优点是什么?没做过这个问题,求拍醒。。。 : @antinucleon : ................... 我是打酱油的,版主不要太在意,您问的这个相关文献我真没看过,同求。 个人感觉随机森林在噪音较大的分类问题上会会过拟,还有就是在这种数据上产出的属性权值逻辑上好像是不可信的。至于LZ说的50%的精度问题,是拿样本数据测的么?还是新用户的估测?如果是样本,那么可能是拟合的还不够;如果是新用户,是不是可以考虑一下样本数据中误差过大,或是属性的分类还不够好。求大牛们给指个出路。
FaceBasin机器人#9 · 2013/6/4
你要预测YES,但是样本数量NO>>YES,这样的话啥算法来了都是白搭。至于应对方法,比较简单的有课上教的重采样和代价矩阵。高端的方法应该也有,LZ可以去扒一扒IEEE。