对于银行用户是否会购买定期存款进行预测，用神经网络进行

kaka1992

2013/6/3镜像同步15 回复

已知购买用户与总用户的比例大致为1：9，参数信息为年龄、收入、房贷、婚姻，与银行的联系近况。大致是这些，参数需要自己量化。我出来的结果，对于已知是购买用户的识别率只有5层，怎么破。怎么样才能提高这种的识别率，有4.5w个样本。 30;"unemployed";"married";"primary";"no";1787;"no";"no";"cellular";19;"oct";79;1;-1;0;"unknown";"no" 39;"technician";"married";"secondary";"no";147;"yes";"no";"cellular";6;"may";151;2;-1;0;"unknown";"no" 41;"entrepreneur";"married";"tertiary";"no";221;"yes";"no";"unknown";14;"may";57;2;-1;0;"unknown";"no" 43;"services";"married";"primary";"no";-88;"yes";"yes";"cellular";17;"apr";313;1;147;2;"failure";"no" 39;"services";"married";"secondary";"no";9374;"yes";"no";"unknown";20;"may";273;1;-1;0;"unknown";"no" 43;"admin.";"married";"secondary";"no";264;"yes";"no";"cellular";17;"apr";113;2;-1;0;"unknown";"no" 36;"technician";"married";"tertiary";"no";1109;"no";"no";"cellular";13;"aug";328;2;-1;0;"unknown";"no" 20;"student";"single";"secondary";"no";502;"no";"no";"cellular";30;"apr";261;1;-1;0;"unknown";"yes"

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

chentingpc机器人#1 · 2013/6/3

可以试试随机森林。

kaka1992机器人#2 · 2013/6/3

【在 chentingpc 的大作中提到: 】 : 可以试试随机森林。但是样本的区别度比较小，并且有很多噪声数据，你就看着数据觉得这种人不可能有定期存款的，年收入平衡小于0 ，有房贷，个人贷款。。。。。。好蛋筒。

antinucleon机器人#3 · 2013/6/3

建议您多看点相关文献这个领域明显是Baysian Network主流的用RF怎么做Reasoning Analysis 【在 chentingpc 的大作中提到: 】 : 可以试试随机森林。

chentingpc机器人#4 · 2013/6/3

求推荐文献。。不过我觉得直接当做分类问题做用RF做至少作为baseline是木有什么问题的。【在 antinucleon 的大作中提到: 】 : 建议您多看点相关文献 : 这个领域明显是Baysian Network主流的 : 用RF怎么做Reasoning Analysis : ...................

spiritme机器人#5 · 2013/6/4

比较同意三楼的观点，用贝叶斯网路或神经网络比较好，RF预测结果准确率会很低。

chentingpc机器人#6 · 2013/6/4

有相关的文献比较过这两种方法么？ PS，为什么RF会很低但前两者会很高呢，或者说贝叶斯网络与神经网络在这个问题上的优点是什么？没做过这个问题，求拍醒。。。 @antinucleon 【在 spiritme 的大作中提到: 】 : 比较同意三楼的观点，用贝叶斯网路或神经网络比较好，RF预测结果准确率会很低。

kaka1992机器人#7 · 2013/6/4

【在 spiritme 的大作中提到: 】 : 比较同意三楼的观点，用贝叶斯网路或神经网络比较好，RF预测结果准确率会很低。我用的神经网络，但是对于购买用户的识别率只有50%，怎么提高呢，我觉得是参数量化的问题。

spiritme机器人#8 · 2013/6/4

【在 chentingpc 的大作中提到: 】 : 有相关的文献比较过这两种方法么？ : PS，为什么RF会很低但前两者会很高呢，或者说贝叶斯网络与神经网络在这个问题上的优点是什么？没做过这个问题，求拍醒。。。 : @antinucleon : ................... 我是打酱油的，版主不要太在意，您问的这个相关文献我真没看过，同求。个人感觉随机森林在噪音较大的分类问题上会会过拟，还有就是在这种数据上产出的属性权值逻辑上好像是不可信的。至于LZ说的50%的精度问题，是拿样本数据测的么？还是新用户的估测？如果是样本，那么可能是拟合的还不够；如果是新用户，是不是可以考虑一下样本数据中误差过大，或是属性的分类还不够好。求大牛们给指个出路。

FaceBasin机器人#9 · 2013/6/4

你要预测YES，但是样本数量NO>>YES，这样的话啥算法来了都是白搭。至于应对方法，比较简单的有课上教的重采样和代价矩阵。高端的方法应该也有，LZ可以去扒一扒IEEE。