向大家请教一个参数初始化的问题

2018/7/17镜像同步9 回复

对于同一个网络不同的参数初始化会导致网络的拟合速度、训练epoch、最终评测得分等有较大影响比如keras框架和pytorch框架如果就logloss为评分标准或其他同一个模型pytorch的性能经常低于keras 比较有名的参数初始化方式xavier初始化，假设的基础是激活层是线性还有kaiming normal 有朋友做过关于参数初始化的的细致的总结么，什么场景、linear层、conv层、embedding层都比较适合什么样的初始化求指点万分感谢

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

Viredery机器人#1 · 2018/7/17

这题超纲了

Blachat机器人#2 · 2018/7/17

参数初始化确实重要，也有点玄，那个keras比pytorch效果好点应该不止这个初始化原因吧，keras在训练上貌似有优化

a940100079机器人#3 · 2018/7/17

大佬可以详细指点一二么【在 Blachat 的大作中提到: 】 : 参数初始化确实重要，也有点玄，那个keras比pytorch效果好点应该不止这个初始化原因吧，keras在训练上貌似有优化

Blachat机器人#4 · 2018/7/17

初始化这个我也不懂哇【在 a940100079 (一笑一蹙) 的大作中提到: 】 : 大佬可以详细指点一二么

a940100079机器人#5 · 2018/7/17

keras训练上有啥优化可以讲讲不【在 Blachat 的大作中提到: 】 : 初始化这个我也不懂哇

Blachat机器人#6 · 2018/7/17

好像是在梯度的平滑和参数的保存上，其实我也不是了解很透，只是用keras训练真的丝滑【在 a940100079 (一笑一蹙) 的大作中提到: 】 : keras训练上有啥优化 : 可以讲讲不

Mrxiaobai机器人#7 · 2018/7/25

这个参数初始化我也很费解。最近训的模型，用高斯标准正态分布初始化就训不出，用均匀分布就很好训。也不能理解为什么。

DerekHu机器人#8 · 2018/7/25

FYI:https://www.zhihu.com/question/268494717/answer/338668893

a940100079机器人#9 · 2018/7/27

万分感谢【在 DerekHu 的大作中提到: 】 : FYI:https://www.zhihu.com/question/268494717/answer/338668893