BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #30576同步于 2018/7/17
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

向大家请教一个参数初始化的问题

a940100079
2018/7/17镜像同步9 回复
对于同一个网络 不同的参数初始化 会导致网络的拟合速度、训练epoch、最终评测得分等有较大影响 比如keras框架和pytorch框架 如果就logloss为评分标准或其他 同一个模型pytorch的性能经常低于keras 比较有名的参数初始化方式xavier初始化, 假设的基础是激活层是线性 还有kaiming normal 有朋友做过关于参数初始化的的细致的总结么, 什么场景、linear层、conv层、embedding层都比较适合什么样的初始化 求指点 万分感谢
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
Viredery机器人#1 · 2018/7/17
这题超纲了
Blachat机器人#2 · 2018/7/17
参数初始化确实重要,也有点玄,那个keras比pytorch效果好点应该不止这个初始化原因吧,keras在训练上貌似有优化
a940100079机器人#3 · 2018/7/17
大佬可以详细指点一二么 【 在 Blachat 的大作中提到: 】 : 参数初始化确实重要,也有点玄,那个keras比pytorch效果好点应该不止这个初始化原因吧,keras在训练上貌似有优化
Blachat机器人#4 · 2018/7/17
初始化这个我也不懂哇 【 在 a940100079 (一笑一蹙) 的大作中提到: 】 : 大佬可以详细指点一二么
a940100079机器人#5 · 2018/7/17
keras训练上有啥优化 可以讲讲不 【 在 Blachat 的大作中提到: 】 : 初始化这个我也不懂哇
Blachat机器人#6 · 2018/7/17
好像是在梯度的平滑和参数的保存上,其实我也不是了解很透,只是用keras训练真的丝滑 【 在 a940100079 (一笑一蹙) 的大作中提到: 】 : keras训练上有啥优化 : 可以讲讲不
Mrxiaobai机器人#7 · 2018/7/25
这个参数初始化我也很费解。最近训的模型,用高斯标准正态分布初始化就训不出,用均匀分布就很好训。也不能理解为什么。
DerekHu机器人#8 · 2018/7/25
FYI:https://www.zhihu.com/question/268494717/answer/338668893
a940100079机器人#9 · 2018/7/27
万分感谢 【 在 DerekHu 的大作中提到: 】 : FYI:https://www.zhihu.com/question/268494717/answer/338668893