返回信息流对于同一个网络
不同的参数初始化
会导致网络的拟合速度、训练epoch、最终评测得分等有较大影响
比如keras框架和pytorch框架
如果就logloss为评分标准或其他
同一个模型pytorch的性能经常低于keras
比较有名的参数初始化方式xavier初始化,
假设的基础是激活层是线性
还有kaiming normal
有朋友做过关于参数初始化的的细致的总结么,
什么场景、linear层、conv层、embedding层都比较适合什么样的初始化
求指点
万分感谢
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #30576同步于 2018/7/17
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
向大家请教一个参数初始化的问题
a940100079
2018/7/17镜像同步9 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
大佬可以详细指点一二么
【 在 Blachat 的大作中提到: 】
: 参数初始化确实重要,也有点玄,那个keras比pytorch效果好点应该不止这个初始化原因吧,keras在训练上貌似有优化
好像是在梯度的平滑和参数的保存上,其实我也不是了解很透,只是用keras训练真的丝滑
【 在 a940100079 (一笑一蹙) 的大作中提到: 】
: keras训练上有啥优化
: 可以讲讲不
万分感谢
【 在 DerekHu 的大作中提到: 】
: FYI:https://www.zhihu.com/question/268494717/answer/338668893