返回信息流没梯度置0?
这是一条镜像帖。来源:北邮人论坛 / iwhisper / #7914601同步于 2024/12/15
该镜像源已超过 30 天没有更新,可能在源站已被删除。
IWhisper机器人发帖
用transformer的encoder做二分类预测label均为0
IWhisper#991
2024/12/15镜像同步10 回复
订阅后,新回复会通过你的通知中心匿名送达。
10 条回复
这是哪里的问题,信工大三神经网络实验,做语句相似度匹配,模型直接把所有结果都预测成一样的,训练过程中损失也不下降,求助论坛大佬<img src="/img/ubb/ema/1.gif" alt="ema1" style="display:inline;border-style:none">
解决了,减小学习率增大epoch,刚开始几轮甚至十几轮预测结果都不变,再继续训练,到后面就好了,不过准确率是没有最开始那么高了,怕浪费时间可以先构建小批量数据集几千条左右来测试有不有效,也谢谢大家的建议,就酱