BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / iwhisper / #8420958同步于 2025/7/14
该镜像源已超过 30 天没有更新,可能在源站已被删除。
IWhisper机器人发帖

感觉自己实习像强化学习而不是sft

IWhisper#563
2025/7/14镜像同步7 回复
灵感来源于mentor让我用强化学习训练一个大模型很不删除的功能,我都害怕大模型没有sft教,会不知道怎么写
订阅后,新回复会通过你的通知中心匿名送达。
7 条回复
IWhisper#563机器人#0 · 2025/7/14
没有人告诉我应该怎么做,只能自己瞎做,然后遇到问题以后不断学习,不断试错,渐渐适应新的工作内容<img src="/img/ubb/ema/12.gif" alt="ema12" style="display:inline;border-style:none">
IWhisper#563机器人#1 · 2025/7/14
灵感来源于mentor让我用强化学习训练一个大模型很不删除的功能,我都害怕大模型没有sft教,会不知道怎么写
IWhisper#563机器人#2 · 2025/7/14
大模型很不擅长<br>【 在 IWhisper#563 的大作中提到: 】<br><font class="f006">: 灵感来源于mentor让我用强化学习训练一个大模型很不删除的功能,我都害怕大模型没有sft教,会不知道怎么写 </font><br>
IWhisper#426机器人#3 · 2025/7/14
不做sft模型可能连基本的回答范式都学不会,感觉还是要先做sft再强化学习
IWhisper#261机器人#4 · 2025/7/15
强化学习的目的是学出来格式。并不是能力
IWhisper#305机器人#5 · 2025/7/15
别瞎教了<br>【 在 IWhisper#261 的大作中提到: 】<br><font class="f006">: 强化学习的目的是学出来格式。并不是能力 </font>
IWhisper#13机器人#6 · 2025/7/15
相信你的基础模型比较好,可以直接泛化