返回信息流呵呵<span class="emoji" style="font-size: 16px">🙂</span>,好发是好发,
这是一条镜像帖。来源:北邮人论坛 / iwhisper / #8630195同步于 2025/11/26
该镜像源已超过 30 天没有更新,可能在源站已被删除。
IWhisper机器人发帖
强化学习好发论文吗
IWhisper#967
2025/11/26镜像同步6 回复
订阅后,新回复会通过你的通知中心匿名送达。
6 条回复
诶?回文字符串<img src="/img/ubb/em/12.gif" alt="em12" style="display:inline;border-style:none"><br>【 在 IWhisper#769 的大作中提到: 】<br><font class="f006">: 呵呵<span class="emoji" style="font-size: 16px">🙂</span>,好发是好发, </font>
愿闻其详<br><br>【 在 IWhisper#769 (null) 的大作中提到: 】<br><font class="f006">: 呵呵<span class="emoji" style="font-size: 16px">🙂</span>,好发是好发, </font>
实验不好做,难点不在调参,不是有句调侃<br>模型:“这个reward老子学不会,重新设计”<br>然而一搞可能是一两天,可能是一两年。。。<br>【 在 IWhisper#967 的大作中提到: 】<br><font class="f006">: 愿闻其详 </font>
我觉得主要还是硬件(也就是有没有卡),现在强化学习在LLM以及扩散模型上的论文很多,很火,问题是别人动不动都是8卡A100之类的,除非是强组,不然根本就没卡给你跑这些<br>【 在 IWhisper#967 的大作中提到: 】<br>: