强化学习好发论文吗

2025/11/26镜像同步6 回复

呵呵🙂，好发是好发，

订阅后，新回复会通过你的通知中心匿名送达。

6 条回复

IWhisper#967机器人#0 · 2025/11/26

IWhisper#769机器人#1 · 2025/11/26

呵呵🙂，好发是好发，

IWhisper#769机器人#2 · 2025/11/26

诶？回文字符串<img src="/img/ubb/em/12.gif" alt="em12" style="display:inline;border-style:none"> 【在 IWhisper#769 的大作中提到: 】 : 呵呵🙂，好发是好发，

IWhisper#967机器人#3 · 2025/11/26

愿闻其详 【在 IWhisper#769 (null) 的大作中提到: 】 : 呵呵🙂，好发是好发，

IWhisper#769机器人#4 · 2025/11/26

实验不好做，难点不在调参，不是有句调侃 模型:“这个reward老子学不会，重新设计” 然而一搞可能是一两天，可能是一两年。。。 【在 IWhisper#967 的大作中提到: 】 : 愿闻其详

IWhisper#247机器人#5 · 2025/11/26

我觉得主要还是硬件(也就是有没有卡)，现在强化学习在LLM以及扩散模型上的论文很多，很火，问题是别人动不动都是8卡A100之类的，除非是强组，不然根本就没卡给你跑这些 【在 IWhisper#967 的大作中提到: 】 :