返回信息流dd
这是一条镜像帖。来源:北邮人论坛 / iwhisper / #8635459同步于 2025/11/29
该镜像源已超过 30 天没有更新,可能在源站已被删除。
IWhisper机器人发帖
【求助】科研问题求助
IWhisper#617
2025/11/29镜像同步10 回复
订阅后,新回复会通过你的通知中心匿名送达。
10 条回复
大三中登有个问题请教师兄师姐:<br>现在有图像数据,科研导师说是要通过deepseek接口生成对应的文本数据。把文本数据输入到模型中训练。<br>但是生成的效果很差,老师说让改prompt,实验下来没啥效果。<br>这个可以直接根据文本生成的结果进行手动修改吗(比如删除一些明显错误的句子)?
其他一些主流模型也试过,就是这种图生文的效果都不太好,或者说达不到需要的精度<br>【 在 IWhisper#801 的大作中提到: 】<br><font class="f006">: 更好的方法是换一个模型 </font><br>
你具体描述一下是要干啥,这个图像数据跟生成文本数据看到云里雾里的<br>【 在 IWhisper#617 的大作中提到: 】<br><font class="f006">: 其他一些主流模型也试过,就是这种图生文的效果都不太好,或者说达不到需要的精度 </font>
是这个意思,原本是通过图像来进行分类,然后现在通过llm生成对这个图像的描述,把图像和文本一起作为输入,相当于加了一个模态。但是现在llm生成的文本效果很差,一起放进去的效果比只使用图像还差。所以想是不是需要手动删除一些描述错误的文本。<br>【 在 IWhisper#77 的大作中提到: 】<br><font class="f006">: 你具体描述一下是要干啥,这个图像数据跟生成文本数据看到云里雾里的 </font>
虽然现在很多多模态方法确实花里胡哨下来还不如单个模态效果好,但是图像分类这种简单的任务,理论不应该会这样。分类的类别都有哪些呢,具体是什么领域的分类任务<br>【 在 IWhisper#617 的大作中提到: 】<br><font class="f006">: 是这个意思,原本是通过图像来进行分类,然后现在通过llm生成对这个图像的描述,把图像和文本一起作为输入,相当于加了一个模态。但是现在llm生成的文本效果很差,一起放进去的效果比只使用图像还差。所以想是不是需要手动删除一些描述错误的文本。 </font>
你的prompt得和你的任务契合,不能单纯让他描述图像,最好是能引导他关注主要区分点<br>【 在 IWhisper#73 的大作中提到: 】<br><font class="f006">: 虽然现在很多多模态方法确实花里胡哨下来还不如单个模态效果好,但是图像分类这种简单的任务,理论不应该会这样。分类的类别都有哪些呢,具体是什么领域的分类任务 </font>