问题:有一批图文pair,想要提升这批数据的质量,提升图文pair对的准确率。其中文本是图片的cation 目前方法:基于clip、blip的transformer的套路,但是blip中文版本,clip试了一下感觉一般 有没有大佬有好的办法和经验的呀?可有偿 ~