Safetensors
qwen2

如何使用

#1
by weiminw - opened

你好, 在model card上面的说明中, 我看到你们在prompt中加入了reference answer, 加入这个的作用是什么. 在使用工作中,如果没有 reference answer 是否可以? 具体场景就是. 让AI解决一个问题, 它给出了一个答案, 我用这个模型是否可以判断给出的答案是不是正确的?
非常期待你的回复. 另外是否可以直接使用数据来训练一个单标签回归模型来获得分数?

你好!
没有reference answer是不行的,本文的setting就是reference-based reward。如果是没有reference的情况,可以参考最近deepseek放出的文章Inference-Time Scaling for Generalist Reward Modeling。
此外,关于直接使用数据来训练一个单标签回归模型来获得分数,如果是有reference的setting下,我个人认为是可行的一个方案。如果没有reference的话,似乎与RLHF中的reward model是一样的,有可能仍然有hacking等reward model比较常见的问题。

你好!
没有reference answer是不行的,本文的setting就是reference-based reward。如果是没有reference的情况,可以参考最近deepseek放出的文章Inference-Time Scaling for Generalist Reward Modeling。
此外,关于直接使用数据来训练一个单标签回归模型来获得分数,如果是有reference的setting下,我个人认为是可行的一个方案。如果没有reference的话,似乎与RLHF中的reward model是一样的,有可能仍然有hacking等reward model比较常见的问题。

非常感谢您的回复. 我将持续关注您的工作.感谢您的讲解.

你好,注意到你的这个工作其实提出了一个很好的问题,那就是无标准答案的情况下,怎么评估无结构化的文本如何与reference评估的问题。想了解下你这里面的医疗数据的种类以及规模是如何的?

你好,注意到你的这个工作其实提出了一个很好的问题,那就是无标准答案的情况下,怎么评估无结构化的文本如何与reference评估的问题。想了解下你这里面的医疗数据的种类以及规模是如何的?

我们在通用领域的数据是从ExamQA里面翻译而来的,共有638k条。我们抽取了6k作为测试集,并且只对这6k进行了分类(ExamQA中没有分类标签),所以训练集中的种类及规模我们暂时无法获得。
在paper的figure2中,我们画出了测试集中的详细分类及分布情况,可以用这个数据去估算总体的规模,但更详细的数据暂时还无法提供。

Sign up or log in to comment