如何使用

by weiminw - opened Apr 9

Apr 9

你好, 在model card上面的说明中, 我看到你们在prompt中加入了reference answer, 加入这个的作用是什么. 在使用工作中,如果没有 reference answer 是否可以? 具体场景就是. 让AI解决一个问题, 它给出了一个答案, 我用这个模型是否可以判断给出的答案是不是正确的?
非常期待你的回复. 另外是否可以直接使用数据来训练一个单标签回归模型来获得分数?

virtuoussy

Owner Apr 9

你好！
没有reference answer是不行的，本文的setting就是reference-based reward。如果是没有reference的情况，可以参考最近deepseek放出的文章Inference-Time Scaling for Generalist Reward Modeling。
此外，关于直接使用数据来训练一个单标签回归模型来获得分数，如果是有reference的setting下，我个人认为是可行的一个方案。如果没有reference的话，似乎与RLHF中的reward model是一样的，有可能仍然有hacking等reward model比较常见的问题。

weiminw

Apr 14

你好！
没有reference answer是不行的，本文的setting就是reference-based reward。如果是没有reference的情况，可以参考最近deepseek放出的文章Inference-Time Scaling for Generalist Reward Modeling。
此外，关于直接使用数据来训练一个单标签回归模型来获得分数，如果是有reference的setting下，我个人认为是可行的一个方案。如果没有reference的话，似乎与RLHF中的reward model是一样的，有可能仍然有hacking等reward model比较常见的问题。

非常感谢您的回复. 我将持续关注您的工作.感谢您的讲解.

leoliulz

Apr 30

你好，注意到你的这个工作其实提出了一个很好的问题，那就是无标准答案的情况下，怎么评估无结构化的文本如何与reference评估的问题。想了解下你这里面的医疗数据的种类以及规模是如何的？

virtuoussy

Owner May 4

你好，注意到你的这个工作其实提出了一个很好的问题，那就是无标准答案的情况下，怎么评估无结构化的文本如何与reference评估的问题。想了解下你这里面的医疗数据的种类以及规模是如何的？

我们在通用领域的数据是从ExamQA里面翻译而来的，共有638k条。我们抽取了6k作为测试集，并且只对这6k进行了分类（ExamQA中没有分类标签），所以训练集中的种类及规模我们暂时无法获得。
在paper的figure2中，我们画出了测试集中的详细分类及分布情况，可以用这个数据去估算总体的规模，但更详细的数据暂时还无法提供。

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment