你好,謝謝你在這個奇妙的模型上工作。 我想訓練類似的東西,但尺寸在14B左右或更多。 我在技術報告中讀到,訓練資料是從CommonCrawl和GitHub過濾的,然後是SFT和DPO與WildChat、CodeContests、open-r1/codeforces-cots、ICPC和LiveCodeBench。 我可能很困惑,但這最後兩個評估集是在培訓中使用的嗎? 你有線上提供後過濾資料的連結嗎?
· Sign up or log in to comment