liumy2010 (Mingyang Liu)

Collections 1

UFT: Unifying Supervised and Reinforcement Fine-Tuning

UFT: Unifying Supervised and Reinforcement Fine-Tuning

Paper • 2505.16984 • Published 16 days ago • 3
liumy2010/Llama-3.2-1B-countdown-R3

Text Generation • Updated 8 days ago • 7
liumy2010/Llama-3.2-1B-countdown-RFT

Text Generation • Updated 8 days ago • 9
liumy2010/Llama-3.2-1B-countdown-SFT

Text Generation • Updated 8 days ago • 9

Papers 1

arxiv:2505.16984

models 75

datasets 4

liumy2010/UFT-Other_Evaluation_Datasets

Viewer • Updated 10 days ago • 4.93k • 11

liumy2010/UFT-Logic

Viewer • Updated 10 days ago • 5k • 20

liumy2010/UFT-MATH_3_4_5

Viewer • Updated 10 days ago • 9.26k • 16

liumy2010/UFT-Countdown

Viewer • Updated 10 days ago • 11.3k • 17

Mingyang Liu PRO

AI & ML interests

Recent Activity

Organizations

Collections 1

UFT: Unifying Supervised and Reinforcement Fine-Tuning

liumy2010/Llama-3.2-1B-countdown-R3

liumy2010/Llama-3.2-1B-countdown-RFT

liumy2010/Llama-3.2-1B-countdown-SFT

Papers 1

models 75

liumy2010/Qwen2.5-3B-math-UFT

liumy2010/Qwen2.5-3B-math-SFT-RFT

liumy2010/Qwen2.5-3B-math-SFT

liumy2010/Qwen2.5-3B-math-RFT

liumy2010/Qwen2.5-3B-math-R3

liumy2010/Qwen2.5-3B-kk_logic-UFT

liumy2010/Qwen2.5-3B-kk_logic-SFT-RFT

liumy2010/Qwen2.5-3B-kk_logic-SFT

liumy2010/Qwen2.5-3B-kk_logic-RFT

liumy2010/Qwen2.5-3B-kk_logic-R3

datasets 4

liumy2010/UFT-Other_Evaluation_Datasets

liumy2010/UFT-Logic

liumy2010/UFT-MATH_3_4_5

liumy2010/UFT-Countdown

Mingyang Liu PRO

AI & ML interests

Recent Activity

Organizations

Collections 1

Papers 1

models 75 Sort: Recently updated

datasets 4 Sort: Recently updated

models 75

datasets 4