Edit Models filters

Inference Providers

Nebius AI Studio

HF Inference API

Misc

Inference Endpoints

text-generation-inference

4-bit precision

8-bit precision

Carbon Emissions

Mixture of Experts

text-embeddings-inference

Misc with no match

Models

6,870

Full-text search

Active filters: grpo

mradermacher/DeepSeek-R1-Distill-Qwen-7B-GRPO_Math-GGUF

Updated Feb 4 • 242

mradermacher/DeepSeek-R1-Qwen-2.5-1.5b-Latest-Unstructured-To-Structured-GGUF

Updated Feb 4 • 61

hyunw3/qwen-2.5-0.5b-r1-countdown_lr5e-6

Text Generation • Updated 4 days ago • 10

khuang2/qwen-2.5-3b-r1-countdown

Text Generation • Updated Feb 5 • 9 • 2

spinech/qwen2.5-3b-r1-arc-train-thinker

Text Generation • Updated Feb 5 • 9 • 1

Dongwei/DeepSeek-R1-Distill-Qwen-7B-GRPO_Math_lowlr

Text Generation • Updated Feb 4 • 13

Dongwei/Qwen-2.5-7B_Math_smalllr

Text Generation • Updated Feb 4 • 17

Dongwei/Qwen2.5-1.5B-Open-R1-GRPO_Math_smalllr

Text Generation • Updated Feb 4 • 23

Dongwei/DeepSeek-R1-Distill-Qwen-1.5B-GRPO_Math_smalllr

Text Generation • Updated Feb 4 • 15

mradermacher/Qwen2.5-1.5B-Thinking-v1.1-GGUF

Updated Feb 4 • 31 • 2

mradermacher/Qwen2.5-1.5B-Thinking-v1.1-i1-GGUF

Updated Feb 4 • 98 • 1

Dongwei/Qwen-2.5-7B_Base_Math_smalllr

Text Generation • Updated Feb 5 • 16 • 6

jeremierostan/qwen-guiding-question

May811/Qwen2.5-1.5B-Open-R1-GRPO

Text Generation • Updated Feb 15 • 14

spinech/qwen2.5-3b-r1-arc-train-thinker-2

Text Generation • Updated Feb 5 • 8

Dongwei/Qwen-2.5-7B_Base_Math_smallestlr

Text Generation • Updated Feb 11 • 16

Dongwei/Qwen-2.5-7B_Base_Math_smallestlr_newdata

Text Generation • Updated Feb 5 • 16

sohyunan/gemma-2-2b-it_controller-grpo

Text Generation • Updated Feb 6 • 8

zzhang1987/Qwen2.5-VL-3B-Instruct-Open-R1-Distill

Image-Text-to-Text • Updated Mar 13 • 10

rzhao17/qwen-2.5-3b-r1-countdown

Text Generation • Updated Feb 7 • 7

Novaciano/Q5KM-Charcard-RP-1B-GRPO_MiniThinky-GGUF

Text Generation • Updated Feb 5 • 8 • 2

schwamaths/Qwen2.5-1.5B-Open-R1-GRPO

Text Generation • Updated Feb 5 • 18

Chris126/qwen-r1-aha-moment

tonysix/SmolLM2-360M

Text Generation • Updated Feb 5 • 7

ibndias/Qwen2.5-1.5B-Open-R1-GRPO1st

Text Generation • Updated Feb 10 • 11

jdqqjr/Qwen2.5-0.5B-Open-R1-GRPO

Text Generation • Updated Feb 7 • 8

khuang2/qwen-2.5-3b-r1-countdown-offline_query_gen

Text Generation • Updated Feb 5 • 8

mradermacher/qwen-2.5-3b-r1-countdown-GGUF

Updated Feb 5 • 22 • 1

mradermacher/prem-1B-grpo-GGUF

Reinforcement Learning • Updated Feb 5 • 27

mradermacher/qwen2.5-3b-r1-arc-train-thinker-GGUF

Updated Feb 5 • 49 • 1