CodCodingCode
/

Qwen2-0.5B-GRPO-test

Generated from Trainer

Model card Files Files and versions

Metrics Training metrics Community

CodCodingCode commited on Apr 20

Commit

6396c8f

·

verified ·

1 Parent(s): 66e75c1

Model save

Files changed (1) hide show

README.md +2 -3

README.md CHANGED Viewed

@@ -1,6 +1,5 @@
 ---
 base_model: Qwen/Qwen2-0.5B-Instruct
-datasets: AI-MO/NuminaMath-TIR
 library_name: transformers
 model_name: Qwen2-0.5B-GRPO-test
 tags:
@@ -12,7 +11,7 @@ licence: license
 # Model Card for Qwen2-0.5B-GRPO-test
-This model is a fine-tuned version of [Qwen/Qwen2-0.5B-Instruct](https://huggingface.co/Qwen/Qwen2-0.5B-Instruct) on the [AI-MO/NuminaMath-TIR](https://huggingface.co/datasets/AI-MO/NuminaMath-TIR) dataset.
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start
@@ -36,7 +35,7 @@ This model was trained with GRPO, a method introduced in [DeepSeekMath: Pushing
 ### Framework versions
 - TRL: 0.16.1
-- Transformers: 4.50.3
 - Pytorch: 2.6.0+cu124
 - Datasets: 3.5.0
 - Tokenizers: 0.21.1

 ---
 base_model: Qwen/Qwen2-0.5B-Instruct
 library_name: transformers
 model_name: Qwen2-0.5B-GRPO-test
 tags:
 # Model Card for Qwen2-0.5B-GRPO-test
+This model is a fine-tuned version of [Qwen/Qwen2-0.5B-Instruct](https://huggingface.co/Qwen/Qwen2-0.5B-Instruct).
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start
 ### Framework versions
 - TRL: 0.16.1
+- Transformers: 4.51.3
 - Pytorch: 2.6.0+cu124
 - Datasets: 3.5.0
 - Tokenizers: 0.21.1