Spaces:

LLMsMaxEntRL
/

maxent-rl-eval-leaderboard

Running

maxent-rl-eval-leaderboard / eval_results /luckeciano

Ctrl+K

2 contributors

Upload eval_results/luckeciano/Qwen-2.5-7B-RL-AC-BigLRv3-Fast-4-v3-AdamEps6/36ec96284216458fc05f39ffe9cd8816f474938f/eval_llm/results_2025-04-18T20-21-47.947931.json with huggingface_hub

1ef235a verified 5 months ago

Qwen-2.5-1.5B-Simple-RL
Upload eval_results/luckeciano/Qwen-2.5-1.5B-Simple-RL/69286fd353f3827de021e138afcc19fb08a168e3/eval_llm/results_2025-03-25T12-24-31.448457.json with huggingface_hub 5 months ago
Qwen-2.5-7B-Answer-Entropy-RL-0.1
Upload eval_results/luckeciano/Qwen-2.5-7B-Answer-Entropy-RL-0.1/433bb17c090761849a564eb26e0359470ef8fe91/eval_llm/results_2025-04-06T17-13-22.409818.json with huggingface_hub 5 months ago
Qwen-2.5-7B-Answer-Entropy-RL-0.4
Upload eval_results/luckeciano/Qwen-2.5-7B-Answer-Entropy-RL-0.4/9210650fc45aa4887ac478050abfe00d6da9d374/eval_llm/results_2025-04-07T12-10-26.417354.json with huggingface_hub 5 months ago
Qwen-2.5-7B-Embedding-Entropy-0.45-Missing-Response
Upload eval_results/luckeciano/Qwen-2.5-7B-Embedding-Entropy-0.45-Missing-Response/dc8ba403dd7554b0bcf5e9854bd419e8ac71ed08/eval_llm/results_2025-04-10T15-54-37.506023.json with huggingface_hub 5 months ago
Qwen-2.5-7B-Embedding-Entropy-RL-0.1
Upload eval_results/luckeciano/Qwen-2.5-7B-Embedding-Entropy-RL-0.1/18684c775ff260b81ccdf8f8b7650612cdfee5d0/eval_llm/results_2025-04-05T12-32-08.937641.json with huggingface_hub 5 months ago
Qwen-2.5-7B-Embedding-Entropy-RL-0.25
Upload eval_results/luckeciano/Qwen-2.5-7B-Embedding-Entropy-RL-0.25/7c45bbc6b80e2f81f8bf0bc97157e874a223c612/eval_llm/results_2025-04-05T12-34-34.761860.json with huggingface_hub 5 months ago
Qwen-2.5-7B-Embedding-Entropy-RL-Len-Penalty
Upload eval_results/luckeciano/Qwen-2.5-7B-Embedding-Entropy-RL-Len-Penalty/528b6de1d6ca78f3ce84afcd4ef57003e26e8602/eval_llm/results_2025-04-06T13-54-46.703942.json with huggingface_hub 5 months ago
Qwen-2.5-7B-Len-Penalty-Baseline-v2
Upload eval_results/luckeciano/Qwen-2.5-7B-Len-Penalty-Baseline-v2/bed7afd117c837e24d5d8fa86ac18a1138972f1e/eval_llm/results_2025-04-09T14-31-21.394956.json with huggingface_hub 5 months ago
Qwen-2.5-7B-Len-Penalty-Baseline
Upload eval_results/luckeciano/Qwen-2.5-7B-Len-Penalty-Baseline/08288dadc8147a2e42b9a0b80e9aee3b33566dcb/eval_llm/results_2025-04-08T12-25-39.868801.json with huggingface_hub 5 months ago
Qwen-2.5-7B-Missing-Response-RL-Baseline
Upload eval_results/luckeciano/Qwen-2.5-7B-Missing-Response-RL-Baseline/f5bb1a8f30f69b2458244babdd2780e14e93244f/eval_llm/results_2025-04-08T12-21-23.350390.json with huggingface_hub 5 months ago
Qwen-2.5-7B-RL-AC-BigLRv3-Fast-4-v3-AdamEps6
Upload eval_results/luckeciano/Qwen-2.5-7B-RL-AC-BigLRv3-Fast-4-v3-AdamEps6/36ec96284216458fc05f39ffe9cd8816f474938f/eval_llm/results_2025-04-18T20-21-47.947931.json with huggingface_hub 5 months ago
Qwen-2.5-7B-RL-AC-BigLRv3-Fast-4
Upload eval_results/luckeciano/Qwen-2.5-7B-RL-AC-BigLRv3-Fast-4/acb050635b5685ec84c7ac7edd7ac12d13553608/eval_llm/results_2025-04-17T13-07-41.216836.json with huggingface_hub 5 months ago
Qwen-2.5-7B-RL-AC-BigLRv3
Upload eval_results/luckeciano/Qwen-2.5-7B-RL-AC-BigLRv3/a23c5ed65dbcb5a2550dc4863251e55373993581/eval_llm/results_2025-04-14T12-55-00.365361.json with huggingface_hub 5 months ago
Qwen-2.5-7B-Simple-RL
Upload eval_results/luckeciano/Qwen-2.5-7B-Simple-RL/867f8df55e21cbfa4f9557e21fb15d16c2a91c41/eval_llm/results_2025-03-25T12-24-44.786811.json with huggingface_hub 5 months ago