Reward Bench 2 - a allenai Collection

allenai 's Collections

OLMo 2

olmOCR

OLMoE (January 2025)

PixMo

Tulu 3 Datasets

Molmo

OLMoE (November 2024)

Tulu V2.5 Suite

Paloma

SciRIFF

AI2 Safety Toolkit

Zebra Logic Bench

OLMo 2 Preview Post-trained Models

ACE

Reward Bench 2

updated 4 days ago

Datasets, spaces, and models for Reward Bench 2 benchmark and paper!

allenai/reward-bench-2

Viewer • Updated 2 days ago • 1.87k • 511 • 12
Running

375

375

Reward Bench Leaderboard

📐

Display and filter reward model evaluation data
allenai/reward-bench-2-results

Preview • Updated 40 minutes ago • 91 • 1
allenai/Llama-3.1-70B-Instruct-RM-RB2

Text Classification • Updated 2 days ago • 21
allenai/Llama-3.1-8B-Instruct-RM-RB2

Text Classification • Updated 2 days ago • 113
allenai/Llama-3.1-Tulu-3-8B-RL-RM-RB2

Text Classification • Updated 2 days ago • 109
allenai/Llama-3.1-Tulu-3-8B-DPO-RM-RB2

Text Classification • Updated 2 days ago • 73
allenai/Llama-3.1-Tulu-3-8B-SFT-RM-RB2

Text Classification • Updated 2 days ago • 33
allenai/Llama-3.1-8B-Base-RM-RB2

Text Classification • Updated 2 days ago • 67
allenai/Llama-3.1-Tulu-3-70B-SFT-RM-RB2

Text Classification • Updated 2 days ago • 41
RewardBench 2: Advancing Reward Model Evaluation

Paper • 2506.01937 • Published 4 days ago • 4