RLHF - a zessay Collection

zessay 's Collections

Corpus

RLHF

Agent

LLM

RLHF

updated May 27

Synthetic Data RL: Task Definition Is All You Need

Paper • 2505.17063 • Published May 18 • 10
Trinity-RFT: A General-Purpose and Unified Framework for Reinforcement Fine-Tuning of Large Language Models

Paper • 2505.17826 • Published May 23 • 9