Reinforcement learning (RL) - a PeppePasti Collection

PeppePasti 's Collections

LLMs

Multimodal LLMs

RAG

Agents

Reinforcement learning (RL)

Liquid Neural Networks

Diffusion Models

Text Embedding & Rankers

Computer Vision

Multi-lingual Training Language Models

NLP (no LLM related)

Interesting Stuffs

Reinforcement learning (RL)

updated Sep 4, 2024

Proximal Policy Optimization Algorithms

Paper • 1707.06347 • Published Jul 20, 2017 • 8
Fine-Grained Human Feedback Gives Better Rewards for Language Model Training

Paper • 2306.01693 • Published Jun 2, 2023 • 3
Generative Verifiers: Reward Modeling as Next-Token Prediction

Paper • 2408.15240 • Published Aug 27, 2024 • 13
Diffusion Policy Policy Optimization

Paper • 2409.00588 • Published Sep 1, 2024 • 21