Edit Models filters

Inference Providers

Nebius AI Studio

HF Inference API

Misc

arxiv: 2312.11456

Inference Endpoints

text-generation-inference

4-bit precision

8-bit precision

Misc with no match

text-embeddings-inference

Carbon Emissions

Mixture of Experts

Models

22

Full-text search

Active filters: 2312.11456

snorkelai/Snorkel-Mistral-PairRM-DPO

Text Generation • Updated May 13, 2024 • 85 • 106

hendrydong/Mistral-RM-for-RAFT-GSHF-v0

Text Classification • Updated Mar 23, 2024 • 23 • 1

weqweasdas/RM-Mistral-7B

Text Classification • Updated Mar 31, 2024 • 85 • 23

sfairXC/FsfairX-Zephyr-Chat-v0.1

Text Generation • Updated Apr 24, 2024 • 20 • 8

sfairXC/FsfairX-LLaMA3-RM-v0.1

Text Classification • Updated Oct 14, 2024 • 3.34k • 59

Salesforce/LLaMA-3-8B-SFR-Iterative-DPO-R

Text Generation • Updated Jan 21 • 1.03k • 77

qwp4w3hyb/SFR-Iterative-DPO-LLaMA-3-8B-R-iMat-GGUF

Text Generation • Updated May 16, 2024 • 29 • 2

RLHFlow/LLaMA3-iterative-DPO-final

Text Generation • Updated Oct 14, 2024 • 2.35k • 40

TriAiExperiments/SFR-Iterative-DPO-LLaMA-3-8B-R

Text Generation • Updated May 24, 2024 • 930 • 1

sirovub/SFR-Iterative-DPO-LLaMA-3-8B-R-GGUF

Text Generation • Updated May 26, 2024 • 18 • 1

Apel-sin/llama-3-8B-iterative-DPO-final-exl2

Updated May 25, 2024 • 3 • 1

thesven/SFR-Iterative-DPO-LLaMA-3-8B-R-GGUF

Updated Jul 8, 2024 • 97 • 1

sirovub/LLaMA3-iterative-DPO-final-GGUF

Text Generation • Updated May 26, 2024 • 14 • 1

QuantFactory/LLaMA-3-8B-SFR-Iterative-DPO-R-GGUF

Text Generation • Updated Jun 19, 2024 • 4 • 1

RichardErkhov/Salesforce_-_LLaMA-3-8B-SFR-Iterative-DPO-R-gguf

Updated Aug 21, 2024 • 573

RichardErkhov/TriAiExperiments_-_SFR-Iterative-DPO-LLaMA-3-8B-R-gguf

Updated Aug 21, 2024 • 178

Wenboz/FsfairX-LLaMA3-RM-clone

Updated Sep 2, 2024 • 3

RichardErkhov/RLHFlow_-_LLaMA3-iterative-DPO-final-gguf

Updated Oct 8, 2024 • 35

RichardErkhov/Salesforce_-_LLaMA-3-8B-SFR-Iterative-DPO-R-8bits

Updated Mar 29 • 1

RichardErkhov/Salesforce_-_LLaMA-3-8B-SFR-Iterative-DPO-R-awq

Updated Mar 29 • 5

RichardErkhov/RLHFlow_-_LLaMA3-iterative-DPO-final-4bits

Updated Apr 3 • 7

RichardErkhov/RLHFlow_-_LLaMA3-iterative-DPO-final-8bits

Updated Apr 3 • 3