RefAlign: RL with Similarity-based Rewards

mzhaoshuai 's Collections

updated 4 days ago

Datasets and models in: Learning from Reference Answers: Versatile Language Model Alignment without Binary Human Preference Data.

Upvote

Learning from Reference Answers: Versatile Language Model Alignment without Binary Human Preference Data

Paper • 2504.09895 • Published Apr 14 • 1
mzhaoshuai/Mistral-7B-v0.1-conf-sft

Text Generation • Updated 9 days ago • 55
mzhaoshuai/Llama-3.3-70B-Inst-awq_ultrafeedback_1in3

Viewer • Updated 11 days ago • 61.1k • 48
mzhaoshuai/Llama-3.3-70B-Inst-awq_SafeRLHF

Preview • Updated 11 days ago • 29
mzhaoshuai/zephyr-7b-alpha-conf-sft

Text Generation • Updated 11 days ago • 39
mzhaoshuai/alpaca-7b-ref-bertscore

Text Generation • 7B • Updated 11 days ago • 66
mzhaoshuai/Llama-2-7b-hf-conf-sft

Text Generation • Updated 11 days ago • 69
mzhaoshuai/zephyr-7b-alpha-conf-refalign

Updated 11 days ago • 46
mzhaoshuai/Mistral-7B-v0.1-conf-refalign

Text Generation • Updated 11 days ago • 46
mzhaoshuai/alpaca-7b-ref-meteor

Text Generation • 7B • Updated 11 days ago • 46
mzhaoshuai/Llama-2-13b-hf-conf-sft

Text Generation • Updated 11 days ago • 51
mzhaoshuai/Llama-2-13b-hf-conf-refalign

Updated 11 days ago • 28
mzhaoshuai/Llama-2-7b-hf-conf-refalign

Text Generation • Updated 11 days ago • 43
mzhaoshuai/Mistral-7B-Instruct-v0.2-ref-simpo

Text Generation • 7B • Updated 11 days ago • 35
mzhaoshuai/Mistral-7B-Instruct-v0.2-refalign

Text Generation • 7B • Updated 11 days ago • 42
mzhaoshuai/NQ-Subset-500

Viewer • Updated 11 days ago • 500 • 25
mzhaoshuai/Llama-3-8B-Instruct-ref-simpo

Text Generation • 8B • Updated 11 days ago • 43
mzhaoshuai/Llama-3-8B-Instruct-refalign

Text Generation • 8B • Updated 11 days ago • 37
mzhaoshuai/llama3-ultrafeedback-bertscore-bart-large-mnli

Viewer • Updated 11 days ago • 60.9k • 34

Upvote