This is the official checkpoint of feedback model trained using COFFEE-GYM with PPO strategy.

This model generates natural language feedback given an erroneous code.

For further detials, please see our paper.

Safetensors

Model size

7B params

Tensor type

F32

Model tree for Team-Coffee-Gym/DS-Coder-7B-PPO-CoffeeEval

Quantizations

Team-Coffee-Gym
/

DS-Coder-7B-PPO-CoffeeEval