yifanzhang114
/

MM-RLHF-Reward-7B-llava-ov-qwen

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.9981378026070763,
+  "eval_steps": 500,
+  "global_step": 134,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01,
+      "grad_norm": 20.656896651231627,
+      "learning_rate": 3.5714285714285716e-07,
+      "loss": 3.6136,
+      "step": 1,
+      "trainloss/critic_chosen": 1.459133505821228,
+      "trainloss/critic_rejected": 1.468864917755127,
+      "trainloss/reward": 1.459133505821228,
+      "trainrewards/accuracies": 0.5833333134651184,
+      "trainrewards/chosen": 0.3359375,
+      "trainrewards/margins": 0.0308837890625,
+      "trainrewards/rejected": 0.3046875
+    },
+    {
+      "epoch": 0.01,
+      "grad_norm": 20.747827742934472,
+      "learning_rate": 7.142857142857143e-07,
+      "loss": 3.6381,
+      "step": 2,
+      "trainloss/critic_chosen": 1.4447739124298096,
+      "trainloss/critic_rejected": 1.4999535083770752,
+      "trainloss/reward": 1.4447739124298096,
+      "trainrewards/accuracies": 0.5104166865348816,
+      "trainrewards/chosen": 0.314453125,
+      "trainrewards/margins": 0.01531982421875,
+      "trainrewards/rejected": 0.298828125
+    },
+    {
+      "epoch": 0.02,
+      "grad_norm": 19.429850511676147,
+      "learning_rate": 1.0714285714285714e-06,
+      "loss": 3.6713,
+      "step": 3,
+      "trainloss/critic_chosen": 1.4738179445266724,
+      "trainloss/critic_rejected": 1.505049228668213,
+      "trainloss/reward": 1.4738179445266724,
+      "trainrewards/accuracies": 0.5364583134651184,
+      "trainrewards/chosen": 0.302734375,
+      "trainrewards/margins": 0.015869140625,
+      "trainrewards/rejected": 0.287109375
+    },
+    {
+      "epoch": 0.03,
+      "grad_norm": 19.353394477551088,
+      "learning_rate": 1.4285714285714286e-06,
+      "loss": 3.6414,
+      "step": 4,
+      "trainloss/critic_chosen": 1.4593632221221924,
+      "trainloss/critic_rejected": 1.4944238662719727,
+      "trainloss/reward": 1.4593632221221924,
+      "trainrewards/accuracies": 0.5572916865348816,
+      "trainrewards/chosen": 0.357421875,
+      "trainrewards/margins": 0.0286865234375,
+      "trainrewards/rejected": 0.328125
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 19.314515274756275,
+      "learning_rate": 1.7857142857142859e-06,
+      "loss": 3.6014,
+      "step": 5,
+      "trainloss/critic_chosen": 1.4528993368148804,
+      "trainloss/critic_rejected": 1.5066261291503906,
+      "trainloss/reward": 1.4528993368148804,
+      "trainrewards/accuracies": 0.7760417461395264,
+      "trainrewards/chosen": 0.494140625,
+      "trainrewards/margins": 0.130859375,
+      "trainrewards/rejected": 0.36328125
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 17.65488892011503,
+      "learning_rate": 2.1428571428571427e-06,
+      "loss": 3.5132,
+      "step": 6,
+      "trainloss/critic_chosen": 1.4163868427276611,
+      "trainloss/critic_rejected": 1.4701489210128784,
+      "trainloss/reward": 1.4163868427276611,
+      "trainrewards/accuracies": 0.7864583730697632,
+      "trainrewards/chosen": 0.54296875,
+      "trainrewards/margins": 0.169921875,
+      "trainrewards/rejected": 0.373046875
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 14.922878013160528,
+      "learning_rate": 2.5e-06,
+      "loss": 3.4609,
+      "step": 7,
+      "trainloss/critic_chosen": 1.4025382995605469,
+      "trainloss/critic_rejected": 1.4922353029251099,
+      "trainloss/reward": 1.4025382995605469,
+      "trainrewards/accuracies": 0.8281250596046448,
+      "trainrewards/chosen": 0.9453125,
+      "trainrewards/margins": 0.376953125,
+      "trainrewards/rejected": 0.56640625
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 14.232594419094823,
+      "learning_rate": 2.8571428571428573e-06,
+      "loss": 3.3368,
+      "step": 8,
+      "trainloss/critic_chosen": 1.3685592412948608,
+      "trainloss/critic_rejected": 1.4283447265625,
+      "trainloss/reward": 1.3685592412948608,
+      "trainrewards/accuracies": 0.8645833730697632,
+      "trainrewards/chosen": 1.0078125,
+      "trainrewards/margins": 0.47265625,
+      "trainrewards/rejected": 0.53515625
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 12.480541507697524,
+      "learning_rate": 3.2142857142857147e-06,
+      "loss": 3.0686,
+      "step": 9,
+      "trainloss/critic_chosen": 1.3232171535491943,
+      "trainloss/critic_rejected": 1.3606585264205933,
+      "trainloss/reward": 1.3232171535491943,
+      "trainrewards/accuracies": 0.9114583134651184,
+      "trainrewards/chosen": 1.671875,
+      "trainrewards/margins": 1.3359375,
+      "trainrewards/rejected": 0.333984375
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 8.25153148096521,
+      "learning_rate": 3.5714285714285718e-06,
+      "loss": 3.0194,
+      "step": 10,
+      "trainloss/critic_chosen": 1.289527177810669,
+      "trainloss/critic_rejected": 1.3465213775634766,
+      "trainloss/reward": 1.289527177810669,
+      "trainrewards/accuracies": 0.9010416865348816,
+      "trainrewards/chosen": 1.3125,
+      "trainrewards/margins": 1.4375,
+      "trainrewards/rejected": -0.1220703125
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 15.573626174864643,
+      "learning_rate": 3.928571428571429e-06,
+      "loss": 2.9476,
+      "step": 11,
+      "trainloss/critic_chosen": 1.266632318496704,
+      "trainloss/critic_rejected": 1.3359544277191162,
+      "trainloss/reward": 1.266632318496704,
+      "trainrewards/accuracies": 0.9010417461395264,
+      "trainrewards/chosen": 0.208984375,
+      "trainrewards/margins": 2.25,
+      "trainrewards/rejected": -2.046875
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 8.798738351150583,
+      "learning_rate": 4.2857142857142855e-06,
+      "loss": 2.9208,
+      "step": 12,
+      "trainloss/critic_chosen": 1.285549521446228,
+      "trainloss/critic_rejected": 1.336460828781128,
+      "trainloss/reward": 1.285549521446228,
+      "trainrewards/accuracies": 0.9270833730697632,
+      "trainrewards/chosen": 1.390625,
+      "trainrewards/margins": 2.453125,
+      "trainrewards/rejected": -1.0625
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 10.920314695532706,
+      "learning_rate": 4.642857142857144e-06,
+      "loss": 2.9737,
+      "step": 13,
+      "trainloss/critic_chosen": 1.3031879663467407,
+      "trainloss/critic_rejected": 1.3538345098495483,
+      "trainloss/reward": 1.3031879663467407,
+      "trainrewards/accuracies": 0.9583333134651184,
+      "trainrewards/chosen": 1.9453125,
+      "trainrewards/margins": 2.203125,
+      "trainrewards/rejected": -0.255859375
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 7.902411216600844,
+      "learning_rate": 5e-06,
+      "loss": 2.8568,
+      "step": 14,
+      "trainloss/critic_chosen": 1.2445811033248901,
+      "trainloss/critic_rejected": 1.3195788860321045,
+      "trainloss/reward": 1.2445811033248901,
+      "trainrewards/accuracies": 0.90625,
+      "trainrewards/chosen": 1.5078125,
+      "trainrewards/margins": 2.09375,
+      "trainrewards/rejected": -0.5859375
+    },
+    {
+      "epoch": 0.11,
+      "grad_norm": 11.497405609399582,
+      "learning_rate": 4.999143312438893e-06,
+      "loss": 2.8485,
+      "step": 15,
+      "trainloss/critic_chosen": 1.2575112581253052,
+      "trainloss/critic_rejected": 1.303661823272705,
+      "trainloss/reward": 1.2575112581253052,
+      "trainrewards/accuracies": 0.9270833134651184,
+      "trainrewards/chosen": 0.55078125,
+      "trainrewards/margins": 1.84375,
+      "trainrewards/rejected": -1.2890625
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 8.767557307270321,
+      "learning_rate": 4.9965738368864345e-06,
+      "loss": 2.8737,
+      "step": 16,
+      "trainloss/critic_chosen": 1.2387288808822632,
+      "trainloss/critic_rejected": 1.3038721084594727,
+      "trainloss/reward": 1.2387288808822632,
+      "trainrewards/accuracies": 0.9010416865348816,
+      "trainrewards/chosen": 1.578125,
+      "trainrewards/margins": 2.59375,
+      "trainrewards/rejected": -1.015625
+    },
+    {
+      "epoch": 0.13,
+      "grad_norm": 8.749611939075479,
+      "learning_rate": 4.992293334332821e-06,
+      "loss": 2.8681,
+      "step": 17,
+      "trainloss/critic_chosen": 1.2373957633972168,
+      "trainloss/critic_rejected": 1.302640676498413,
+      "trainloss/reward": 1.2373957633972168,
+      "trainrewards/accuracies": 0.9322916865348816,
+      "trainrewards/chosen": 1.5859375,
+      "trainrewards/margins": 2.203125,
+      "trainrewards/rejected": -0.61328125
+    },
+    {
+      "epoch": 0.13,
+      "grad_norm": 8.484573172931489,
+      "learning_rate": 4.986304738420684e-06,
+      "loss": 2.8305,
+      "step": 18,
+      "trainloss/critic_chosen": 1.23964262008667,
+      "trainloss/critic_rejected": 1.297165870666504,
+      "trainloss/reward": 1.23964262008667,
+      "trainrewards/accuracies": 0.9166666865348816,
+      "trainrewards/chosen": 0.60546875,
+      "trainrewards/margins": 1.765625,
+      "trainrewards/rejected": -1.15625
+    },
+    {
+      "epoch": 0.14,
+      "grad_norm": 5.43676917020596,
+      "learning_rate": 4.978612153434527e-06,
+      "loss": 2.7193,
+      "step": 19,
+      "trainloss/critic_chosen": 1.2180960178375244,
+      "trainloss/critic_rejected": 1.2327347993850708,
+      "trainloss/reward": 1.2180960178375244,
+      "trainrewards/accuracies": 0.9479166865348816,
+      "trainrewards/chosen": 1.5546875,
+      "trainrewards/margins": 2.296875,
+      "trainrewards/rejected": -0.7421875
+    },
+    {
+      "epoch": 0.15,
+      "grad_norm": 5.651490595569425,
+      "learning_rate": 4.9692208514878445e-06,
+      "loss": 2.8528,
+      "step": 20,
+      "trainloss/critic_chosen": 1.2103852033615112,
+      "trainloss/critic_rejected": 1.3035379648208618,
+      "trainloss/reward": 1.2103852033615112,
+      "trainrewards/accuracies": 0.9062500596046448,
+      "trainrewards/chosen": 1.75,
+      "trainrewards/margins": 2.6875,
+      "trainrewards/rejected": -0.94921875
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 5.1975082682744524,
+      "learning_rate": 4.958137268909887e-06,
+      "loss": 2.7287,
+      "step": 21,
+      "trainloss/critic_chosen": 1.1857198476791382,
+      "trainloss/critic_rejected": 1.2193048000335693,
+      "trainloss/reward": 1.1857198476791382,
+      "trainrewards/accuracies": 0.9114583730697632,
+      "trainrewards/chosen": 1.4296875,
+      "trainrewards/margins": 2.21875,
+      "trainrewards/rejected": -0.7890625
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 5.466958288822169,
+      "learning_rate": 4.9453690018345144e-06,
+      "loss": 2.7514,
+      "step": 22,
+      "trainloss/critic_chosen": 1.1868751049041748,
+      "trainloss/critic_rejected": 1.256333827972412,
+      "trainloss/reward": 1.1868751049041748,
+      "trainrewards/accuracies": 0.9427083730697632,
+      "trainrewards/chosen": 0.953125,
+      "trainrewards/margins": 1.71875,
+      "trainrewards/rejected": -0.76171875
+    },
+    {
+      "epoch": 0.17,
+      "grad_norm": 4.795005616591591,
+      "learning_rate": 4.930924800994192e-06,
+      "loss": 2.7025,
+      "step": 23,
+      "trainloss/critic_chosen": 1.1841645240783691,
+      "trainloss/critic_rejected": 1.2626478672027588,
+      "trainloss/reward": 1.1841645240783691,
+      "trainrewards/accuracies": 0.9270833134651184,
+      "trainrewards/chosen": 1.0625,
+      "trainrewards/margins": 2.09375,
+      "trainrewards/rejected": -1.0390625
+    },
+    {
+      "epoch": 0.18,
+      "grad_norm": 7.216599935232891,
+      "learning_rate": 4.914814565722671e-06,
+      "loss": 2.7024,
+      "step": 24,
+      "trainloss/critic_chosen": 1.1600149869918823,
+      "trainloss/critic_rejected": 1.216670036315918,
+      "trainloss/reward": 1.1600149869918823,
+      "trainrewards/accuracies": 0.90625,
+      "trainrewards/chosen": 1.953125,
+      "trainrewards/margins": 2.53125,
+      "trainrewards/rejected": -0.578125
+    },
+    {
+      "epoch": 0.19,
+      "grad_norm": 5.574536341669933,
+      "learning_rate": 4.897049337170483e-06,
+      "loss": 2.6825,
+      "step": 25,
+      "trainloss/critic_chosen": 1.17496919631958,
+      "trainloss/critic_rejected": 1.2430278062820435,
+      "trainloss/reward": 1.17496919631958,
+      "trainrewards/accuracies": 0.9427083730697632,
+      "trainrewards/chosen": 1.84375,
+      "trainrewards/margins": 2.71875,
+      "trainrewards/rejected": -0.87109375
+    },
+    {
+      "epoch": 0.19,
+      "grad_norm": 8.130831144336229,
+      "learning_rate": 4.8776412907378845e-06,
+      "loss": 2.7403,
+      "step": 26,
+      "trainloss/critic_chosen": 1.1843974590301514,
+      "trainloss/critic_rejected": 1.2316250801086426,
+      "trainloss/reward": 1.1843974590301514,
+      "trainrewards/accuracies": 0.9270833730697632,
+      "trainrewards/chosen": 0.322265625,
+      "trainrewards/margins": 2.09375,
+      "trainrewards/rejected": -1.78125
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 4.106462749941039,
+      "learning_rate": 4.856603727730446e-06,
+      "loss": 2.6318,
+      "step": 27,
+      "trainloss/critic_chosen": 1.1325989961624146,
+      "trainloss/critic_rejected": 1.2125966548919678,
+      "trainloss/reward": 1.1325989961624146,
+      "trainrewards/accuracies": 0.9375,
+      "trainrewards/chosen": 0.98828125,
+      "trainrewards/margins": 1.859375,
+      "trainrewards/rejected": -0.875
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 7.501840024960186,
+      "learning_rate": 4.833951066243004e-06,
+      "loss": 2.7439,
+      "step": 28,
+      "trainloss/critic_chosen": 1.156808853149414,
+      "trainloss/critic_rejected": 1.218095064163208,
+      "trainloss/reward": 1.156808853149414,
+      "trainrewards/accuracies": 0.9270833730697632,
+      "trainrewards/chosen": 2.03125,
+      "trainrewards/margins": 2.0,
+      "trainrewards/rejected": 0.021240234375
+    },
+    {
+      "epoch": 0.22,
+      "grad_norm": 10.542645887143404,
+      "learning_rate": 4.809698831278217e-06,
+      "loss": 2.6949,
+      "step": 29,
+      "trainloss/critic_chosen": 1.146854043006897,
+      "trainloss/critic_rejected": 1.2151950597763062,
+      "trainloss/reward": 1.146854043006897,
+      "trainrewards/accuracies": 0.9427083730697632,
+      "trainrewards/chosen": 2.546875,
+      "trainrewards/margins": 2.375,
+      "trainrewards/rejected": 0.169921875
+    },
+    {
+      "epoch": 0.22,
+      "grad_norm": 5.112451478263716,
+      "learning_rate": 4.783863644106502e-06,
+      "loss": 2.6784,
+      "step": 30,
+      "trainloss/critic_chosen": 1.1554011106491089,
+      "trainloss/critic_rejected": 1.2330732345581055,
+      "trainloss/reward": 1.1554011106491089,
+      "trainrewards/accuracies": 0.9322916865348816,
+      "trainrewards/chosen": 1.6875,
+      "trainrewards/margins": 2.390625,
+      "trainrewards/rejected": -0.703125
+    },
+    {
+      "epoch": 0.23,
+      "grad_norm": 5.406168864359725,
+      "learning_rate": 4.7564632108746524e-06,
+      "loss": 2.716,
+      "step": 31,
+      "trainloss/critic_chosen": 1.162062168121338,
+      "trainloss/critic_rejected": 1.2383043766021729,
+      "trainloss/reward": 1.162062168121338,
+      "trainrewards/accuracies": 0.9322916865348816,
+      "trainrewards/chosen": 0.609375,
+      "trainrewards/margins": 1.9765625,
+      "trainrewards/rejected": -1.3671875
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 5.067065444400827,
+      "learning_rate": 4.72751631047092e-06,
+      "loss": 2.6516,
+      "step": 32,
+      "trainloss/critic_chosen": 1.1599905490875244,
+      "trainloss/critic_rejected": 1.2166763544082642,
+      "trainloss/reward": 1.1599905490875244,
+      "trainrewards/accuracies": 0.9270833730697632,
+      "trainrewards/chosen": 0.7265625,
+      "trainrewards/margins": 2.21875,
+      "trainrewards/rejected": -1.4921875
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 6.759001147106114,
+      "learning_rate": 4.697042781654913e-06,
+      "loss": 2.6586,
+      "step": 33,
+      "trainloss/critic_chosen": 1.1513490676879883,
+      "trainloss/critic_rejected": 1.1805285215377808,
+      "trainloss/reward": 1.1513490676879883,
+      "trainrewards/accuracies": 0.9270833134651184,
+      "trainrewards/chosen": 1.8203125,
+      "trainrewards/margins": 2.234375,
+      "trainrewards/rejected": -0.408203125
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 7.671545596305826,
+      "learning_rate": 4.665063509461098e-06,
+      "loss": 2.6397,
+      "step": 34,
+      "trainloss/critic_chosen": 1.1355525255203247,
+      "trainloss/critic_rejected": 1.1824406385421753,
+      "trainloss/reward": 1.1355525255203247,
+      "trainrewards/accuracies": 0.9479166865348816,
+      "trainrewards/chosen": 2.15625,
+      "trainrewards/margins": 2.34375,
+      "trainrewards/rejected": -0.1923828125
+    },
+    {
+      "epoch": 0.26,
+      "grad_norm": 4.120967770831028,
+      "learning_rate": 4.631600410885231e-06,
+      "loss": 2.6941,
+      "step": 35,
+      "trainloss/critic_chosen": 1.1876243352890015,
+      "trainloss/critic_rejected": 1.2462928295135498,
+      "trainloss/reward": 1.1876243352890015,
+      "trainrewards/accuracies": 0.9322916865348816,
+      "trainrewards/chosen": 1.6640625,
+      "trainrewards/margins": 2.453125,
+      "trainrewards/rejected": -0.78125
+    },
+    {
+      "epoch": 0.27,
+      "grad_norm": 4.873851901547121,
+      "learning_rate": 4.596676419863561e-06,
+      "loss": 2.5644,
+      "step": 36,
+      "trainloss/critic_chosen": 1.1080451011657715,
+      "trainloss/critic_rejected": 1.1967337131500244,
+      "trainloss/reward": 1.1080451011657715,
+      "trainrewards/accuracies": 0.96875,
+      "trainrewards/chosen": 0.80078125,
+      "trainrewards/margins": 2.125,
+      "trainrewards/rejected": -1.328125
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 3.9620697117121004,
+      "learning_rate": 4.560315471555039e-06,
+      "loss": 2.5956,
+      "step": 37,
+      "trainloss/critic_chosen": 1.1373480558395386,
+      "trainloss/critic_rejected": 1.2142869234085083,
+      "trainloss/reward": 1.1373480558395386,
+      "trainrewards/accuracies": 0.9375000596046448,
+      "trainrewards/chosen": 1.0234375,
+      "trainrewards/margins": 2.40625,
+      "trainrewards/rejected": -1.390625
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 5.768390511994523,
+      "learning_rate": 4.522542485937369e-06,
+      "loss": 2.6888,
+      "step": 38,
+      "trainloss/critic_chosen": 1.1469529867172241,
+      "trainloss/critic_rejected": 1.2045722007751465,
+      "trainloss/reward": 1.1469529867172241,
+      "trainrewards/accuracies": 0.9114583730697632,
+      "trainrewards/chosen": 1.8046875,
+      "trainrewards/margins": 2.484375,
+      "trainrewards/rejected": -0.6875
+    },
+    {
+      "epoch": 0.29,
+      "grad_norm": 4.874609149891752,
+      "learning_rate": 4.4833833507280884e-06,
+      "loss": 2.5543,
+      "step": 39,
+      "trainloss/critic_chosen": 1.1098886728286743,
+      "trainloss/critic_rejected": 1.1714903116226196,
+      "trainloss/reward": 1.1098886728286743,
+      "trainrewards/accuracies": 0.958333432674408,
+      "trainrewards/chosen": 1.8984375,
+      "trainrewards/margins": 2.625,
+      "trainrewards/rejected": -0.7265625
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 3.396284173013532,
+      "learning_rate": 4.442864903642428e-06,
+      "loss": 2.6564,
+      "step": 40,
+      "trainloss/critic_chosen": 1.1380069255828857,
+      "trainloss/critic_rejected": 1.2159972190856934,
+      "trainloss/reward": 1.1380069255828857,
+      "trainrewards/accuracies": 0.9427083134651184,
+      "trainrewards/chosen": 0.9296875,
+      "trainrewards/margins": 1.9375,
+      "trainrewards/rejected": -1.0078125
+    },
+    {
+      "epoch": 0.31,
+      "grad_norm": 3.8092153086439087,
+      "learning_rate": 4.401014914000078e-06,
+      "loss": 2.5515,
+      "step": 41,
+      "trainloss/critic_chosen": 1.123491883277893,
+      "trainloss/critic_rejected": 1.1983730792999268,
+      "trainloss/reward": 1.123491883277893,
+      "trainrewards/accuracies": 0.9479166865348816,
+      "trainrewards/chosen": 1.015625,
+      "trainrewards/margins": 2.125,
+      "trainrewards/rejected": -1.1015625
+    },
+    {
+      "epoch": 0.31,
+      "grad_norm": 3.292224209377405,
+      "learning_rate": 4.357862063693486e-06,
+      "loss": 2.6296,
+      "step": 42,
+      "trainloss/critic_chosen": 1.1296896934509277,
+      "trainloss/critic_rejected": 1.193892002105713,
+      "trainloss/reward": 1.1296896934509277,
+      "trainrewards/accuracies": 0.9270833134651184,
+      "trainrewards/chosen": 1.3671875,
+      "trainrewards/margins": 2.234375,
+      "trainrewards/rejected": -0.859375
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 4.97304962284229,
+      "learning_rate": 4.313435927530719e-06,
+      "loss": 2.5984,
+      "step": 43,
+      "trainloss/critic_chosen": 1.106866478919983,
+      "trainloss/critic_rejected": 1.1839522123336792,
+      "trainloss/reward": 1.106866478919983,
+      "trainrewards/accuracies": 0.9166666865348816,
+      "trainrewards/chosen": 1.859375,
+      "trainrewards/margins": 2.515625,
+      "trainrewards/rejected": -0.6640625
+    },
+    {
+      "epoch": 0.33,
+      "grad_norm": 3.1437931542625615,
+      "learning_rate": 4.267766952966369e-06,
+      "loss": 2.6053,
+      "step": 44,
+      "trainloss/critic_chosen": 1.141026496887207,
+      "trainloss/critic_rejected": 1.1881659030914307,
+      "trainloss/reward": 1.141026496887207,
+      "trainrewards/accuracies": 0.9375,
+      "trainrewards/chosen": 1.484375,
+      "trainrewards/margins": 2.5,
+      "trainrewards/rejected": -1.015625
+    },
+    {
+      "epoch": 0.34,
+      "grad_norm": 3.0260425195721727,
+      "learning_rate": 4.220886439234385e-06,
+      "loss": 2.6162,
+      "step": 45,
+      "trainloss/critic_chosen": 1.1437909603118896,
+      "trainloss/critic_rejected": 1.1694350242614746,
+      "trainloss/reward": 1.1437909603118896,
+      "trainrewards/accuracies": 0.9270833134651184,
+      "trainrewards/chosen": 1.3359375,
+      "trainrewards/margins": 2.265625,
+      "trainrewards/rejected": -0.93359375
+    },
+    {
+      "epoch": 0.34,
+      "grad_norm": 3.9421991947992803,
+      "learning_rate": 4.172826515897146e-06,
+      "loss": 2.559,
+      "step": 46,
+      "trainloss/critic_chosen": 1.1193464994430542,
+      "trainloss/critic_rejected": 1.1624045372009277,
+      "trainloss/reward": 1.1193464994430542,
+      "trainrewards/accuracies": 0.9270833134651184,
+      "trainrewards/chosen": 1.2109375,
+      "trainrewards/margins": 1.96875,
+      "trainrewards/rejected": -0.75
+    },
+    {
+      "epoch": 0.35,
+      "grad_norm": 4.76800798471375,
+      "learning_rate": 4.123620120825459e-06,
+      "loss": 2.5633,
+      "step": 47,
+      "trainloss/critic_chosen": 1.1039447784423828,
+      "trainloss/critic_rejected": 1.1683855056762695,
+      "trainloss/reward": 1.1039447784423828,
+      "trainrewards/accuracies": 0.9270833134651184,
+      "trainrewards/chosen": 1.5,
+      "trainrewards/margins": 1.8515625,
+      "trainrewards/rejected": -0.357421875
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 4.677899041279874,
+      "learning_rate": 4.073300977624594e-06,
+      "loss": 2.6104,
+      "step": 48,
+      "trainloss/critic_chosen": 1.1293267011642456,
+      "trainloss/critic_rejected": 1.173600435256958,
+      "trainloss/reward": 1.1293267011642456,
+      "trainrewards/accuracies": 0.9270833134651184,
+      "trainrewards/chosen": 1.5625,
+      "trainrewards/margins": 1.953125,
+      "trainrewards/rejected": -0.38671875
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 2.8973280324668815,
+      "learning_rate": 4.021903572521802e-06,
+      "loss": 2.5884,
+      "step": 49,
+      "trainloss/critic_chosen": 1.1289738416671753,
+      "trainloss/critic_rejected": 1.169731855392456,
+      "trainloss/reward": 1.1289738416671753,
+      "trainrewards/accuracies": 0.9375000596046448,
+      "trainrewards/chosen": 1.3125,
+      "trainrewards/margins": 2.515625,
+      "trainrewards/rejected": -1.203125
+    },
+    {
+      "epoch": 0.37,
+      "grad_norm": 2.9211772383175685,
+      "learning_rate": 3.969463130731183e-06,
+      "loss": 2.5868,
+      "step": 50,
+      "trainloss/critic_chosen": 1.1367411613464355,
+      "trainloss/critic_rejected": 1.1725157499313354,
+      "trainloss/reward": 1.1367411613464355,
+      "trainrewards/accuracies": 0.9114583730697632,
+      "trainrewards/chosen": 1.265625,
+      "trainrewards/margins": 2.484375,
+      "trainrewards/rejected": -1.21875
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 3.4239805909008627,
+      "learning_rate": 3.916015592312083e-06,
+      "loss": 2.5442,
+      "step": 51,
+      "trainloss/critic_chosen": 1.101191759109497,
+      "trainloss/critic_rejected": 1.2063257694244385,
+      "trainloss/reward": 1.101191759109497,
+      "trainrewards/accuracies": 0.9583333730697632,
+      "trainrewards/chosen": 1.6171875,
+      "trainrewards/margins": 2.546875,
+      "trainrewards/rejected": -0.9296875
+    },
+    {
+      "epoch": 0.39,
+      "grad_norm": 3.3449791279382155,
+      "learning_rate": 3.861597587537568e-06,
+      "loss": 2.5532,
+      "step": 52,
+      "trainloss/critic_chosen": 1.1064534187316895,
+      "trainloss/critic_rejected": 1.1979490518569946,
+      "trainloss/reward": 1.1064534187316895,
+      "trainrewards/accuracies": 0.9427083730697632,
+      "trainrewards/chosen": 1.6015625,
+      "trainrewards/margins": 2.46875,
+      "trainrewards/rejected": -0.875
+    },
+    {
+      "epoch": 0.39,
+      "grad_norm": 3.9419484082989724,
+      "learning_rate": 3.806246411789872e-06,
+      "loss": 2.6147,
+      "step": 53,
+      "trainloss/critic_chosen": 1.138405680656433,
+      "trainloss/critic_rejected": 1.1973538398742676,
+      "trainloss/reward": 1.138405680656433,
+      "trainrewards/accuracies": 0.9375,
+      "trainrewards/chosen": 1.25,
+      "trainrewards/margins": 2.609375,
+      "trainrewards/rejected": -1.3671875
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 3.4980254593155413,
+      "learning_rate": 3.7500000000000005e-06,
+      "loss": 2.5364,
+      "step": 54,
+      "trainloss/critic_chosen": 1.0845965147018433,
+      "trainloss/critic_rejected": 1.1989306211471558,
+      "trainloss/reward": 1.0845965147018433,
+      "trainrewards/accuracies": 0.9635417461395264,
+      "trainrewards/chosen": 1.6953125,
+      "trainrewards/margins": 2.59375,
+      "trainrewards/rejected": -0.89453125
+    },
+    {
+      "epoch": 0.41,
+      "grad_norm": 3.7684432316267347,
+      "learning_rate": 3.6928969006490212e-06,
+      "loss": 2.5578,
+      "step": 55,
+      "trainloss/critic_chosen": 1.105364441871643,
+      "trainloss/critic_rejected": 1.1862692832946777,
+      "trainloss/reward": 1.105364441871643,
+      "trainrewards/accuracies": 0.9270833730697632,
+      "trainrewards/chosen": 1.8046875,
+      "trainrewards/margins": 2.65625,
+      "trainrewards/rejected": -0.86328125
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 2.733004985886796,
+      "learning_rate": 3.634976249348867e-06,
+      "loss": 2.5665,
+      "step": 56,
+      "trainloss/critic_chosen": 1.1256849765777588,
+      "trainloss/critic_rejected": 1.1650742292404175,
+      "trainloss/reward": 1.1256849765777588,
+      "trainrewards/accuracies": 0.9322916865348816,
+      "trainrewards/chosen": 1.328125,
+      "trainrewards/margins": 2.390625,
+      "trainrewards/rejected": -1.0546875
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 3.063205301802556,
+      "learning_rate": 3.5762777420207382e-06,
+      "loss": 2.5733,
+      "step": 57,
+      "trainloss/critic_chosen": 1.1022924184799194,
+      "trainloss/critic_rejected": 1.1559257507324219,
+      "trainloss/reward": 1.1022924184799194,
+      "trainrewards/accuracies": 0.9166666865348816,
+      "trainrewards/chosen": 1.40625,
+      "trainrewards/margins": 2.28125,
+      "trainrewards/rejected": -0.875
+    },
+    {
+      "epoch": 0.43,
+      "grad_norm": 3.2936675397250985,
+      "learning_rate": 3.516841607689501e-06,
+      "loss": 2.529,
+      "step": 58,
+      "trainloss/critic_chosen": 1.0919924974441528,
+      "trainloss/critic_rejected": 1.1807957887649536,
+      "trainloss/reward": 1.0919924974441528,
+      "trainrewards/accuracies": 0.9375000596046448,
+      "trainrewards/chosen": 1.0703125,
+      "trainrewards/margins": 2.0625,
+      "trainrewards/rejected": -1.0
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 2.9687788874925505,
+      "learning_rate": 3.4567085809127247e-06,
+      "loss": 2.5538,
+      "step": 59,
+      "trainloss/critic_chosen": 1.152530312538147,
+      "trainloss/critic_rejected": 1.128198504447937,
+      "trainloss/reward": 1.152530312538147,
+      "trainrewards/accuracies": 0.9375,
+      "trainrewards/chosen": 1.3125,
+      "trainrewards/margins": 2.171875,
+      "trainrewards/rejected": -0.86328125
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 2.5189366946202374,
+      "learning_rate": 3.39591987386325e-06,
+      "loss": 2.4931,
+      "step": 60,
+      "trainloss/critic_chosen": 1.0971665382385254,
+      "trainloss/critic_rejected": 1.189927339553833,
+      "trainloss/reward": 1.0971665382385254,
+      "trainrewards/accuracies": 0.96875,
+      "trainrewards/chosen": 1.3828125,
+      "trainrewards/margins": 2.671875,
+      "trainrewards/rejected": -1.2890625
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 4.707774798123127,
+      "learning_rate": 3.3345171480844275e-06,
+      "loss": 2.4995,
+      "step": 61,
+      "trainloss/critic_chosen": 1.1144541501998901,
+      "trainloss/critic_rejected": 1.1472208499908447,
+      "trainloss/reward": 1.1144541501998901,
+      "trainrewards/accuracies": 0.9739583730697632,
+      "trainrewards/chosen": 1.9921875,
+      "trainrewards/margins": 2.765625,
+      "trainrewards/rejected": -0.7734375
+    },
+    {
+      "epoch": 0.46,
+      "grad_norm": 3.621977923726089,
+      "learning_rate": 3.272542485937369e-06,
+      "loss": 2.5767,
+      "step": 62,
+      "trainloss/critic_chosen": 1.1388683319091797,
+      "trainloss/critic_rejected": 1.1852062940597534,
+      "trainloss/reward": 1.1388683319091797,
+      "trainrewards/accuracies": 0.9479167461395264,
+      "trainrewards/chosen": 1.8203125,
+      "trainrewards/margins": 3.09375,
+      "trainrewards/rejected": -1.265625
+    },
+    {
+      "epoch": 0.47,
+      "grad_norm": 4.340502288849219,
+      "learning_rate": 3.2100383617598075e-06,
+      "loss": 2.5008,
+      "step": 63,
+      "trainloss/critic_chosen": 1.0960522890090942,
+      "trainloss/critic_rejected": 1.1389869451522827,
+      "trainloss/reward": 1.0960522890090942,
+      "trainrewards/accuracies": 0.9427083730697632,
+      "trainrewards/chosen": 1.25,
+      "trainrewards/margins": 2.8125,
+      "trainrewards/rejected": -1.5703125
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 3.2652013602478087,
+      "learning_rate": 3.147047612756302e-06,
+      "loss": 2.4784,
+      "step": 64,
+      "trainloss/critic_chosen": 1.1066646575927734,
+      "trainloss/critic_rejected": 1.1423835754394531,
+      "trainloss/reward": 1.1066646575927734,
+      "trainrewards/accuracies": 0.9427083730697632,
+      "trainrewards/chosen": 1.2265625,
+      "trainrewards/margins": 2.859375,
+      "trainrewards/rejected": -1.6328125
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 4.460312181878758,
+      "learning_rate": 3.0836134096397642e-06,
+      "loss": 2.5315,
+      "step": 65,
+      "trainloss/critic_chosen": 1.097680926322937,
+      "trainloss/critic_rejected": 1.1829330921173096,
+      "trainloss/reward": 1.097680926322937,
+      "trainrewards/accuracies": 0.9322916865348816,
+      "trainrewards/chosen": 1.71875,
+      "trainrewards/margins": 2.375,
+      "trainrewards/rejected": -0.66015625
+    },
+    {
+      "epoch": 0.49,
+      "grad_norm": 5.398290397831798,
+      "learning_rate": 3.019779227044398e-06,
+      "loss": 2.4912,
+      "step": 66,
+      "trainloss/critic_chosen": 1.0728169679641724,
+      "trainloss/critic_rejected": 1.1528609991073608,
+      "trainloss/reward": 1.0728169679641724,
+      "trainrewards/accuracies": 0.9479166865348816,
+      "trainrewards/chosen": 1.75,
+      "trainrewards/margins": 2.1875,
+      "trainrewards/rejected": -0.44140625
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 4.530365049006353,
+      "learning_rate": 2.9555888137303695e-06,
+      "loss": 2.4768,
+      "step": 67,
+      "trainloss/critic_chosen": 1.0978233814239502,
+      "trainloss/critic_rejected": 1.1454182863235474,
+      "trainloss/reward": 1.0978233814239502,
+      "trainrewards/accuracies": 0.9479166865348816,
+      "trainrewards/chosen": 1.515625,
+      "trainrewards/margins": 2.1875,
+      "trainrewards/rejected": -0.66015625
+    },
+    {
+      "epoch": 0.51,
+      "grad_norm": 3.090064735833262,
+      "learning_rate": 2.8910861626005774e-06,
+      "loss": 2.5542,
+      "step": 68,
+      "trainloss/critic_chosen": 1.1045993566513062,
+      "trainloss/critic_rejected": 1.1823933124542236,
+      "trainloss/reward": 1.1045993566513062,
+      "trainrewards/accuracies": 0.9166666865348816,
+      "trainrewards/chosen": 1.296875,
+      "trainrewards/margins": 2.296875,
+      "trainrewards/rejected": -1.0
+    },
+    {
+      "epoch": 0.51,
+      "grad_norm": 2.801294778929006,
+      "learning_rate": 2.82631548055013e-06,
+      "loss": 2.4752,
+      "step": 69,
+      "trainloss/critic_chosen": 1.0862737894058228,
+      "trainloss/critic_rejected": 1.1638906002044678,
+      "trainloss/reward": 1.0862737894058228,
+      "trainrewards/accuracies": 0.9479166865348816,
+      "trainrewards/chosen": 1.46875,
+      "trainrewards/margins": 2.8125,
+      "trainrewards/rejected": -1.359375
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 3.5888770327583503,
+      "learning_rate": 2.761321158169134e-06,
+      "loss": 2.5502,
+      "step": 70,
+      "trainloss/critic_chosen": 1.1130059957504272,
+      "trainloss/critic_rejected": 1.1747164726257324,
+      "trainloss/reward": 1.1130059957504272,
+      "trainrewards/accuracies": 0.9583333134651184,
+      "trainrewards/chosen": 1.75,
+      "trainrewards/margins": 2.953125,
+      "trainrewards/rejected": -1.203125
+    },
+    {
+      "epoch": 0.53,
+      "grad_norm": 3.553005435624982,
+      "learning_rate": 2.696147739319613e-06,
+      "loss": 2.4735,
+      "step": 71,
+      "trainloss/critic_chosen": 1.1133400201797485,
+      "trainloss/critic_rejected": 1.1409944295883179,
+      "trainloss/reward": 1.1133400201797485,
+      "trainrewards/accuracies": 0.9583333730697632,
+      "trainrewards/chosen": 1.96875,
+      "trainrewards/margins": 3.375,
+      "trainrewards/rejected": -1.40625
+    },
+    {
+      "epoch": 0.54,
+      "grad_norm": 2.7088469336528145,
+      "learning_rate": 2.6308398906073603e-06,
+      "loss": 2.4512,
+      "step": 72,
+      "trainloss/critic_chosen": 1.1119564771652222,
+      "trainloss/critic_rejected": 1.1244186162948608,
+      "trainloss/reward": 1.1119564771652222,
+      "trainrewards/accuracies": 0.96875,
+      "trainrewards/chosen": 1.5703125,
+      "trainrewards/margins": 3.03125,
+      "trainrewards/rejected": -1.4609375
+    },
+    {
+      "epoch": 0.54,
+      "grad_norm": 3.938561115333166,
+      "learning_rate": 2.5654423707696834e-06,
+      "loss": 2.4921,
+      "step": 73,
+      "trainloss/critic_chosen": 1.0844348669052124,
+      "trainloss/critic_rejected": 1.163710355758667,
+      "trainloss/reward": 1.0844348669052124,
+      "trainrewards/accuracies": 0.9583333730697632,
+      "trainrewards/chosen": 1.0703125,
+      "trainrewards/margins": 2.734375,
+      "trainrewards/rejected": -1.6640625
+    },
+    {
+      "epoch": 0.55,
+      "grad_norm": 3.7076560975513293,
+      "learning_rate": 2.5e-06,
+      "loss": 2.4702,
+      "step": 74,
+      "trainloss/critic_chosen": 1.105428695678711,
+      "trainloss/critic_rejected": 1.1134750843048096,
+      "trainloss/reward": 1.105428695678711,
+      "trainrewards/accuracies": 0.9531250596046448,
+      "trainrewards/chosen": 1.1015625,
+      "trainrewards/margins": 2.4375,
+      "trainrewards/rejected": -1.328125
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 4.584325275815331,
+      "learning_rate": 2.434557629230318e-06,
+      "loss": 2.5531,
+      "step": 75,
+      "trainloss/critic_chosen": 1.1023496389389038,
+      "trainloss/critic_rejected": 1.1693300008773804,
+      "trainloss/reward": 1.1023496389389038,
+      "trainrewards/accuracies": 0.9322916865348816,
+      "trainrewards/chosen": 1.6953125,
+      "trainrewards/margins": 2.265625,
+      "trainrewards/rejected": -0.5703125
+    },
+    {
+      "epoch": 0.57,
+      "grad_norm": 5.707921133643401,
+      "learning_rate": 2.3691601093926406e-06,
+      "loss": 2.512,
+      "step": 76,
+      "trainloss/critic_chosen": 1.0742218494415283,
+      "trainloss/critic_rejected": 1.1473562717437744,
+      "trainloss/reward": 1.0742218494415283,
+      "trainrewards/accuracies": 0.9375000596046448,
+      "trainrewards/chosen": 1.984375,
+      "trainrewards/margins": 2.359375,
+      "trainrewards/rejected": -0.380859375
+    },
+    {
+      "epoch": 0.57,
+      "grad_norm": 5.052893345106084,
+      "learning_rate": 2.3038522606803882e-06,
+      "loss": 2.5495,
+      "step": 77,
+      "trainloss/critic_chosen": 1.09754478931427,
+      "trainloss/critic_rejected": 1.175227165222168,
+      "trainloss/reward": 1.09754478931427,
+      "trainrewards/accuracies": 0.9218751192092896,
+      "trainrewards/chosen": 1.8671875,
+      "trainrewards/margins": 2.359375,
+      "trainrewards/rejected": -0.490234375
+    },
+    {
+      "epoch": 0.58,
+      "grad_norm": 3.505818483136781,
+      "learning_rate": 2.238678841830867e-06,
+      "loss": 2.5073,
+      "step": 78,
+      "trainloss/critic_chosen": 1.100816249847412,
+      "trainloss/critic_rejected": 1.1553771495819092,
+      "trainloss/reward": 1.100816249847412,
+      "trainrewards/accuracies": 0.9375000596046448,
+      "trainrewards/chosen": 1.4375,
+      "trainrewards/margins": 2.1875,
+      "trainrewards/rejected": -0.75
+    },
+    {
+      "epoch": 0.59,
+      "grad_norm": 4.2251215117971475,
+      "learning_rate": 2.173684519449872e-06,
+      "loss": 2.5035,
+      "step": 79,
+      "trainloss/critic_chosen": 1.093074083328247,
+      "trainloss/critic_rejected": 1.163825511932373,
+      "trainloss/reward": 1.093074083328247,
+      "trainrewards/accuracies": 0.9531250596046448,
+      "trainrewards/chosen": 0.91796875,
+      "trainrewards/margins": 2.140625,
+      "trainrewards/rejected": -1.21875
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 4.171916933286059,
+      "learning_rate": 2.1089138373994226e-06,
+      "loss": 2.4726,
+      "step": 80,
+      "trainloss/critic_chosen": 1.0706841945648193,
+      "trainloss/critic_rejected": 1.160952091217041,
+      "trainloss/reward": 1.0706841945648193,
+      "trainrewards/accuracies": 0.9322916865348816,
+      "trainrewards/chosen": 0.98046875,
+      "trainrewards/margins": 2.375,
+      "trainrewards/rejected": -1.390625
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 2.7690433360924085,
+      "learning_rate": 2.0444111862696313e-06,
+      "loss": 2.4269,
+      "step": 81,
+      "trainloss/critic_chosen": 1.0752573013305664,
+      "trainloss/critic_rejected": 1.1339901685714722,
+      "trainloss/reward": 1.0752573013305664,
+      "trainrewards/accuracies": 0.9739583730697632,
+      "trainrewards/chosen": 1.484375,
+      "trainrewards/margins": 2.578125,
+      "trainrewards/rejected": -1.09375
+    },
+    {
+      "epoch": 0.61,
+      "grad_norm": 3.358268001716196,
+      "learning_rate": 1.9802207729556023e-06,
+      "loss": 2.461,
+      "step": 82,
+      "trainloss/critic_chosen": 1.1075457334518433,
+      "trainloss/critic_rejected": 1.1157523393630981,
+      "trainloss/reward": 1.1075457334518433,
+      "trainrewards/accuracies": 0.953125,
+      "trainrewards/chosen": 1.8828125,
+      "trainrewards/margins": 2.90625,
+      "trainrewards/rejected": -1.0234375
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 4.328068525423629,
+      "learning_rate": 1.9163865903602374e-06,
+      "loss": 2.5352,
+      "step": 83,
+      "trainloss/critic_chosen": 1.1028249263763428,
+      "trainloss/critic_rejected": 1.1644842624664307,
+      "trainloss/reward": 1.1028249263763428,
+      "trainrewards/accuracies": 0.96875,
+      "trainrewards/chosen": 1.8671875,
+      "trainrewards/margins": 2.921875,
+      "trainrewards/rejected": -1.0625
+    },
+    {
+      "epoch": 0.63,
+      "grad_norm": 3.266438978334478,
+      "learning_rate": 1.852952387243698e-06,
+      "loss": 2.4134,
+      "step": 84,
+      "trainloss/critic_chosen": 1.0756388902664185,
+      "trainloss/critic_rejected": 1.1303694248199463,
+      "trainloss/reward": 1.0756388902664185,
+      "trainrewards/accuracies": 0.9687500596046448,
+      "trainrewards/chosen": 1.9140625,
+      "trainrewards/margins": 3.25,
+      "trainrewards/rejected": -1.328125
+    },
+    {
+      "epoch": 0.63,
+      "grad_norm": 2.386641393706194,
+      "learning_rate": 1.7899616382401935e-06,
+      "loss": 2.401,
+      "step": 85,
+      "trainloss/critic_chosen": 1.0511287450790405,
+      "trainloss/critic_rejected": 1.128703236579895,
+      "trainloss/reward": 1.0511287450790405,
+      "trainrewards/accuracies": 0.9583333730697632,
+      "trainrewards/chosen": 1.6015625,
+      "trainrewards/margins": 2.953125,
+      "trainrewards/rejected": -1.359375
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 3.7161933000807403,
+      "learning_rate": 1.7274575140626318e-06,
+      "loss": 2.4732,
+      "step": 86,
+      "trainloss/critic_chosen": 1.0827696323394775,
+      "trainloss/critic_rejected": 1.1439146995544434,
+      "trainloss/reward": 1.0827696323394775,
+      "trainrewards/accuracies": 0.9583333134651184,
+      "trainrewards/chosen": 1.0,
+      "trainrewards/margins": 2.734375,
+      "trainrewards/rejected": -1.734375
+    },
+    {
+      "epoch": 0.65,
+      "grad_norm": 3.4186216283012754,
+      "learning_rate": 1.665482851915573e-06,
+      "loss": 2.5064,
+      "step": 87,
+      "trainloss/critic_chosen": 1.093652367591858,
+      "trainloss/critic_rejected": 1.1373913288116455,
+      "trainloss/reward": 1.093652367591858,
+      "trainrewards/accuracies": 0.927083432674408,
+      "trainrewards/chosen": 1.09375,
+      "trainrewards/margins": 2.5625,
+      "trainrewards/rejected": -1.46875
+    },
+    {
+      "epoch": 0.66,
+      "grad_norm": 2.4263959266567996,
+      "learning_rate": 1.6040801261367494e-06,
+      "loss": 2.5409,
+      "step": 88,
+      "trainloss/critic_chosen": 1.1319228410720825,
+      "trainloss/critic_rejected": 1.1887366771697998,
+      "trainloss/reward": 1.1319228410720825,
+      "trainrewards/accuracies": 0.9687501192092896,
+      "trainrewards/chosen": 1.3125,
+      "trainrewards/margins": 2.6875,
+      "trainrewards/rejected": -1.375
+    },
+    {
+      "epoch": 0.66,
+      "grad_norm": 4.091003192293857,
+      "learning_rate": 1.5432914190872757e-06,
+      "loss": 2.5386,
+      "step": 89,
+      "trainloss/critic_chosen": 1.1037051677703857,
+      "trainloss/critic_rejected": 1.1342533826828003,
+      "trainloss/reward": 1.1037051677703857,
+      "trainrewards/accuracies": 0.9427083134651184,
+      "trainrewards/chosen": 1.640625,
+      "trainrewards/margins": 2.375,
+      "trainrewards/rejected": -0.734375
+    },
+    {
+      "epoch": 0.67,
+      "grad_norm": 4.356596196020246,
+      "learning_rate": 1.4831583923105e-06,
+      "loss": 2.4845,
+      "step": 90,
+      "trainloss/critic_chosen": 1.0889127254486084,
+      "trainloss/critic_rejected": 1.1599314212799072,
+      "trainloss/reward": 1.0889127254486084,
+      "trainrewards/accuracies": 0.9583333134651184,
+      "trainrewards/chosen": 1.875,
+      "trainrewards/margins": 2.59375,
+      "trainrewards/rejected": -0.7265625
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 3.484859150407605,
+      "learning_rate": 1.4237222579792618e-06,
+      "loss": 2.504,
+      "step": 91,
+      "trainloss/critic_chosen": 1.1031081676483154,
+      "trainloss/critic_rejected": 1.1596983671188354,
+      "trainloss/reward": 1.1031081676483154,
+      "trainrewards/accuracies": 0.953125,
+      "trainrewards/chosen": 1.7265625,
+      "trainrewards/margins": 2.5,
+      "trainrewards/rejected": -0.765625
+    },
+    {
+      "epoch": 0.69,
+      "grad_norm": 3.5906077474254046,
+      "learning_rate": 1.3650237506511333e-06,
+      "loss": 2.497,
+      "step": 92,
+      "trainloss/critic_chosen": 1.1017568111419678,
+      "trainloss/critic_rejected": 1.1597734689712524,
+      "trainloss/reward": 1.1017568111419678,
+      "trainrewards/accuracies": 0.9427083730697632,
+      "trainrewards/chosen": 1.734375,
+      "trainrewards/margins": 2.609375,
+      "trainrewards/rejected": -0.87109375
+    },
+    {
+      "epoch": 0.69,
+      "grad_norm": 3.883326754801315,
+      "learning_rate": 1.307103099350979e-06,
+      "loss": 2.4881,
+      "step": 93,
+      "trainloss/critic_chosen": 1.1008602380752563,
+      "trainloss/critic_rejected": 1.1622505187988281,
+      "trainloss/reward": 1.1008602380752563,
+      "trainrewards/accuracies": 0.9374999403953552,
+      "trainrewards/chosen": 1.8359375,
+      "trainrewards/margins": 2.65625,
+      "trainrewards/rejected": -0.81640625
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 3.106807473961497,
+      "learning_rate": 1.2500000000000007e-06,
+      "loss": 2.5239,
+      "step": 94,
+      "trainloss/critic_chosen": 1.1186132431030273,
+      "trainloss/critic_rejected": 1.1955691576004028,
+      "trainloss/reward": 1.1186132431030273,
+      "trainrewards/accuracies": 0.9479166865348816,
+      "trainrewards/chosen": 1.4453125,
+      "trainrewards/margins": 2.78125,
+      "trainrewards/rejected": -1.34375
+    },
+    {
+      "epoch": 0.71,
+      "grad_norm": 3.0694983477589237,
+      "learning_rate": 1.193753588210128e-06,
+      "loss": 2.4975,
+      "step": 95,
+      "trainloss/critic_chosen": 1.089274287223816,
+      "trainloss/critic_rejected": 1.1611120700836182,
+      "trainloss/reward": 1.089274287223816,
+      "trainrewards/accuracies": 0.9166667461395264,
+      "trainrewards/chosen": 1.21875,
+      "trainrewards/margins": 2.625,
+      "trainrewards/rejected": -1.4140625
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 2.647849041797858,
+      "learning_rate": 1.1384024124624324e-06,
+      "loss": 2.4533,
+      "step": 96,
+      "trainloss/critic_chosen": 1.0731533765792847,
+      "trainloss/critic_rejected": 1.1588420867919922,
+      "trainloss/reward": 1.0731533765792847,
+      "trainrewards/accuracies": 0.9531250596046448,
+      "trainrewards/chosen": 1.2578125,
+      "trainrewards/margins": 2.671875,
+      "trainrewards/rejected": -1.40625
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 3.0284092019206743,
+      "learning_rate": 1.0839844076879186e-06,
+      "loss": 2.52,
+      "step": 97,
+      "trainloss/critic_chosen": 1.1046061515808105,
+      "trainloss/critic_rejected": 1.1355366706848145,
+      "trainloss/reward": 1.1046061515808105,
+      "trainrewards/accuracies": 0.9114583134651184,
+      "trainrewards/chosen": 1.5234375,
+      "trainrewards/margins": 2.515625,
+      "trainrewards/rejected": -1.0
+    },
+    {
+      "epoch": 0.73,
+      "grad_norm": 3.239930376341791,
+      "learning_rate": 1.0305368692688175e-06,
+      "loss": 2.3829,
+      "step": 98,
+      "trainloss/critic_chosen": 1.0649518966674805,
+      "trainloss/critic_rejected": 1.1148179769515991,
+      "trainloss/reward": 1.0649518966674805,
+      "trainrewards/accuracies": 0.9583333730697632,
+      "trainrewards/chosen": 1.828125,
+      "trainrewards/margins": 2.921875,
+      "trainrewards/rejected": -1.0859375
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 2.844057334430093,
+      "learning_rate": 9.780964274781984e-07,
+      "loss": 2.4761,
+      "step": 99,
+      "trainloss/critic_chosen": 1.0876730680465698,
+      "trainloss/critic_rejected": 1.1597809791564941,
+      "trainloss/reward": 1.0876730680465698,
+      "trainrewards/accuracies": 0.9583333134651184,
+      "trainrewards/chosen": 1.65625,
+      "trainrewards/margins": 2.703125,
+      "trainrewards/rejected": -1.046875
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 2.523374395571222,
+      "learning_rate": 9.266990223754069e-07,
+      "loss": 2.4511,
+      "step": 100,
+      "trainloss/critic_chosen": 1.0983867645263672,
+      "trainloss/critic_rejected": 1.1455085277557373,
+      "trainloss/reward": 1.0983867645263672,
+      "trainrewards/accuracies": 0.9791666865348816,
+      "trainrewards/chosen": 1.5546875,
+      "trainrewards/margins": 2.78125,
+      "trainrewards/rejected": -1.21875
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 3.3175745581436917,
+      "learning_rate": 8.763798791745413e-07,
+      "loss": 2.453,
+      "step": 101,
+      "trainloss/critic_chosen": 1.094862699508667,
+      "trainloss/critic_rejected": 1.1401726007461548,
+      "trainloss/reward": 1.094862699508667,
+      "trainrewards/accuracies": 0.9531250596046448,
+      "trainrewards/chosen": 1.625,
+      "trainrewards/margins": 2.78125,
+      "trainrewards/rejected": -1.15625
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 2.8366252126004596,
+      "learning_rate": 8.271734841028553e-07,
+      "loss": 2.5483,
+      "step": 102,
+      "trainloss/critic_chosen": 1.0930631160736084,
+      "trainloss/critic_rejected": 1.173164963722229,
+      "trainloss/reward": 1.0930631160736084,
+      "trainrewards/accuracies": 0.8958333134651184,
+      "trainrewards/chosen": 1.390625,
+      "trainrewards/margins": 2.515625,
+      "trainrewards/rejected": -1.125
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 2.9707853433568023,
+      "learning_rate": 7.791135607656147e-07,
+      "loss": 2.3986,
+      "step": 103,
+      "trainloss/critic_chosen": 1.0701719522476196,
+      "trainloss/critic_rejected": 1.1288470029830933,
+      "trainloss/reward": 1.0701719522476196,
+      "trainrewards/accuracies": 0.9791667461395264,
+      "trainrewards/chosen": 1.6328125,
+      "trainrewards/margins": 2.765625,
+      "trainrewards/rejected": -1.1328125
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 3.309757754883857,
+      "learning_rate": 7.322330470336314e-07,
+      "loss": 2.429,
+      "step": 104,
+      "trainloss/critic_chosen": 1.0845046043395996,
+      "trainloss/critic_rejected": 1.1261361837387085,
+      "trainloss/reward": 1.0845046043395996,
+      "trainrewards/accuracies": 0.9583333730697632,
+      "trainrewards/chosen": 1.6796875,
+      "trainrewards/margins": 2.71875,
+      "trainrewards/rejected": -1.0234375
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 2.4159819079210556,
+      "learning_rate": 6.865640724692815e-07,
+      "loss": 2.3868,
+      "step": 105,
+      "trainloss/critic_chosen": 1.0498684644699097,
+      "trainloss/critic_rejected": 1.131639003753662,
+      "trainloss/reward": 1.0498684644699097,
+      "trainrewards/accuracies": 0.9687500596046448,
+      "trainrewards/chosen": 1.5,
+      "trainrewards/margins": 2.90625,
+      "trainrewards/rejected": -1.3984375
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 2.630877225161229,
+      "learning_rate": 6.421379363065142e-07,
+      "loss": 2.4745,
+      "step": 106,
+      "trainloss/critic_chosen": 1.0781538486480713,
+      "trainloss/critic_rejected": 1.1649324893951416,
+      "trainloss/reward": 1.0781538486480713,
+      "trainrewards/accuracies": 0.9375,
+      "trainrewards/chosen": 1.5,
+      "trainrewards/margins": 2.78125,
+      "trainrewards/rejected": -1.28125
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 2.71300394057213,
+      "learning_rate": 5.989850859999227e-07,
+      "loss": 2.4433,
+      "step": 107,
+      "trainloss/critic_chosen": 1.0875132083892822,
+      "trainloss/critic_rejected": 1.1300991773605347,
+      "trainloss/reward": 1.0875132083892822,
+      "trainrewards/accuracies": 0.9635416865348816,
+      "trainrewards/chosen": 1.4140625,
+      "trainrewards/margins": 3.109375,
+      "trainrewards/rejected": -1.703125
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 2.722489376200587,
+      "learning_rate": 5.571350963575728e-07,
+      "loss": 2.467,
+      "step": 108,
+      "trainloss/critic_chosen": 1.0709630250930786,
+      "trainloss/critic_rejected": 1.154178500175476,
+      "trainloss/reward": 1.0709630250930786,
+      "trainrewards/accuracies": 0.9479166865348816,
+      "trainrewards/chosen": 1.359375,
+      "trainrewards/margins": 2.859375,
+      "trainrewards/rejected": -1.5
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 3.255161744830997,
+      "learning_rate": 5.166166492719124e-07,
+      "loss": 2.4854,
+      "step": 109,
+      "trainloss/critic_chosen": 1.1081310510635376,
+      "trainloss/critic_rejected": 1.152534008026123,
+      "trainloss/reward": 1.1081310510635376,
+      "trainrewards/accuracies": 0.973958432674408,
+      "trainrewards/chosen": 1.34375,
+      "trainrewards/margins": 2.96875,
+      "trainrewards/rejected": -1.6328125
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 2.762498507683836,
+      "learning_rate": 4.774575140626317e-07,
+      "loss": 2.4388,
+      "step": 110,
+      "trainloss/critic_chosen": 1.065203070640564,
+      "trainloss/critic_rejected": 1.0969582796096802,
+      "trainloss/reward": 1.065203070640564,
+      "trainrewards/accuracies": 0.9635416269302368,
+      "trainrewards/chosen": 1.3046875,
+      "trainrewards/margins": 2.609375,
+      "trainrewards/rejected": -1.3125
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 2.780757216314426,
+      "learning_rate": 4.396845284449608e-07,
+      "loss": 2.4319,
+      "step": 111,
+      "trainloss/critic_chosen": 1.083713173866272,
+      "trainloss/critic_rejected": 1.119750738143921,
+      "trainloss/reward": 1.083713173866272,
+      "trainrewards/accuracies": 0.9687500596046448,
+      "trainrewards/chosen": 1.7421875,
+      "trainrewards/margins": 3.03125,
+      "trainrewards/rejected": -1.296875
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 3.7107544004289323,
+      "learning_rate": 4.033235801364402e-07,
+      "loss": 2.4846,
+      "step": 112,
+      "trainloss/critic_chosen": 1.106475830078125,
+      "trainloss/critic_rejected": 1.1211233139038086,
+      "trainloss/reward": 1.106475830078125,
+      "trainrewards/accuracies": 0.9322916865348816,
+      "trainrewards/chosen": 1.7421875,
+      "trainrewards/margins": 2.703125,
+      "trainrewards/rejected": -0.96484375
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 3.3073751739512787,
+      "learning_rate": 3.683995891147696e-07,
+      "loss": 2.4629,
+      "step": 113,
+      "trainloss/critic_chosen": 1.0521959066390991,
+      "trainloss/critic_rejected": 1.173767328262329,
+      "trainloss/reward": 1.0521959066390991,
+      "trainrewards/accuracies": 0.9531250596046448,
+      "trainrewards/chosen": 1.828125,
+      "trainrewards/margins": 2.921875,
+      "trainrewards/rejected": -1.0859375
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 2.99774406823753,
+      "learning_rate": 3.3493649053890325e-07,
+      "loss": 2.536,
+      "step": 114,
+      "trainloss/critic_chosen": 1.1110682487487793,
+      "trainloss/critic_rejected": 1.155356526374817,
+      "trainloss/reward": 1.1110682487487793,
+      "trainrewards/accuracies": 0.9270833730697632,
+      "trainrewards/chosen": 1.5859375,
+      "trainrewards/margins": 2.75,
+      "trainrewards/rejected": -1.1640625
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 3.513330205624271,
+      "learning_rate": 3.0295721834508686e-07,
+      "loss": 2.4707,
+      "step": 115,
+      "trainloss/critic_chosen": 1.0783016681671143,
+      "trainloss/critic_rejected": 1.1236062049865723,
+      "trainloss/reward": 1.0783016681671143,
+      "trainrewards/accuracies": 0.9270833134651184,
+      "trainrewards/chosen": 1.703125,
+      "trainrewards/margins": 2.671875,
+      "trainrewards/rejected": -0.97265625
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 2.800803642232422,
+      "learning_rate": 2.7248368952908055e-07,
+      "loss": 2.4803,
+      "step": 116,
+      "trainloss/critic_chosen": 1.080200433731079,
+      "trainloss/critic_rejected": 1.1515780687332153,
+      "trainloss/reward": 1.080200433731079,
+      "trainrewards/accuracies": 0.9375,
+      "trainrewards/chosen": 1.5546875,
+      "trainrewards/margins": 2.5625,
+      "trainrewards/rejected": -1.0
+    },
+    {
+      "epoch": 0.87,
+      "grad_norm": 2.7889069352140585,
+      "learning_rate": 2.43536789125349e-07,
+      "loss": 2.4905,
+      "step": 117,
+      "trainloss/critic_chosen": 1.088797688484192,
+      "trainloss/critic_rejected": 1.1520254611968994,
+      "trainloss/reward": 1.088797688484192,
+      "trainrewards/accuracies": 0.9375,
+      "trainrewards/chosen": 1.5,
+      "trainrewards/margins": 2.515625,
+      "trainrewards/rejected": -1.0078125
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 2.931939214492335,
+      "learning_rate": 2.1613635589349756e-07,
+      "loss": 2.3937,
+      "step": 118,
+      "trainloss/critic_chosen": 1.0556377172470093,
+      "trainloss/critic_rejected": 1.1278637647628784,
+      "trainloss/reward": 1.0556377172470093,
+      "trainrewards/accuracies": 0.9583333730697632,
+      "trainrewards/chosen": 1.4375,
+      "trainrewards/margins": 2.46875,
+      "trainrewards/rejected": -1.03125
+    },
+    {
+      "epoch": 0.89,
+      "grad_norm": 2.954190958849344,
+      "learning_rate": 1.9030116872178317e-07,
+      "loss": 2.418,
+      "step": 119,
+      "trainloss/critic_chosen": 1.0978080034255981,
+      "trainloss/critic_rejected": 1.1148779392242432,
+      "trainloss/reward": 1.0978080034255981,
+      "trainrewards/accuracies": 0.9687500596046448,
+      "trainrewards/chosen": 1.4453125,
+      "trainrewards/margins": 2.46875,
+      "trainrewards/rejected": -1.03125
+    },
+    {
+      "epoch": 0.89,
+      "grad_norm": 2.9483773523832353,
+      "learning_rate": 1.6604893375699594e-07,
+      "loss": 2.4694,
+      "step": 120,
+      "trainloss/critic_chosen": 1.1018942594528198,
+      "trainloss/critic_rejected": 1.1370322704315186,
+      "trainloss/reward": 1.1018942594528198,
+      "trainrewards/accuracies": 0.9322916865348816,
+      "trainrewards/chosen": 1.3515625,
+      "trainrewards/margins": 2.40625,
+      "trainrewards/rejected": -1.0546875
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 2.9215978058037764,
+      "learning_rate": 1.4339627226955394e-07,
+      "loss": 2.4822,
+      "step": 121,
+      "trainloss/critic_chosen": 1.1052017211914062,
+      "trainloss/critic_rejected": 1.148177981376648,
+      "trainloss/reward": 1.1052017211914062,
+      "trainrewards/accuracies": 0.9531250596046448,
+      "trainrewards/chosen": 1.3515625,
+      "trainrewards/margins": 2.515625,
+      "trainrewards/rejected": -1.1640625
+    },
+    {
+      "epoch": 0.91,
+      "grad_norm": 2.8843923021301667,
+      "learning_rate": 1.223587092621162e-07,
+      "loss": 2.4942,
+      "step": 122,
+      "trainloss/critic_chosen": 1.0736005306243896,
+      "trainloss/critic_rejected": 1.168089509010315,
+      "trainloss/reward": 1.0736005306243896,
+      "trainrewards/accuracies": 0.9322916865348816,
+      "trainrewards/chosen": 1.3359375,
+      "trainrewards/margins": 2.328125,
+      "trainrewards/rejected": -0.99609375
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 2.8724683106941193,
+      "learning_rate": 1.0295066282951738e-07,
+      "loss": 2.4881,
+      "step": 123,
+      "trainloss/critic_chosen": 1.09504234790802,
+      "trainloss/critic_rejected": 1.1352362632751465,
+      "trainloss/reward": 1.09504234790802,
+      "trainrewards/accuracies": 0.9322916865348816,
+      "trainrewards/chosen": 1.4375,
+      "trainrewards/margins": 2.3125,
+      "trainrewards/rejected": -0.87109375
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 3.0064917280475045,
+      "learning_rate": 8.518543427732951e-08,
+      "loss": 2.5066,
+      "step": 124,
+      "trainloss/critic_chosen": 1.0965893268585205,
+      "trainloss/critic_rejected": 1.12990403175354,
+      "trainloss/reward": 1.0965893268585205,
+      "trainrewards/accuracies": 0.9166667461395264,
+      "trainrewards/chosen": 1.4375,
+      "trainrewards/margins": 2.3125,
+      "trainrewards/rejected": -0.8828125
+    },
+    {
+      "epoch": 0.93,
+      "grad_norm": 2.6882210161223425,
+      "learning_rate": 6.907519900580862e-08,
+      "loss": 2.3973,
+      "step": 125,
+      "trainloss/critic_chosen": 1.0724809169769287,
+      "trainloss/critic_rejected": 1.1239736080169678,
+      "trainloss/reward": 1.0724809169769287,
+      "trainrewards/accuracies": 0.9687500596046448,
+      "trainrewards/chosen": 1.546875,
+      "trainrewards/margins": 2.5625,
+      "trainrewards/rejected": -1.015625
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 3.2130299463812233,
+      "learning_rate": 5.463099816548578e-08,
+      "loss": 2.4583,
+      "step": 126,
+      "trainloss/critic_chosen": 1.053167700767517,
+      "trainloss/critic_rejected": 1.1157554388046265,
+      "trainloss/reward": 1.053167700767517,
+      "trainrewards/accuracies": 0.9270833730697632,
+      "trainrewards/chosen": 1.390625,
+      "trainrewards/margins": 2.171875,
+      "trainrewards/rejected": -0.7890625
+    },
+    {
+      "epoch": 0.95,
+      "grad_norm": 2.5537231163007004,
+      "learning_rate": 4.186273109011374e-08,
+      "loss": 2.5432,
+      "step": 127,
+      "trainloss/critic_chosen": 1.1048160791397095,
+      "trainloss/critic_rejected": 1.1709802150726318,
+      "trainloss/reward": 1.1048160791397095,
+      "trainrewards/accuracies": 0.9270833134651184,
+      "trainrewards/chosen": 1.234375,
+      "trainrewards/margins": 2.296875,
+      "trainrewards/rejected": -1.0546875
+    },
+    {
+      "epoch": 0.95,
+      "grad_norm": 3.455571318987563,
+      "learning_rate": 3.077914851215585e-08,
+      "loss": 2.4356,
+      "step": 128,
+      "trainloss/critic_chosen": 1.0750889778137207,
+      "trainloss/critic_rejected": 1.1610357761383057,
+      "trainloss/reward": 1.0750889778137207,
+      "trainrewards/accuracies": 0.9635416865348816,
+      "trainrewards/chosen": 1.734375,
+      "trainrewards/margins": 2.625,
+      "trainrewards/rejected": -0.89453125
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 3.095008653826813,
+      "learning_rate": 2.1387846565474047e-08,
+      "loss": 2.4339,
+      "step": 129,
+      "trainloss/critic_chosen": 1.0719571113586426,
+      "trainloss/critic_rejected": 1.1504600048065186,
+      "trainloss/reward": 1.0719571113586426,
+      "trainrewards/accuracies": 0.9583333730697632,
+      "trainrewards/chosen": 1.6328125,
+      "trainrewards/margins": 2.59375,
+      "trainrewards/rejected": -0.96484375
+    },
+    {
+      "epoch": 0.97,
+      "grad_norm": 3.014103190303491,
+      "learning_rate": 1.3695261579316776e-08,
+      "loss": 2.4359,
+      "step": 130,
+      "trainloss/critic_chosen": 1.0608913898468018,
+      "trainloss/critic_rejected": 1.1623928546905518,
+      "trainloss/reward": 1.0608913898468018,
+      "trainrewards/accuracies": 0.9791667461395264,
+      "trainrewards/chosen": 1.5078125,
+      "trainrewards/margins": 2.453125,
+      "trainrewards/rejected": -0.94921875
+    },
+    {
+      "epoch": 0.98,
+      "grad_norm": 3.5824668969231825,
+      "learning_rate": 7.70666566718009e-09,
+      "loss": 2.457,
+      "step": 131,
+      "trainloss/critic_chosen": 1.0644171237945557,
+      "trainloss/critic_rejected": 1.1539928913116455,
+      "trainloss/reward": 1.0644171237945557,
+      "trainrewards/accuracies": 0.9583333730697632,
+      "trainrewards/chosen": 1.578125,
+      "trainrewards/margins": 2.5,
+      "trainrewards/rejected": -0.91796875
+    },
+    {
+      "epoch": 0.98,
+      "grad_norm": 3.085175163660414,
+      "learning_rate": 3.4261631135654174e-09,
+      "loss": 2.4695,
+      "step": 132,
+      "trainloss/critic_chosen": 1.0733301639556885,
+      "trainloss/critic_rejected": 1.1289600133895874,
+      "trainloss/reward": 1.0733301639556885,
+      "trainrewards/accuracies": 0.9427083730697632,
+      "trainrewards/chosen": 1.484375,
+      "trainrewards/margins": 2.296875,
+      "trainrewards/rejected": -0.80859375
+    },
+    {
+      "epoch": 0.99,
+      "grad_norm": 2.6627177185366087,
+      "learning_rate": 8.566875611068503e-10,
+      "loss": 2.456,
+      "step": 133,
+      "trainloss/critic_chosen": 1.0969208478927612,
+      "trainloss/critic_rejected": 1.1649024486541748,
+      "trainloss/reward": 1.0969208478927612,
+      "trainrewards/accuracies": 0.96875,
+      "trainrewards/chosen": 1.4765625,
+      "trainrewards/margins": 2.59375,
+      "trainrewards/rejected": -1.1171875
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 2.6690531080971973,
+      "learning_rate": 0.0,
+      "loss": 2.4519,
+      "step": 134,
+      "trainloss/critic_chosen": 1.090218186378479,
+      "trainloss/critic_rejected": 1.128463625907898,
+      "trainloss/reward": 1.090218186378479,
+      "trainrewards/accuracies": 0.9531250596046448,
+      "trainrewards/chosen": 1.5078125,
+      "trainrewards/margins": 2.53125,
+      "trainrewards/rejected": -1.0234375
+    },
+    {
+      "epoch": 1.0,
+      "step": 134,
+      "total_flos": 0.0,
+      "train_loss": 2.6233635464710976,
+      "train_runtime": 32287.388,
+      "train_samples_per_second": 0.799,
+      "train_steps_per_second": 0.004
+    }
+  ],
+  "logging_steps": 1.0,
+  "max_steps": 134,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 1000,
+  "total_flos": 0.0,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}