Model save

Browse files

Files changed (9) hide show

README.md +1 -1
all_results.json +5 -5
model-00001-of-00004.safetensors +1 -1
model-00002-of-00004.safetensors +1 -1
model-00003-of-00004.safetensors +1 -1
model-00004-of-00004.safetensors +1 -1
train_results.json +5 -5
trainer_state.json +279 -234
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -26,7 +26,7 @@ print(output["generated_text"])
 ## Training procedure
-[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/ggbetz/argunauts-training/runs/mfr9vzm9)
 This model was trained with DPO, a method introduced in [Direct Preference Optimization: Your Language Model is Secretly a Reward Model](https://huggingface.co/papers/2305.18290).

 ## Training procedure
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/ggbetz/argunauts-training/runs/8afyfsbz)
 This model was trained with DPO, a method introduced in [Direct Preference Optimization: Your Language Model is Secretly a Reward Model](https://huggingface.co/papers/2305.18290).

all_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 1.9873417721518987,
     "total_flos": 0.0,
-    "train_loss": 0.3332489388329642,
-    "train_runtime": 1764.0917,
-    "train_samples": 1578,
-    "train_samples_per_second": 1.789,
     "train_steps_per_second": 0.056
 }

 {
+    "epoch": 1.9820224719101125,
     "total_flos": 0.0,
+    "train_loss": 0.340618884563446,
+    "train_runtime": 1955.8801,
+    "train_samples": 1779,
+    "train_samples_per_second": 1.819,
     "train_steps_per_second": 0.056
 }

model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0194ae5449bcff49cacf9b7a32bdf40f0c0b9b97d6e6f08c5c0a337f3c316482
 size 4976698672

 version https://git-lfs.github.com/spec/v1
+oid sha256:872f675707c09411dbb21f0c56ce21a75a907a172ce62eab35fbc9ac386d87d3
 size 4976698672

model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8f76427d1ed7882fa2e1d45aab92abf3c0b7493118cf2e62d2b3d5cd5a36f292
 size 4999802720

 version https://git-lfs.github.com/spec/v1
+oid sha256:fb9bba22ea8a58699ae221ee9488c2cffe45b95c03ff0f7d585b957bceadb231
 size 4999802720

model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e3db0121dcf6b93ce60e6957cecdaa7f36181c5f0877e209970bb7a416797a0e
 size 4915916176

 version https://git-lfs.github.com/spec/v1
+oid sha256:e8d81c8cb4860860e1e8ebc9f7920a5497b153e08513ac9b6af2d4656427d313
 size 4915916176

model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:db2af0685928fdee52f9e5fef1e81f3d9c595770472ad366bf881f352c775300
 size 1168138808

 version https://git-lfs.github.com/spec/v1
+oid sha256:bacab750cca6f653341a857fdbe0f2616bae9c79632f48a574760daf38647180
 size 1168138808

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 1.9873417721518987,
     "total_flos": 0.0,
-    "train_loss": 0.3332489388329642,
-    "train_runtime": 1764.0917,
-    "train_samples": 1578,
-    "train_samples_per_second": 1.789,
     "train_steps_per_second": 0.056
 }

 {
+    "epoch": 1.9820224719101125,
     "total_flos": 0.0,
+    "train_loss": 0.340618884563446,
+    "train_runtime": 1955.8801,
+    "train_samples": 1779,
+    "train_samples_per_second": 1.819,
     "train_steps_per_second": 0.056
 }

trainer_state.json CHANGED Viewed

@@ -1,310 +1,355 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.9873417721518987,
   "eval_steps": 500,
-  "global_step": 98,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.10126582278481013,
-      "grad_norm": 164.88829092196647,
-      "learning_rate": 5.1020408163265303e-08,
-      "logits/chosen": -1.1785156726837158,
-      "logits/rejected": -1.236425757408142,
-      "logps/chosen": -227.52499389648438,
-      "logps/rejected": -236.91250610351562,
-      "loss": 0.3665,
-      "rewards/accuracies": 0.8187500238418579,
-      "rewards/chosen": -1.726477026939392,
-      "rewards/margins": 2.431835889816284,
-      "rewards/rejected": -4.161084175109863,
       "step": 5
     },
     {
-      "epoch": 0.20253164556962025,
-      "grad_norm": 196.04682481931437,
-      "learning_rate": 1.0204081632653061e-07,
-      "logits/chosen": -1.272363305091858,
-      "logits/rejected": -1.274511694908142,
-      "logps/chosen": -220.14999389648438,
-      "logps/rejected": -245.1999969482422,
-      "loss": 0.3605,
-      "rewards/accuracies": 0.84375,
-      "rewards/chosen": -2.18218994140625,
-      "rewards/margins": 2.397656202316284,
-      "rewards/rejected": -4.5774078369140625,
       "step": 10
     },
     {
-      "epoch": 0.3037974683544304,
-      "grad_norm": 181.94134870297944,
-      "learning_rate": 1.5306122448979592e-07,
-      "logits/chosen": -1.19287109375,
-      "logits/rejected": -1.20751953125,
-      "logps/chosen": -198.3125,
-      "logps/rejected": -232.83749389648438,
-      "loss": 0.4412,
-      "rewards/accuracies": 0.8187500238418579,
-      "rewards/chosen": -0.9437316656112671,
-      "rewards/margins": 2.420117139816284,
-      "rewards/rejected": -3.36419677734375,
       "step": 15
     },
     {
-      "epoch": 0.4050632911392405,
-      "grad_norm": 176.48931870428808,
-      "learning_rate": 2.0408163265306121e-07,
-      "logits/chosen": -1.23291015625,
-      "logits/rejected": -1.23095703125,
-      "logps/chosen": -216.875,
-      "logps/rejected": -227.72500610351562,
-      "loss": 0.4458,
-      "rewards/accuracies": 0.8125,
-      "rewards/chosen": -1.646325707435608,
-      "rewards/margins": 2.341747999191284,
-      "rewards/rejected": -3.9908447265625,
       "step": 20
     },
     {
-      "epoch": 0.5063291139240507,
-      "grad_norm": 152.41353229457945,
-      "learning_rate": 2.551020408163265e-07,
-      "logits/chosen": -1.217187523841858,
-      "logits/rejected": -1.1962890625,
-      "logps/chosen": -198.1999969482422,
-      "logps/rejected": -234.0749969482422,
-      "loss": 0.3668,
-      "rewards/accuracies": 0.824999988079071,
-      "rewards/chosen": -1.236718773841858,
-      "rewards/margins": 2.2503418922424316,
-      "rewards/rejected": -3.4869627952575684,
       "step": 25
     },
     {
-      "epoch": 0.6075949367088608,
-      "grad_norm": 238.15664690468444,
-      "learning_rate": 3.0612244897959183e-07,
-      "logits/chosen": -1.1808593273162842,
-      "logits/rejected": -1.198828101158142,
-      "logps/chosen": -203.9875030517578,
-      "logps/rejected": -218.33749389648438,
-      "loss": 0.3598,
-      "rewards/accuracies": 0.84375,
-      "rewards/chosen": -1.8857848644256592,
-      "rewards/margins": 2.5849852561950684,
-      "rewards/rejected": -4.472509860992432,
       "step": 30
     },
     {
-      "epoch": 0.7088607594936709,
-      "grad_norm": 173.56185951357247,
-      "learning_rate": 3.5714285714285716e-07,
-      "logits/chosen": -1.2887694835662842,
-      "logits/rejected": -1.2497069835662842,
-      "logps/chosen": -227.25,
-      "logps/rejected": -272.48748779296875,
-      "loss": 0.3668,
-      "rewards/accuracies": 0.8687499761581421,
-      "rewards/chosen": -1.4921875,
-      "rewards/margins": 2.6267333030700684,
-      "rewards/rejected": -4.119189262390137,
       "step": 35
     },
     {
-      "epoch": 0.810126582278481,
-      "grad_norm": 178.120520590497,
-      "learning_rate": 4.0816326530612243e-07,
-      "logits/chosen": -1.236230492591858,
-      "logits/rejected": -1.26806640625,
-      "logps/chosen": -230.9499969482422,
-      "logps/rejected": -250.83749389648438,
-      "loss": 0.3654,
       "rewards/accuracies": 0.8500000238418579,
-      "rewards/chosen": -1.5751953125,
-      "rewards/margins": 2.5509276390075684,
-      "rewards/rejected": -4.125390529632568,
       "step": 40
     },
     {
-      "epoch": 0.9113924050632911,
-      "grad_norm": 305.3433425219198,
-      "learning_rate": 4.5918367346938775e-07,
-      "logits/chosen": -1.2873046398162842,
-      "logits/rejected": -1.2756836414337158,
-      "logps/chosen": -216.85000610351562,
-      "logps/rejected": -247.8000030517578,
-      "loss": 0.3923,
-      "rewards/accuracies": 0.78125,
-      "rewards/chosen": -2.557360887527466,
-      "rewards/margins": 2.396679639816284,
-      "rewards/rejected": -4.952929496765137,
       "step": 45
     },
     {
-      "epoch": 1.0151898734177216,
-      "grad_norm": 175.7849952088377,
-      "learning_rate": 4.897959183673469e-07,
-      "logits/chosen": -1.28271484375,
-      "logits/rejected": -1.275292992591858,
-      "logps/chosen": -196.35000610351562,
-      "logps/rejected": -230.125,
-      "loss": 0.3045,
-      "rewards/accuracies": 0.8687499761581421,
-      "rewards/chosen": -1.607446312904358,
-      "rewards/margins": 2.945483446121216,
-      "rewards/rejected": -4.556542873382568,
       "step": 50
     },
     {
-      "epoch": 1.1164556962025316,
-      "grad_norm": 93.12529608401417,
-      "learning_rate": 4.387755102040816e-07,
-      "logits/chosen": -1.211328148841858,
-      "logits/rejected": -1.239160180091858,
-      "logps/chosen": -234.8125,
-      "logps/rejected": -263.42498779296875,
-      "loss": 0.3077,
-      "rewards/accuracies": 0.856249988079071,
-      "rewards/chosen": -1.0397613048553467,
-      "rewards/margins": 2.655688524246216,
-      "rewards/rejected": -3.6968016624450684,
       "step": 55
     },
     {
-      "epoch": 1.2177215189873418,
-      "grad_norm": 128.88871435709157,
-      "learning_rate": 3.877551020408163e-07,
-      "logits/chosen": -1.2453124523162842,
-      "logits/rejected": -1.257714867591858,
-      "logps/chosen": -217.125,
-      "logps/rejected": -236.60000610351562,
-      "loss": 0.2759,
-      "rewards/accuracies": 0.90625,
-      "rewards/chosen": -1.4923827648162842,
-      "rewards/margins": 2.579882860183716,
-      "rewards/rejected": -4.072167873382568,
       "step": 60
     },
     {
-      "epoch": 1.3189873417721518,
-      "grad_norm": 100.50051637621726,
-      "learning_rate": 3.3673469387755096e-07,
-      "logits/chosen": -1.2649414539337158,
-      "logits/rejected": -1.2864258289337158,
-      "logps/chosen": -195.9250030517578,
-      "logps/rejected": -230.8874969482422,
-      "loss": 0.318,
-      "rewards/accuracies": 0.8812500238418579,
-      "rewards/chosen": -2.084057569503784,
-      "rewards/margins": 2.5894532203674316,
-      "rewards/rejected": -4.67529296875,
       "step": 65
     },
     {
-      "epoch": 1.420253164556962,
-      "grad_norm": 116.04677407046486,
-      "learning_rate": 2.857142857142857e-07,
-      "logits/chosen": -1.25537109375,
-      "logits/rejected": -1.2003905773162842,
-      "logps/chosen": -211.52499389648438,
-      "logps/rejected": -223.4499969482422,
-      "loss": 0.303,
-      "rewards/accuracies": 0.84375,
-      "rewards/chosen": -1.956323266029358,
-      "rewards/margins": 2.680859327316284,
-      "rewards/rejected": -4.637743949890137,
       "step": 70
     },
     {
-      "epoch": 1.5215189873417723,
-      "grad_norm": 165.72279289188168,
-      "learning_rate": 2.346938775510204e-07,
-      "logits/chosen": -1.200585961341858,
-      "logits/rejected": -1.214257836341858,
-      "logps/chosen": -216.3249969482422,
-      "logps/rejected": -247.9875030517578,
-      "loss": 0.2451,
       "rewards/accuracies": 0.8687499761581421,
-      "rewards/chosen": -1.793310523033142,
-      "rewards/margins": 2.6591796875,
-      "rewards/rejected": -4.44970703125,
       "step": 75
     },
     {
-      "epoch": 1.6227848101265823,
-      "grad_norm": 72.70953479370881,
-      "learning_rate": 1.836734693877551e-07,
-      "logits/chosen": -1.2444336414337158,
-      "logits/rejected": -1.2509765625,
-      "logps/chosen": -198.1374969482422,
-      "logps/rejected": -238.6750030517578,
-      "loss": 0.2367,
-      "rewards/accuracies": 0.8999999761581421,
-      "rewards/chosen": -1.5260741710662842,
-      "rewards/margins": 2.770703077316284,
-      "rewards/rejected": -4.296618461608887,
       "step": 80
     },
     {
-      "epoch": 1.7240506329113923,
-      "grad_norm": 102.46666266044015,
-      "learning_rate": 1.326530612244898e-07,
-      "logits/chosen": -1.174902319908142,
-      "logits/rejected": -1.1663086414337158,
-      "logps/chosen": -213.0749969482422,
-      "logps/rejected": -241.3000030517578,
-      "loss": 0.2643,
-      "rewards/accuracies": 0.887499988079071,
-      "rewards/chosen": -1.648535132408142,
-      "rewards/margins": 2.9351563453674316,
-      "rewards/rejected": -4.583788871765137,
       "step": 85
     },
     {
-      "epoch": 1.8253164556962025,
-      "grad_norm": 96.17442050283816,
-      "learning_rate": 8.163265306122448e-08,
-      "logits/chosen": -1.3068358898162842,
-      "logits/rejected": -1.2685546875,
-      "logps/chosen": -197.96249389648438,
-      "logps/rejected": -240.0749969482422,
-      "loss": 0.2913,
-      "rewards/accuracies": 0.8812500238418579,
-      "rewards/chosen": -1.8278076648712158,
-      "rewards/margins": 2.79736328125,
-      "rewards/rejected": -4.623583793640137,
       "step": 90
     },
     {
-      "epoch": 1.9265822784810127,
-      "grad_norm": 177.81461241439493,
-      "learning_rate": 3.0612244897959183e-08,
-      "logits/chosen": -1.195214867591858,
-      "logits/rejected": -1.21337890625,
-      "logps/chosen": -233.21249389648438,
-      "logps/rejected": -256.3999938964844,
-      "loss": 0.2971,
-      "rewards/accuracies": 0.90625,
-      "rewards/chosen": -1.703759789466858,
-      "rewards/margins": 3.0367188453674316,
-      "rewards/rejected": -4.742871284484863,
       "step": 95
     },
     {
-      "epoch": 1.9873417721518987,
-      "step": 98,
       "total_flos": 0.0,
-      "train_loss": 0.3332489388329642,
-      "train_runtime": 1764.0917,
-      "train_samples_per_second": 1.789,
       "train_steps_per_second": 0.056
     }
   ],
   "logging_steps": 5,
-  "max_steps": 98,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 50,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.9820224719101125,
   "eval_steps": 500,
+  "global_step": 110,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.0898876404494382,
+      "grad_norm": 250.8028214771956,
+      "learning_rate": 4.545454545454545e-08,
+      "logits/chosen": -1.31005859375,
+      "logits/rejected": -1.302734375,
+      "logps/chosen": -219.6999969482422,
+      "logps/rejected": -277.82501220703125,
+      "loss": 0.3525,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -2.008740186691284,
+      "rewards/margins": 2.612988233566284,
+      "rewards/rejected": -4.619116306304932,
       "step": 5
     },
     {
+      "epoch": 0.1797752808988764,
+      "grad_norm": 170.2256638749618,
+      "learning_rate": 9.09090909090909e-08,
+      "logits/chosen": -1.200585961341858,
+      "logits/rejected": -1.272363305091858,
+      "logps/chosen": -205.9250030517578,
+      "logps/rejected": -230.5124969482422,
+      "loss": 0.3659,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -1.0198485851287842,
+      "rewards/margins": 2.195556640625,
+      "rewards/rejected": -3.2144532203674316,
       "step": 10
     },
     {
+      "epoch": 0.2696629213483146,
+      "grad_norm": 295.1115992445591,
+      "learning_rate": 1.3636363636363635e-07,
+      "logits/chosen": -1.2916991710662842,
+      "logits/rejected": -1.23388671875,
+      "logps/chosen": -180.6999969482422,
+      "logps/rejected": -212.14999389648438,
+      "loss": 0.437,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -2.502392530441284,
+      "rewards/margins": 2.3900389671325684,
+      "rewards/rejected": -4.890429496765137,
       "step": 15
     },
     {
+      "epoch": 0.3595505617977528,
+      "grad_norm": 277.7225526041515,
+      "learning_rate": 1.818181818181818e-07,
+      "logits/chosen": -1.259765625,
+      "logits/rejected": -1.2590820789337158,
+      "logps/chosen": -197.78750610351562,
+      "logps/rejected": -218.91250610351562,
+      "loss": 0.3354,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -2.3748536109924316,
+      "rewards/margins": 2.6907958984375,
+      "rewards/rejected": -5.071179389953613,
       "step": 20
     },
     {
+      "epoch": 0.449438202247191,
+      "grad_norm": 115.01279948814654,
+      "learning_rate": 2.2727272727272726e-07,
+      "logits/chosen": -1.180078148841858,
+      "logits/rejected": -1.196386694908142,
+      "logps/chosen": -206.75,
+      "logps/rejected": -224.52499389648438,
+      "loss": 0.4124,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -2.122851610183716,
+      "rewards/margins": 1.923669457435608,
+      "rewards/rejected": -4.044787406921387,
       "step": 25
     },
     {
+      "epoch": 0.5393258426966292,
+      "grad_norm": 72.00062004716999,
+      "learning_rate": 2.727272727272727e-07,
+      "logits/chosen": -1.245996117591858,
+      "logits/rejected": -1.2501952648162842,
+      "logps/chosen": -208.91250610351562,
+      "logps/rejected": -217.8125,
+      "loss": 0.3735,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": -1.261322021484375,
+      "rewards/margins": 2.326733350753784,
+      "rewards/rejected": -3.585009813308716,
       "step": 30
     },
     {
+      "epoch": 0.6292134831460674,
+      "grad_norm": 159.67880662723658,
+      "learning_rate": 3.1818181818181815e-07,
+      "logits/chosen": -1.2498047351837158,
+      "logits/rejected": -1.212011694908142,
+      "logps/chosen": -200.75,
+      "logps/rejected": -203.1750030517578,
+      "loss": 0.3959,
+      "rewards/accuracies": 0.831250011920929,
+      "rewards/chosen": -2.0471434593200684,
+      "rewards/margins": 2.1449217796325684,
+      "rewards/rejected": -4.191888332366943,
       "step": 35
     },
     {
+      "epoch": 0.7191011235955056,
+      "grad_norm": 159.3228331743839,
+      "learning_rate": 3.636363636363636e-07,
+      "logits/chosen": -1.304296851158142,
+      "logits/rejected": -1.2903320789337158,
+      "logps/chosen": -211.1750030517578,
+      "logps/rejected": -218.71249389648438,
+      "loss": 0.3872,
       "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -1.924902319908142,
+      "rewards/margins": 2.205249071121216,
+      "rewards/rejected": -4.130883693695068,
       "step": 40
     },
     {
+      "epoch": 0.8089887640449438,
+      "grad_norm": 209.54928027137586,
+      "learning_rate": 4.090909090909091e-07,
+      "logits/chosen": -1.2551758289337158,
+      "logits/rejected": -1.2458007335662842,
+      "logps/chosen": -222.3249969482422,
+      "logps/rejected": -237.64999389648438,
+      "loss": 0.4076,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -1.8654601573944092,
+      "rewards/margins": 2.3793578147888184,
+      "rewards/rejected": -4.247656345367432,
       "step": 45
     },
     {
+      "epoch": 0.898876404494382,
+      "grad_norm": 134.6125923552392,
+      "learning_rate": 4.545454545454545e-07,
+      "logits/chosen": -1.2243163585662842,
+      "logits/rejected": -1.208593726158142,
+      "logps/chosen": -203.58749389648438,
+      "logps/rejected": -223.9875030517578,
+      "loss": 0.4013,
+      "rewards/accuracies": 0.793749988079071,
+      "rewards/chosen": -2.0265870094299316,
+      "rewards/margins": 2.5132813453674316,
+      "rewards/rejected": -4.545800685882568,
       "step": 50
     },
     {
+      "epoch": 0.9887640449438202,
+      "grad_norm": 189.31983158924976,
+      "learning_rate": 5e-07,
+      "logits/chosen": -1.2102539539337158,
+      "logits/rejected": -1.205078125,
+      "logps/chosen": -204.6750030517578,
+      "logps/rejected": -235.71249389648438,
+      "loss": 0.4268,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -1.649023413658142,
+      "rewards/margins": 2.216552734375,
+      "rewards/rejected": -3.8661131858825684,
       "step": 55
     },
     {
+      "epoch": 1.0831460674157303,
+      "grad_norm": 125.21413207415151,
+      "learning_rate": 4.545454545454545e-07,
+      "logits/chosen": -1.2853515148162842,
+      "logits/rejected": -1.318261742591858,
+      "logps/chosen": -202.3000030517578,
+      "logps/rejected": -216.0124969482422,
+      "loss": 0.3312,
+      "rewards/accuracies": 0.8812500238418579,
+      "rewards/chosen": -1.6000487804412842,
+      "rewards/margins": 2.2996582984924316,
+      "rewards/rejected": -3.900146484375,
       "step": 60
     },
     {
+      "epoch": 1.1730337078651685,
+      "grad_norm": 164.73999131891642,
+      "learning_rate": 4.090909090909091e-07,
+      "logits/chosen": -1.240136742591858,
+      "logits/rejected": -1.2451171875,
+      "logps/chosen": -229.66250610351562,
+      "logps/rejected": -257.3999938964844,
+      "loss": 0.2984,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -1.916986107826233,
+      "rewards/margins": 2.175122022628784,
+      "rewards/rejected": -4.092577934265137,
       "step": 65
     },
     {
+      "epoch": 1.2629213483146067,
+      "grad_norm": 99.20074290357307,
+      "learning_rate": 3.636363636363636e-07,
+      "logits/chosen": -1.254492163658142,
+      "logits/rejected": -1.2688477039337158,
+      "logps/chosen": -222.0625,
+      "logps/rejected": -236.8625030517578,
+      "loss": 0.3024,
+      "rewards/accuracies": 0.862500011920929,
+      "rewards/chosen": -1.540551781654358,
+      "rewards/margins": 2.271484375,
+      "rewards/rejected": -3.810473680496216,
       "step": 70
     },
     {
+      "epoch": 1.3528089887640449,
+      "grad_norm": 126.64899063848813,
+      "learning_rate": 3.1818181818181815e-07,
+      "logits/chosen": -1.2423827648162842,
+      "logits/rejected": -1.212158203125,
+      "logps/chosen": -208.27499389648438,
+      "logps/rejected": -230.75,
+      "loss": 0.2873,
       "rewards/accuracies": 0.8687499761581421,
+      "rewards/chosen": -1.522576928138733,
+      "rewards/margins": 2.6622557640075684,
+      "rewards/rejected": -4.184668064117432,
       "step": 75
     },
     {
+      "epoch": 1.442696629213483,
+      "grad_norm": 117.37315757338318,
+      "learning_rate": 2.727272727272727e-07,
+      "logits/chosen": -1.244140625,
+      "logits/rejected": -1.20654296875,
+      "logps/chosen": -203.5812530517578,
+      "logps/rejected": -249.3249969482422,
+      "loss": 0.3876,
+      "rewards/accuracies": 0.793749988079071,
+      "rewards/chosen": -1.797338843345642,
+      "rewards/margins": 2.134106397628784,
+      "rewards/rejected": -3.930224657058716,
       "step": 80
     },
     {
+      "epoch": 1.5325842696629213,
+      "grad_norm": 133.10246641657412,
+      "learning_rate": 2.2727272727272726e-07,
+      "logits/chosen": -1.252050757408142,
+      "logits/rejected": -1.2130858898162842,
+      "logps/chosen": -202.4499969482422,
+      "logps/rejected": -219.47500610351562,
+      "loss": 0.3168,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -1.588891625404358,
+      "rewards/margins": 2.5704102516174316,
+      "rewards/rejected": -4.15966796875,
       "step": 85
     },
     {
+      "epoch": 1.6224719101123597,
+      "grad_norm": 129.44212708304207,
+      "learning_rate": 1.818181818181818e-07,
+      "logits/chosen": -1.2580077648162842,
+      "logits/rejected": -1.262597680091858,
+      "logps/chosen": -165.0124969482422,
+      "logps/rejected": -193.21249389648438,
+      "loss": 0.2857,
+      "rewards/accuracies": 0.893750011920929,
+      "rewards/chosen": -1.4154541492462158,
+      "rewards/margins": 2.55810546875,
+      "rewards/rejected": -3.975329637527466,
       "step": 90
     },
     {
+      "epoch": 1.7123595505617977,
+      "grad_norm": 133.23298622428365,
+      "learning_rate": 1.3636363636363635e-07,
+      "logits/chosen": -1.26171875,
+      "logits/rejected": -1.2370116710662842,
+      "logps/chosen": -191.8874969482422,
+      "logps/rejected": -232.5124969482422,
+      "loss": 0.2636,
+      "rewards/accuracies": 0.862500011920929,
+      "rewards/chosen": -1.913476586341858,
+      "rewards/margins": 3.128124952316284,
+      "rewards/rejected": -5.037988185882568,
       "step": 95
     },
     {
+      "epoch": 1.802247191011236,
+      "grad_norm": 121.7166467503501,
+      "learning_rate": 9.09090909090909e-08,
+      "logits/chosen": -1.2141602039337158,
+      "logits/rejected": -1.228906273841858,
+      "logps/chosen": -199.4375,
+      "logps/rejected": -229.64999389648438,
+      "loss": 0.2476,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": -1.579687476158142,
+      "rewards/margins": 2.887890577316284,
+      "rewards/rejected": -4.467577934265137,
+      "step": 100
+    },
+    {
+      "epoch": 1.892134831460674,
+      "grad_norm": 124.25297719784706,
+      "learning_rate": 4.545454545454545e-08,
+      "logits/chosen": -1.291894555091858,
+      "logits/rejected": -1.346093773841858,
+      "logps/chosen": -214.0625,
+      "logps/rejected": -233.0749969482422,
+      "loss": 0.2455,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": -2.6200804710388184,
+      "rewards/margins": 2.843066453933716,
+      "rewards/rejected": -5.462133884429932,
+      "step": 105
+    },
+    {
+      "epoch": 1.9820224719101125,
+      "grad_norm": 113.18883753786767,
+      "learning_rate": 0.0,
+      "logits/chosen": -1.2438476085662842,
+      "logits/rejected": -1.2707030773162842,
+      "logps/chosen": -215.46249389648438,
+      "logps/rejected": -218.7375030517578,
+      "loss": 0.2322,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": -2.182504177093506,
+      "rewards/margins": 2.7933106422424316,
+      "rewards/rejected": -4.975976467132568,
+      "step": 110
+    },
+    {
+      "epoch": 1.9820224719101125,
+      "step": 110,
       "total_flos": 0.0,
+      "train_loss": 0.340618884563446,
+      "train_runtime": 1955.8801,
+      "train_samples_per_second": 1.819,
       "train_steps_per_second": 0.056
     }
   ],
   "logging_steps": 5,
+  "max_steps": 110,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 50,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:19a4d7ba1f5921cec23798ad2026f81f5e42e812d37f484757273cf4aea3a061
 size 7672

 version https://git-lfs.github.com/spec/v1
+oid sha256:03d967e1eb02dcc35b71618607ff5d6e5a726deda0443e58f9972946a8d826b4
 size 7672