End of training

Browse files

Files changed (5) hide show

README.md +1 -1
all_results.json +5 -5
train_results.json +5 -5
trainer_state.json +106 -106
training_loss.png +0 -0

README.md CHANGED Viewed

@@ -16,7 +16,7 @@ should probably proofread and complete it, then remove this comment. -->
 # gsm8k_training_synthetic_positive_vs_multi
-This model is a fine-tuned version of [meta-llama/Llama-3.2-1B-Instruct](https://huggingface.co/meta-llama/Llama-3.2-1B-Instruct) on an unknown dataset.
 ## Model description

 # gsm8k_training_synthetic_positive_vs_multi
+This model is a fine-tuned version of [meta-llama/Llama-3.2-1B-Instruct](https://huggingface.co/meta-llama/Llama-3.2-1B-Instruct) on the gsm8k_training_synthetic_positive_vs_multi dataset.
 ## Model description

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 4.0,
-    "total_flos": 5441966439399424.0,
-    "train_loss": 0.20355752086639403,
-    "train_runtime": 387.1143,
-    "train_samples_per_second": 10.333,
-    "train_steps_per_second": 1.292
 }

 {
     "epoch": 4.0,
+    "total_flos": 5490451427622912.0,
+    "train_loss": 0.19940226113796233,
+    "train_runtime": 384.5053,
+    "train_samples_per_second": 10.403,
+    "train_steps_per_second": 1.3
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 4.0,
-    "total_flos": 5441966439399424.0,
-    "train_loss": 0.20355752086639403,
-    "train_runtime": 387.1143,
-    "train_samples_per_second": 10.333,
-    "train_steps_per_second": 1.292
 }

 {
     "epoch": 4.0,
+    "total_flos": 5490451427622912.0,
+    "train_loss": 0.19940226113796233,
+    "train_runtime": 384.5053,
+    "train_samples_per_second": 10.403,
+    "train_steps_per_second": 1.3
 }

trainer_state.json CHANGED Viewed

@@ -11,362 +11,362 @@
   "log_history": [
     {
       "epoch": 0.08,
-      "grad_norm": 0.6101526021957397,
       "learning_rate": 0.00017999999999999998,
-      "loss": 0.5321,
       "step": 10
     },
     {
       "epoch": 0.16,
-      "grad_norm": 0.614645779132843,
       "learning_rate": 0.00038,
-      "loss": 0.3472,
       "step": 20
     },
     {
       "epoch": 0.24,
-      "grad_norm": 0.5607407093048096,
       "learning_rate": 0.00058,
-      "loss": 0.3515,
       "step": 30
     },
     {
       "epoch": 0.32,
-      "grad_norm": 0.6382182240486145,
       "learning_rate": 0.0007800000000000001,
-      "loss": 0.309,
       "step": 40
     },
     {
       "epoch": 0.4,
-      "grad_norm": 0.5207857489585876,
       "learning_rate": 0.00098,
-      "loss": 0.2925,
       "step": 50
     },
     {
       "epoch": 0.48,
-      "grad_norm": 0.7279995083808899,
       "learning_rate": 0.0009990133642141358,
-      "loss": 0.328,
       "step": 60
     },
     {
       "epoch": 0.56,
-      "grad_norm": 0.803231954574585,
       "learning_rate": 0.0009956077701257708,
-      "loss": 0.3606,
       "step": 70
     },
     {
       "epoch": 0.64,
-      "grad_norm": 0.9615626335144043,
       "learning_rate": 0.000989787624799672,
-      "loss": 0.3146,
       "step": 80
     },
     {
       "epoch": 0.72,
-      "grad_norm": 0.7829203605651855,
       "learning_rate": 0.0009815812833988292,
-      "loss": 0.3517,
       "step": 90
     },
     {
       "epoch": 0.8,
-      "grad_norm": 0.8386848568916321,
       "learning_rate": 0.0009710287263936483,
-      "loss": 0.2999,
       "step": 100
     },
     {
       "epoch": 0.88,
-      "grad_norm": 0.555416464805603,
       "learning_rate": 0.0009581813647811198,
-      "loss": 0.2798,
       "step": 110
     },
     {
       "epoch": 0.96,
-      "grad_norm": 0.6741239428520203,
       "learning_rate": 0.0009431017896156073,
-      "loss": 0.302,
       "step": 120
     },
     {
       "epoch": 1.04,
-      "grad_norm": 0.6036772727966309,
       "learning_rate": 0.0009258634670715238,
-      "loss": 0.2673,
       "step": 130
     },
     {
       "epoch": 1.12,
-      "grad_norm": 0.7313661575317383,
       "learning_rate": 0.0009065503805235138,
-      "loss": 0.2474,
       "step": 140
     },
     {
       "epoch": 1.2,
-      "grad_norm": 0.7425872087478638,
       "learning_rate": 0.0008852566213878947,
-      "loss": 0.2647,
       "step": 150
     },
     {
       "epoch": 1.28,
-      "grad_norm": 0.8528808951377869,
       "learning_rate": 0.0008620859307187339,
-      "loss": 0.2409,
       "step": 160
     },
     {
       "epoch": 1.3599999999999999,
-      "grad_norm": 0.7592480778694153,
       "learning_rate": 0.0008371511937918616,
-      "loss": 0.2586,
       "step": 170
     },
     {
       "epoch": 1.44,
-      "grad_norm": 0.7716279625892639,
       "learning_rate": 0.0008105738901391552,
-      "loss": 0.2575,
       "step": 180
     },
     {
       "epoch": 1.52,
-      "grad_norm": 0.6334287524223328,
       "learning_rate": 0.0007824835017124689,
-      "loss": 0.2431,
       "step": 190
     },
     {
       "epoch": 1.6,
-      "grad_norm": 0.5061123967170715,
       "learning_rate": 0.0007530168820605818,
-      "loss": 0.2585,
       "step": 200
     },
     {
       "epoch": 1.6800000000000002,
-      "grad_norm": 0.5677999258041382,
       "learning_rate": 0.0007223175895924637,
-      "loss": 0.2591,
       "step": 210
     },
     {
       "epoch": 1.76,
-      "grad_norm": 0.5746018290519714,
       "learning_rate": 0.0006905351881751372,
-      "loss": 0.2447,
       "step": 220
     },
     {
       "epoch": 1.8399999999999999,
-      "grad_norm": 0.6062314510345459,
       "learning_rate": 0.0006578245184735513,
-      "loss": 0.2273,
       "step": 230
     },
     {
       "epoch": 1.92,
-      "grad_norm": 0.6199404001235962,
       "learning_rate": 0.0006243449435824276,
-      "loss": 0.2309,
       "step": 240
     },
     {
       "epoch": 2.0,
-      "grad_norm": 0.5176653265953064,
       "learning_rate": 0.0005902595726252801,
-      "loss": 0.2211,
       "step": 250
     },
     {
       "epoch": 2.08,
-      "grad_norm": 0.4597887098789215,
       "learning_rate": 0.0005557344661031627,
-      "loss": 0.1596,
       "step": 260
     },
     {
       "epoch": 2.16,
-      "grad_norm": 0.5063103437423706,
       "learning_rate": 0.0005209378268645998,
-      "loss": 0.1607,
       "step": 270
     },
     {
       "epoch": 2.24,
-      "grad_norm": 0.6462648510932922,
       "learning_rate": 0.00048603918063821566,
-      "loss": 0.1581,
       "step": 280
     },
     {
       "epoch": 2.32,
-      "grad_norm": 0.5296216607093811,
       "learning_rate": 0.0004512085501204253,
-      "loss": 0.1525,
       "step": 290
     },
     {
       "epoch": 2.4,
-      "grad_norm": 0.8066571950912476,
       "learning_rate": 0.0004166156266419489,
-      "loss": 0.1595,
       "step": 300
     },
     {
       "epoch": 2.48,
-      "grad_norm": 0.596865177154541,
       "learning_rate": 0.000382428943448705,
-      "loss": 0.15,
       "step": 310
     },
     {
       "epoch": 2.56,
-      "grad_norm": 0.5388411283493042,
       "learning_rate": 0.00034881505462477783,
-      "loss": 0.1376,
       "step": 320
     },
     {
       "epoch": 2.64,
-      "grad_norm": 0.44305840134620667,
       "learning_rate": 0.00031593772365766105,
-      "loss": 0.1467,
       "step": 330
     },
     {
       "epoch": 2.7199999999999998,
-      "grad_norm": 0.4659726917743683,
       "learning_rate": 0.0002839571255990088,
-      "loss": 0.1435,
       "step": 340
     },
     {
       "epoch": 2.8,
-      "grad_norm": 0.4379129111766815,
       "learning_rate": 0.0002530290667078846,
-      "loss": 0.1428,
       "step": 350
     },
     {
       "epoch": 2.88,
-      "grad_norm": 0.4827200174331665,
       "learning_rate": 0.000223304225378328,
-      "loss": 0.1468,
       "step": 360
     },
     {
       "epoch": 2.96,
-      "grad_norm": 0.3618449568748474,
       "learning_rate": 0.00019492741804936621,
-      "loss": 0.1462,
       "step": 370
     },
     {
       "epoch": 3.04,
-      "grad_norm": 0.34718525409698486,
       "learning_rate": 0.0001680368936738792,
-      "loss": 0.124,
       "step": 380
     },
     {
       "epoch": 3.12,
-      "grad_norm": 0.3362080156803131,
       "learning_rate": 0.00014276366018359842,
-      "loss": 0.0822,
       "step": 390
     },
     {
       "epoch": 3.2,
-      "grad_norm": 0.4773559868335724,
       "learning_rate": 0.00011923084623163172,
-      "loss": 0.0831,
       "step": 400
     },
     {
       "epoch": 3.2800000000000002,
-      "grad_norm": 0.43467625975608826,
       "learning_rate": 9.755310132204298e-05,
-      "loss": 0.0868,
       "step": 410
     },
     {
       "epoch": 3.36,
-      "grad_norm": 0.5573152899742126,
       "learning_rate": 7.783603724899258e-05,
-      "loss": 0.0841,
       "step": 420
     },
     {
       "epoch": 3.44,
-      "grad_norm": 0.33357012271881104,
       "learning_rate": 6.0175713566691824e-05,
-      "loss": 0.0776,
       "step": 430
     },
     {
       "epoch": 3.52,
-      "grad_norm": 0.3988214135169983,
       "learning_rate": 4.465816959691149e-05,
-      "loss": 0.0797,
       "step": 440
     },
     {
       "epoch": 3.6,
-      "grad_norm": 0.3149195611476898,
       "learning_rate": 3.1359005254054274e-05,
-      "loss": 0.0794,
       "step": 450
     },
     {
       "epoch": 3.68,
-      "grad_norm": 0.5255022048950195,
       "learning_rate": 2.0343012729971243e-05,
-      "loss": 0.0781,
       "step": 460
     },
     {
       "epoch": 3.76,
-      "grad_norm": 0.4124266803264618,
       "learning_rate": 1.166386083291604e-05,
-      "loss": 0.0826,
       "step": 470
     },
     {
       "epoch": 3.84,
-      "grad_norm": 0.35789692401885986,
       "learning_rate": 5.363833518505834e-06,
-      "loss": 0.0762,
       "step": 480
     },
     {
       "epoch": 3.92,
-      "grad_norm": 0.5189103484153748,
       "learning_rate": 1.4736238865398766e-06,
-      "loss": 0.0737,
       "step": 490
     },
     {
       "epoch": 4.0,
-      "grad_norm": 0.39071929454803467,
       "learning_rate": 1.2184647302626584e-08,
-      "loss": 0.0763,
       "step": 500
     },
     {
       "epoch": 4.0,
       "step": 500,
-      "total_flos": 5441966439399424.0,
-      "train_loss": 0.20355752086639403,
-      "train_runtime": 387.1143,
-      "train_samples_per_second": 10.333,
-      "train_steps_per_second": 1.292
     }
   ],
   "logging_steps": 10,
@@ -386,7 +386,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5441966439399424.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "log_history": [
     {
       "epoch": 0.08,
+      "grad_norm": 0.6058010458946228,
       "learning_rate": 0.00017999999999999998,
+      "loss": 0.4696,
       "step": 10
     },
     {
       "epoch": 0.16,
+      "grad_norm": 0.7855823040008545,
       "learning_rate": 0.00038,
+      "loss": 0.3417,
       "step": 20
     },
     {
       "epoch": 0.24,
+      "grad_norm": 0.5843826532363892,
       "learning_rate": 0.00058,
+      "loss": 0.2864,
       "step": 30
     },
     {
       "epoch": 0.32,
+      "grad_norm": 0.6763360500335693,
       "learning_rate": 0.0007800000000000001,
+      "loss": 0.3075,
       "step": 40
     },
     {
       "epoch": 0.4,
+      "grad_norm": 0.7557706832885742,
       "learning_rate": 0.00098,
+      "loss": 0.3017,
       "step": 50
     },
     {
       "epoch": 0.48,
+      "grad_norm": 0.6372764110565186,
       "learning_rate": 0.0009990133642141358,
+      "loss": 0.347,
       "step": 60
     },
     {
       "epoch": 0.56,
+      "grad_norm": 0.6951160430908203,
       "learning_rate": 0.0009956077701257708,
+      "loss": 0.2951,
       "step": 70
     },
     {
       "epoch": 0.64,
+      "grad_norm": 0.8329572677612305,
       "learning_rate": 0.000989787624799672,
+      "loss": 0.3089,
       "step": 80
     },
     {
       "epoch": 0.72,
+      "grad_norm": 0.8762990236282349,
       "learning_rate": 0.0009815812833988292,
+      "loss": 0.3095,
       "step": 90
     },
     {
       "epoch": 0.8,
+      "grad_norm": 0.6908068060874939,
       "learning_rate": 0.0009710287263936483,
+      "loss": 0.2886,
       "step": 100
     },
     {
       "epoch": 0.88,
+      "grad_norm": 0.8244242668151855,
       "learning_rate": 0.0009581813647811198,
+      "loss": 0.322,
       "step": 110
     },
     {
       "epoch": 0.96,
+      "grad_norm": 0.7944660782814026,
       "learning_rate": 0.0009431017896156073,
+      "loss": 0.3048,
       "step": 120
     },
     {
       "epoch": 1.04,
+      "grad_norm": 0.6548622250556946,
       "learning_rate": 0.0009258634670715238,
+      "loss": 0.2989,
       "step": 130
     },
     {
       "epoch": 1.12,
+      "grad_norm": 0.6823218464851379,
       "learning_rate": 0.0009065503805235138,
+      "loss": 0.2466,
       "step": 140
     },
     {
       "epoch": 1.2,
+      "grad_norm": 0.8037425875663757,
       "learning_rate": 0.0008852566213878947,
+      "loss": 0.2485,
       "step": 150
     },
     {
       "epoch": 1.28,
+      "grad_norm": 0.8479170799255371,
       "learning_rate": 0.0008620859307187339,
+      "loss": 0.2401,
       "step": 160
     },
     {
       "epoch": 1.3599999999999999,
+      "grad_norm": 0.5974708199501038,
       "learning_rate": 0.0008371511937918616,
+      "loss": 0.2637,
       "step": 170
     },
     {
       "epoch": 1.44,
+      "grad_norm": 0.5917499661445618,
       "learning_rate": 0.0008105738901391552,
+      "loss": 0.2456,
       "step": 180
     },
     {
       "epoch": 1.52,
+      "grad_norm": 0.8342835903167725,
       "learning_rate": 0.0007824835017124689,
+      "loss": 0.2471,
       "step": 190
     },
     {
       "epoch": 1.6,
+      "grad_norm": 0.6186763048171997,
       "learning_rate": 0.0007530168820605818,
+      "loss": 0.2342,
       "step": 200
     },
     {
       "epoch": 1.6800000000000002,
+      "grad_norm": 0.7886436581611633,
       "learning_rate": 0.0007223175895924637,
+      "loss": 0.2495,
       "step": 210
     },
     {
       "epoch": 1.76,
+      "grad_norm": 0.5301917195320129,
       "learning_rate": 0.0006905351881751372,
+      "loss": 0.2291,
       "step": 220
     },
     {
       "epoch": 1.8399999999999999,
+      "grad_norm": 0.5933790802955627,
       "learning_rate": 0.0006578245184735513,
+      "loss": 0.2139,
       "step": 230
     },
     {
       "epoch": 1.92,
+      "grad_norm": 0.6522702574729919,
       "learning_rate": 0.0006243449435824276,
+      "loss": 0.2206,
       "step": 240
     },
     {
       "epoch": 2.0,
+      "grad_norm": 0.47575750946998596,
       "learning_rate": 0.0005902595726252801,
+      "loss": 0.2289,
       "step": 250
     },
     {
       "epoch": 2.08,
+      "grad_norm": 0.4569144546985626,
       "learning_rate": 0.0005557344661031627,
+      "loss": 0.1546,
       "step": 260
     },
     {
       "epoch": 2.16,
+      "grad_norm": 0.4253688454627991,
       "learning_rate": 0.0005209378268645998,
+      "loss": 0.1582,
       "step": 270
     },
     {
       "epoch": 2.24,
+      "grad_norm": 0.4019651412963867,
       "learning_rate": 0.00048603918063821566,
+      "loss": 0.1461,
       "step": 280
     },
     {
       "epoch": 2.32,
+      "grad_norm": 1.082315444946289,
       "learning_rate": 0.0004512085501204253,
+      "loss": 0.1669,
       "step": 290
     },
     {
       "epoch": 2.4,
+      "grad_norm": 0.4050568640232086,
       "learning_rate": 0.0004166156266419489,
+      "loss": 0.1461,
       "step": 300
     },
     {
       "epoch": 2.48,
+      "grad_norm": 0.6206286549568176,
       "learning_rate": 0.000382428943448705,
+      "loss": 0.1564,
       "step": 310
     },
     {
       "epoch": 2.56,
+      "grad_norm": 0.49500882625579834,
       "learning_rate": 0.00034881505462477783,
+      "loss": 0.1505,
       "step": 320
     },
     {
       "epoch": 2.64,
+      "grad_norm": 0.5360985398292542,
       "learning_rate": 0.00031593772365766105,
+      "loss": 0.1432,
       "step": 330
     },
     {
       "epoch": 2.7199999999999998,
+      "grad_norm": 0.4015409052371979,
       "learning_rate": 0.0002839571255990088,
+      "loss": 0.136,
       "step": 340
     },
     {
       "epoch": 2.8,
+      "grad_norm": 0.5249755382537842,
       "learning_rate": 0.0002530290667078846,
+      "loss": 0.1605,
       "step": 350
     },
     {
       "epoch": 2.88,
+      "grad_norm": 0.3920833468437195,
       "learning_rate": 0.000223304225378328,
+      "loss": 0.1511,
       "step": 360
     },
     {
       "epoch": 2.96,
+      "grad_norm": 0.36147066950798035,
       "learning_rate": 0.00019492741804936621,
+      "loss": 0.1403,
       "step": 370
     },
     {
       "epoch": 3.04,
+      "grad_norm": 0.28068122267723083,
       "learning_rate": 0.0001680368936738792,
+      "loss": 0.1229,
       "step": 380
     },
     {
       "epoch": 3.12,
+      "grad_norm": 0.37893545627593994,
       "learning_rate": 0.00014276366018359842,
+      "loss": 0.0914,
       "step": 390
     },
     {
       "epoch": 3.2,
+      "grad_norm": 0.42108216881752014,
       "learning_rate": 0.00011923084623163172,
+      "loss": 0.0823,
       "step": 400
     },
     {
       "epoch": 3.2800000000000002,
+      "grad_norm": 0.400537371635437,
       "learning_rate": 9.755310132204298e-05,
+      "loss": 0.08,
       "step": 410
     },
     {
       "epoch": 3.36,
+      "grad_norm": 0.42910516262054443,
       "learning_rate": 7.783603724899258e-05,
+      "loss": 0.0801,
       "step": 420
     },
     {
       "epoch": 3.44,
+      "grad_norm": 0.46107789874076843,
       "learning_rate": 6.0175713566691824e-05,
+      "loss": 0.0797,
       "step": 430
     },
     {
       "epoch": 3.52,
+      "grad_norm": 0.42276251316070557,
       "learning_rate": 4.465816959691149e-05,
+      "loss": 0.085,
       "step": 440
     },
     {
       "epoch": 3.6,
+      "grad_norm": 0.3870842456817627,
       "learning_rate": 3.1359005254054274e-05,
+      "loss": 0.0866,
       "step": 450
     },
     {
       "epoch": 3.68,
+      "grad_norm": 0.4392528831958771,
       "learning_rate": 2.0343012729971243e-05,
+      "loss": 0.0759,
       "step": 460
     },
     {
       "epoch": 3.76,
+      "grad_norm": 0.3069448173046112,
       "learning_rate": 1.166386083291604e-05,
+      "loss": 0.079,
       "step": 470
     },
     {
       "epoch": 3.84,
+      "grad_norm": 0.39865902066230774,
       "learning_rate": 5.363833518505834e-06,
+      "loss": 0.0927,
       "step": 480
     },
     {
       "epoch": 3.92,
+      "grad_norm": 0.3342863917350769,
       "learning_rate": 1.4736238865398766e-06,
+      "loss": 0.0767,
       "step": 490
     },
     {
       "epoch": 4.0,
+      "grad_norm": 0.34820282459259033,
       "learning_rate": 1.2184647302626584e-08,
+      "loss": 0.078,
       "step": 500
     },
     {
       "epoch": 4.0,
       "step": 500,
+      "total_flos": 5490451427622912.0,
+      "train_loss": 0.19940226113796233,
+      "train_runtime": 384.5053,
+      "train_samples_per_second": 10.403,
+      "train_steps_per_second": 1.3
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 5490451427622912.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

training_loss.png CHANGED Viewed