Training in progress, step 2000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +361 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0a8513162caa5d3737291b9a77529b8bf201b097b574a72a4ec802346d071487
 size 2718107304

 version https://git-lfs.github.com/spec/v1
+oid sha256:cd14d50acc2f98517bbef06b030c6c35a3358709f1d81f28d0924632e3a3327d
 size 2718107304

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7930f19ab407a9573f12c17fd1b3af048e842e990b315cd3ef46705209aed468
 size 145486330

 version https://git-lfs.github.com/spec/v1
+oid sha256:732641cda8fbb415a9820a5a3bca30e63a51107e27c0f0f06200240f25dc5c64
 size 145486330

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b6d8c1e4a6e5d82bc88722704d97c55b34ef11ce759c09d1d12579f704419412
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:6cc3defa9ba1ea15f769731d66d430abc7783c906f059b00b857dbeb10740c1d
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e5572383a3228bd80ae8f460d9587ee0e76e24dd65851719f3dadfa5ceb861f3
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:181640f7107f64b366f0a1e14f0d45b5ddc4bab25cf83c8ffe834db0b38e9f04
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.2730748225013654,
   "eval_steps": 1000,
-  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1065,6 +1065,364 @@
       "learning_rate": 9.042494563884404e-05,
       "loss": 2.8108,
       "step": 1500
     }
   ],
   "logging_steps": 10,
@@ -1084,7 +1442,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.50721698955264e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.3640997633351538,
   "eval_steps": 1000,
+  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 9.042494563884404e-05,
       "loss": 2.8108,
       "step": 1500
+    },
+    {
+      "epoch": 0.2748953213180411,
+      "grad_norm": 7.8658061027526855,
+      "learning_rate": 9.023900547419646e-05,
+      "loss": 2.7663,
+      "step": 1510
+    },
+    {
+      "epoch": 0.2767158201347169,
+      "grad_norm": 15.445107460021973,
+      "learning_rate": 9.005147228518174e-05,
+      "loss": 2.7878,
+      "step": 1520
+    },
+    {
+      "epoch": 0.2785363189513927,
+      "grad_norm": 12.650901794433594,
+      "learning_rate": 8.986235349606238e-05,
+      "loss": 2.8219,
+      "step": 1530
+    },
+    {
+      "epoch": 0.2803568177680685,
+      "grad_norm": 10.226774215698242,
+      "learning_rate": 8.967165659387331e-05,
+      "loss": 2.742,
+      "step": 1540
+    },
+    {
+      "epoch": 0.2821773165847442,
+      "grad_norm": 138.37210083007812,
+      "learning_rate": 8.947938912812548e-05,
+      "loss": 2.9524,
+      "step": 1550
+    },
+    {
+      "epoch": 0.28399781540142,
+      "grad_norm": 16.11450958251953,
+      "learning_rate": 8.928555871050693e-05,
+      "loss": 2.7966,
+      "step": 1560
+    },
+    {
+      "epoch": 0.2858183142180958,
+      "grad_norm": 10.201882362365723,
+      "learning_rate": 8.909017301458156e-05,
+      "loss": 2.8389,
+      "step": 1570
+    },
+    {
+      "epoch": 0.2876388130347715,
+      "grad_norm": 10.96867847442627,
+      "learning_rate": 8.889323977548521e-05,
+      "loss": 2.7495,
+      "step": 1580
+    },
+    {
+      "epoch": 0.2894593118514473,
+      "grad_norm": 10.814942359924316,
+      "learning_rate": 8.869476678961954e-05,
+      "loss": 2.7676,
+      "step": 1590
+    },
+    {
+      "epoch": 0.2912798106681231,
+      "grad_norm": 6.535337448120117,
+      "learning_rate": 8.849476191434334e-05,
+      "loss": 2.7589,
+      "step": 1600
+    },
+    {
+      "epoch": 0.2931003094847988,
+      "grad_norm": 7.036696434020996,
+      "learning_rate": 8.829323306766142e-05,
+      "loss": 2.7921,
+      "step": 1610
+    },
+    {
+      "epoch": 0.2949208083014746,
+      "grad_norm": 5.92086124420166,
+      "learning_rate": 8.809018822791121e-05,
+      "loss": 2.7267,
+      "step": 1620
+    },
+    {
+      "epoch": 0.2967413071181504,
+      "grad_norm": 6.186739921569824,
+      "learning_rate": 8.788563543344688e-05,
+      "loss": 2.795,
+      "step": 1630
+    },
+    {
+      "epoch": 0.2985618059348261,
+      "grad_norm": 8.154546737670898,
+      "learning_rate": 8.767958278232112e-05,
+      "loss": 2.7627,
+      "step": 1640
+    },
+    {
+      "epoch": 0.3003823047515019,
+      "grad_norm": 7.674529075622559,
+      "learning_rate": 8.74720384319645e-05,
+      "loss": 2.7996,
+      "step": 1650
+    },
+    {
+      "epoch": 0.3022028035681777,
+      "grad_norm": 6.348474025726318,
+      "learning_rate": 8.726301059886259e-05,
+      "loss": 2.7704,
+      "step": 1660
+    },
+    {
+      "epoch": 0.3040233023848534,
+      "grad_norm": 10.496267318725586,
+      "learning_rate": 8.705250755823064e-05,
+      "loss": 2.7591,
+      "step": 1670
+    },
+    {
+      "epoch": 0.3058438012015292,
+      "grad_norm": 102.05543518066406,
+      "learning_rate": 8.684053764368598e-05,
+      "loss": 2.8027,
+      "step": 1680
+    },
+    {
+      "epoch": 0.307664300018205,
+      "grad_norm": 8.403404235839844,
+      "learning_rate": 8.662710924691805e-05,
+      "loss": 2.8801,
+      "step": 1690
+    },
+    {
+      "epoch": 0.3094847988348808,
+      "grad_norm": 7.355569839477539,
+      "learning_rate": 8.64122308173563e-05,
+      "loss": 2.8346,
+      "step": 1700
+    },
+    {
+      "epoch": 0.3113052976515565,
+      "grad_norm": 12.551121711730957,
+      "learning_rate": 8.61959108618356e-05,
+      "loss": 2.8381,
+      "step": 1710
+    },
+    {
+      "epoch": 0.3131257964682323,
+      "grad_norm": 116.6989517211914,
+      "learning_rate": 8.597815794425943e-05,
+      "loss": 2.814,
+      "step": 1720
+    },
+    {
+      "epoch": 0.3149462952849081,
+      "grad_norm": 21.63788604736328,
+      "learning_rate": 8.575898068526093e-05,
+      "loss": 2.8389,
+      "step": 1730
+    },
+    {
+      "epoch": 0.3167667941015838,
+      "grad_norm": 143.42408752441406,
+      "learning_rate": 8.553838776186158e-05,
+      "loss": 2.8534,
+      "step": 1740
+    },
+    {
+      "epoch": 0.3185872929182596,
+      "grad_norm": 9.04028034210205,
+      "learning_rate": 8.531638790712765e-05,
+      "loss": 2.8186,
+      "step": 1750
+    },
+    {
+      "epoch": 0.3204077917349354,
+      "grad_norm": 11.659414291381836,
+      "learning_rate": 8.509298990982453e-05,
+      "loss": 2.8078,
+      "step": 1760
+    },
+    {
+      "epoch": 0.3222282905516111,
+      "grad_norm": 7.934113502502441,
+      "learning_rate": 8.486820261406873e-05,
+      "loss": 2.792,
+      "step": 1770
+    },
+    {
+      "epoch": 0.3240487893682869,
+      "grad_norm": 12.919567108154297,
+      "learning_rate": 8.464203491897779e-05,
+      "loss": 2.8111,
+      "step": 1780
+    },
+    {
+      "epoch": 0.3258692881849627,
+      "grad_norm": 13.67540454864502,
+      "learning_rate": 8.441449577831801e-05,
+      "loss": 2.8085,
+      "step": 1790
+    },
+    {
+      "epoch": 0.3276897870016384,
+      "grad_norm": 7.7655110359191895,
+      "learning_rate": 8.418559420014984e-05,
+      "loss": 2.7689,
+      "step": 1800
+    },
+    {
+      "epoch": 0.3295102858183142,
+      "grad_norm": 8.168259620666504,
+      "learning_rate": 8.395533924647141e-05,
+      "loss": 2.7534,
+      "step": 1810
+    },
+    {
+      "epoch": 0.33133078463499,
+      "grad_norm": 14.387748718261719,
+      "learning_rate": 8.372374003285968e-05,
+      "loss": 2.8353,
+      "step": 1820
+    },
+    {
+      "epoch": 0.3331512834516658,
+      "grad_norm": 9.209723472595215,
+      "learning_rate": 8.349080572810965e-05,
+      "loss": 2.7837,
+      "step": 1830
+    },
+    {
+      "epoch": 0.3349717822683415,
+      "grad_norm": 9.160303115844727,
+      "learning_rate": 8.325654555387123e-05,
+      "loss": 2.8186,
+      "step": 1840
+    },
+    {
+      "epoch": 0.3367922810850173,
+      "grad_norm": 20.171415328979492,
+      "learning_rate": 8.302096878428438e-05,
+      "loss": 2.8011,
+      "step": 1850
+    },
+    {
+      "epoch": 0.3386127799016931,
+      "grad_norm": 29.545217514038086,
+      "learning_rate": 8.278408474561169e-05,
+      "loss": 2.7971,
+      "step": 1860
+    },
+    {
+      "epoch": 0.3404332787183688,
+      "grad_norm": 19.314136505126953,
+      "learning_rate": 8.254590281586942e-05,
+      "loss": 2.7983,
+      "step": 1870
+    },
+    {
+      "epoch": 0.3422537775350446,
+      "grad_norm": 8.010175704956055,
+      "learning_rate": 8.230643242445605e-05,
+      "loss": 2.7921,
+      "step": 1880
+    },
+    {
+      "epoch": 0.3440742763517204,
+      "grad_norm": 24.649381637573242,
+      "learning_rate": 8.206568305177907e-05,
+      "loss": 2.7962,
+      "step": 1890
+    },
+    {
+      "epoch": 0.3458947751683961,
+      "grad_norm": 8.272650718688965,
+      "learning_rate": 8.182366422887964e-05,
+      "loss": 2.7439,
+      "step": 1900
+    },
+    {
+      "epoch": 0.3477152739850719,
+      "grad_norm": 7.553550720214844,
+      "learning_rate": 8.158038553705524e-05,
+      "loss": 2.7845,
+      "step": 1910
+    },
+    {
+      "epoch": 0.3495357728017477,
+      "grad_norm": 8.573986053466797,
+      "learning_rate": 8.13358566074804e-05,
+      "loss": 2.7003,
+      "step": 1920
+    },
+    {
+      "epoch": 0.3513562716184234,
+      "grad_norm": 10.316489219665527,
+      "learning_rate": 8.109008712082538e-05,
+      "loss": 2.7627,
+      "step": 1930
+    },
+    {
+      "epoch": 0.3531767704350992,
+      "grad_norm": 8.462483406066895,
+      "learning_rate": 8.084308680687287e-05,
+      "loss": 2.7281,
+      "step": 1940
+    },
+    {
+      "epoch": 0.354997269251775,
+      "grad_norm": 20.140274047851562,
+      "learning_rate": 8.059486544413298e-05,
+      "loss": 2.6906,
+      "step": 1950
+    },
+    {
+      "epoch": 0.3568177680684508,
+      "grad_norm": 7.473912239074707,
+      "learning_rate": 8.034543285945584e-05,
+      "loss": 2.8117,
+      "step": 1960
+    },
+    {
+      "epoch": 0.3586382668851265,
+      "grad_norm": 38.26898193359375,
+      "learning_rate": 8.009479892764284e-05,
+      "loss": 2.7456,
+      "step": 1970
+    },
+    {
+      "epoch": 0.3604587657018023,
+      "grad_norm": 48.63120651245117,
+      "learning_rate": 7.984297357105552e-05,
+      "loss": 2.7224,
+      "step": 1980
+    },
+    {
+      "epoch": 0.3622792645184781,
+      "grad_norm": 10.31283187866211,
+      "learning_rate": 7.95899667592228e-05,
+      "loss": 2.7108,
+      "step": 1990
+    },
+    {
+      "epoch": 0.3640997633351538,
+      "grad_norm": 6.465616703033447,
+      "learning_rate": 7.933578850844636e-05,
+      "loss": 2.6901,
+      "step": 2000
+    },
+    {
+      "epoch": 0.3640997633351538,
+      "eval_loss": 2.735260248184204,
+      "eval_runtime": 1011.986,
+      "eval_samples_per_second": 9.65,
+      "eval_steps_per_second": 1.207,
+      "step": 2000
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 4.67628931940352e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null