Gabe-Thomp
/

lr2.0e-06_data-mix_assistant_only_1500_seq_length

+{
+    "total_flos": 231659938701312.0,
+    "train_loss": 0.5313233767376572,
+    "train_runtime": 12361.3768,
+    "train_samples": 15500,
+    "train_samples_per_second": 3.762,
+    "train_steps_per_second": 0.03
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 2,
+  "cache_implementation": "hybrid",
+  "eos_token_id": 1,
+  "pad_token_id": 0,
+  "transformers_version": "4.54.0"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "total_flos": 231659938701312.0,
+    "train_loss": 0.5313233767376572,
+    "train_runtime": 12361.3768,
+    "train_samples": 15500,
+    "train_samples_per_second": 3.762,
+    "train_steps_per_second": 0.03
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,702 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 366,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0412796697626419,
+      "grad_norm": 15.624099418508212,
+      "learning_rate": 2.1621621621621622e-07,
+      "loss": 1.0211,
+      "mean_token_accuracy": 0.7495194703340531,
+      "num_tokens": 753861.0,
+      "step": 5
+    },
+    {
+      "epoch": 0.0825593395252838,
+      "grad_norm": 14.089666887893312,
+      "learning_rate": 4.864864864864865e-07,
+      "loss": 0.9982,
+      "mean_token_accuracy": 0.7503360390663147,
+      "num_tokens": 1499146.0,
+      "step": 10
+    },
+    {
+      "epoch": 0.1238390092879257,
+      "grad_norm": 8.165011263693703,
+      "learning_rate": 7.567567567567568e-07,
+      "loss": 0.8403,
+      "mean_token_accuracy": 0.774555218219757,
+      "num_tokens": 2234191.0,
+      "step": 15
+    },
+    {
+      "epoch": 0.1651186790505676,
+      "grad_norm": 2.4829258847685955,
+      "learning_rate": 1.0270270270270269e-06,
+      "loss": 0.7115,
+      "mean_token_accuracy": 0.7917023435235023,
+      "num_tokens": 2982701.0,
+      "step": 20
+    },
+    {
+      "epoch": 0.20639834881320948,
+      "grad_norm": 1.4992039643671118,
+      "learning_rate": 1.2972972972972972e-06,
+      "loss": 0.6584,
+      "mean_token_accuracy": 0.7975756898522377,
+      "num_tokens": 3733149.0,
+      "step": 25
+    },
+    {
+      "epoch": 0.2476780185758514,
+      "grad_norm": 1.3240435233707502,
+      "learning_rate": 1.5675675675675676e-06,
+      "loss": 0.6196,
+      "mean_token_accuracy": 0.8073552951216698,
+      "num_tokens": 4474136.0,
+      "step": 30
+    },
+    {
+      "epoch": 0.2889576883384933,
+      "grad_norm": 1.7540112925667055,
+      "learning_rate": 1.837837837837838e-06,
+      "loss": 0.6287,
+      "mean_token_accuracy": 0.8032846122980117,
+      "num_tokens": 5210845.0,
+      "step": 35
+    },
+    {
+      "epoch": 0.3302373581011352,
+      "grad_norm": 0.981995931842241,
+      "learning_rate": 1.9998176420316e-06,
+      "loss": 0.6227,
+      "mean_token_accuracy": 0.8027533680200577,
+      "num_tokens": 5964637.0,
+      "step": 40
+    },
+    {
+      "epoch": 0.3715170278637771,
+      "grad_norm": 0.990647528055256,
+      "learning_rate": 1.9977668786231533e-06,
+      "loss": 0.6315,
+      "mean_token_accuracy": 0.8004137575626373,
+      "num_tokens": 6720240.0,
+      "step": 45
+    },
+    {
+      "epoch": 0.41279669762641896,
+      "grad_norm": 0.8897636043459279,
+      "learning_rate": 1.993442093851331e-06,
+      "loss": 0.5916,
+      "mean_token_accuracy": 0.811573649942875,
+      "num_tokens": 7470701.0,
+      "step": 50
+    },
+    {
+      "epoch": 0.4540763673890609,
+      "grad_norm": 0.9169927457005795,
+      "learning_rate": 1.986853144380224e-06,
+      "loss": 0.5955,
+      "mean_token_accuracy": 0.811116699874401,
+      "num_tokens": 8221962.0,
+      "step": 55
+    },
+    {
+      "epoch": 0.4953560371517028,
+      "grad_norm": 0.9021550704152176,
+      "learning_rate": 1.9780150471563555e-06,
+      "loss": 0.6043,
+      "mean_token_accuracy": 0.8079309955239296,
+      "num_tokens": 8984378.0,
+      "step": 60
+    },
+    {
+      "epoch": 0.5366357069143447,
+      "grad_norm": 0.8518882228941898,
+      "learning_rate": 1.9669479451833974e-06,
+      "loss": 0.604,
+      "mean_token_accuracy": 0.8058954104781151,
+      "num_tokens": 9729682.0,
+      "step": 65
+    },
+    {
+      "epoch": 0.5779153766769866,
+      "grad_norm": 0.869489796529064,
+      "learning_rate": 1.9536770616140275e-06,
+      "loss": 0.5939,
+      "mean_token_accuracy": 0.8116138935089111,
+      "num_tokens": 10470679.0,
+      "step": 70
+    },
+    {
+      "epoch": 0.6191950464396285,
+      "grad_norm": 0.860002637647343,
+      "learning_rate": 1.9382326422635704e-06,
+      "loss": 0.5832,
+      "mean_token_accuracy": 0.8130927443504333,
+      "num_tokens": 11233125.0,
+      "step": 75
+    },
+    {
+      "epoch": 0.6604747162022704,
+      "grad_norm": 0.8461444317665581,
+      "learning_rate": 1.920649886676429e-06,
+      "loss": 0.5589,
+      "mean_token_accuracy": 0.8205906450748444,
+      "num_tokens": 11965589.0,
+      "step": 80
+    },
+    {
+      "epoch": 0.7017543859649122,
+      "grad_norm": 0.9136979277004551,
+      "learning_rate": 1.9009688679024189e-06,
+      "loss": 0.5925,
+      "mean_token_accuracy": 0.8109533503651619,
+      "num_tokens": 12717735.0,
+      "step": 85
+    },
+    {
+      "epoch": 0.7430340557275542,
+      "grad_norm": 0.8541232534987969,
+      "learning_rate": 1.8792344411658468e-06,
+      "loss": 0.5724,
+      "mean_token_accuracy": 0.815299516916275,
+      "num_tokens": 13470614.0,
+      "step": 90
+    },
+    {
+      "epoch": 0.7843137254901961,
+      "grad_norm": 0.8780037746703969,
+      "learning_rate": 1.8554961416354758e-06,
+      "loss": 0.587,
+      "mean_token_accuracy": 0.8129138767719268,
+      "num_tokens": 14199610.0,
+      "step": 95
+    },
+    {
+      "epoch": 0.8255933952528379,
+      "grad_norm": 0.9183336104957267,
+      "learning_rate": 1.8298080715283857e-06,
+      "loss": 0.5732,
+      "mean_token_accuracy": 0.8151614516973495,
+      "num_tokens": 14950919.0,
+      "step": 100
+    },
+    {
+      "epoch": 0.8668730650154799,
+      "grad_norm": 0.8600833044234086,
+      "learning_rate": 1.80222877680502e-06,
+      "loss": 0.5913,
+      "mean_token_accuracy": 0.8102210983633995,
+      "num_tokens": 15707369.0,
+      "step": 105
+    },
+    {
+      "epoch": 0.9081527347781218,
+      "grad_norm": 0.901112261036662,
+      "learning_rate": 1.7728211137364486e-06,
+      "loss": 0.5735,
+      "mean_token_accuracy": 0.8148060619831086,
+      "num_tokens": 16455219.0,
+      "step": 110
+    },
+    {
+      "epoch": 0.9494324045407637,
+      "grad_norm": 0.8398945948990572,
+      "learning_rate": 1.7416521056479575e-06,
+      "loss": 0.5892,
+      "mean_token_accuracy": 0.811500047147274,
+      "num_tokens": 17211297.0,
+      "step": 115
+    },
+    {
+      "epoch": 0.9907120743034056,
+      "grad_norm": 0.8890507447299595,
+      "learning_rate": 1.7087927901654556e-06,
+      "loss": 0.5693,
+      "mean_token_accuracy": 0.8162169650197029,
+      "num_tokens": 17945495.0,
+      "step": 120
+    },
+    {
+      "epoch": 1.0247678018575852,
+      "grad_norm": 0.9298798379000134,
+      "learning_rate": 1.6743180573128493e-06,
+      "loss": 0.5766,
+      "mean_token_accuracy": 0.8257526899829055,
+      "num_tokens": 18569799.0,
+      "step": 125
+    },
+    {
+      "epoch": 1.066047471620227,
+      "grad_norm": 0.9389781614014343,
+      "learning_rate": 1.6383064788293728e-06,
+      "loss": 0.5057,
+      "mean_token_accuracy": 0.8331148475408554,
+      "num_tokens": 19311720.0,
+      "step": 130
+    },
+    {
+      "epoch": 1.107327141382869,
+      "grad_norm": 0.9165276144771588,
+      "learning_rate": 1.6008401290958805e-06,
+      "loss": 0.5192,
+      "mean_token_accuracy": 0.8288257464766502,
+      "num_tokens": 20053638.0,
+      "step": 135
+    },
+    {
+      "epoch": 1.1486068111455108,
+      "grad_norm": 0.9180564284822471,
+      "learning_rate": 1.5620043980782325e-06,
+      "loss": 0.5062,
+      "mean_token_accuracy": 0.8319134443998337,
+      "num_tokens": 20821118.0,
+      "step": 140
+    },
+    {
+      "epoch": 1.1898864809081529,
+      "grad_norm": 0.9467359343070767,
+      "learning_rate": 1.521887796714092e-06,
+      "loss": 0.5052,
+      "mean_token_accuracy": 0.8318841397762299,
+      "num_tokens": 21558684.0,
+      "step": 145
+    },
+    {
+      "epoch": 1.2311661506707947,
+      "grad_norm": 0.9416451507331786,
+      "learning_rate": 1.4805817551866838e-06,
+      "loss": 0.5069,
+      "mean_token_accuracy": 0.8323728099465371,
+      "num_tokens": 22320277.0,
+      "step": 150
+    },
+    {
+      "epoch": 1.2724458204334366,
+      "grad_norm": 0.9170674897620965,
+      "learning_rate": 1.438180414545267e-06,
+      "loss": 0.4836,
+      "mean_token_accuracy": 0.839121425151825,
+      "num_tokens": 23061357.0,
+      "step": 155
+    },
+    {
+      "epoch": 1.3137254901960784,
+      "grad_norm": 0.890883059084858,
+      "learning_rate": 1.394780412147245e-06,
+      "loss": 0.4891,
+      "mean_token_accuracy": 0.837252251803875,
+      "num_tokens": 23817765.0,
+      "step": 160
+    },
+    {
+      "epoch": 1.3550051599587203,
+      "grad_norm": 0.9261908491580952,
+      "learning_rate": 1.3504806614109097e-06,
+      "loss": 0.4847,
+      "mean_token_accuracy": 0.8408183559775353,
+      "num_tokens": 24558776.0,
+      "step": 165
+    },
+    {
+      "epoch": 1.3962848297213624,
+      "grad_norm": 0.8928610102614272,
+      "learning_rate": 1.3053821263807945e-06,
+      "loss": 0.5086,
+      "mean_token_accuracy": 0.8326794102787971,
+      "num_tokens": 25308397.0,
+      "step": 170
+    },
+    {
+      "epoch": 1.437564499484004,
+      "grad_norm": 0.9511213183140893,
+      "learning_rate": 1.2595875916194184e-06,
+      "loss": 0.485,
+      "mean_token_accuracy": 0.83836370408535,
+      "num_tokens": 26060513.0,
+      "step": 175
+    },
+    {
+      "epoch": 1.478844169246646,
+      "grad_norm": 0.9622471592321337,
+      "learning_rate": 1.21320142794987e-06,
+      "loss": 0.4972,
+      "mean_token_accuracy": 0.8352236717939376,
+      "num_tokens": 26828045.0,
+      "step": 180
+    },
+    {
+      "epoch": 1.520123839009288,
+      "grad_norm": 0.9274039425644313,
+      "learning_rate": 1.16632935458313e-06,
+      "loss": 0.5004,
+      "mean_token_accuracy": 0.8354085251688957,
+      "num_tokens": 27572442.0,
+      "step": 185
+    },
+    {
+      "epoch": 1.5614035087719298,
+      "grad_norm": 0.9308885942067677,
+      "learning_rate": 1.119078198172262e-06,
+      "loss": 0.5058,
+      "mean_token_accuracy": 0.8333476513624192,
+      "num_tokens": 28328964.0,
+      "step": 190
+    },
+    {
+      "epoch": 1.6026831785345719,
+      "grad_norm": 0.8757908786448626,
+      "learning_rate": 1.071555649342626e-06,
+      "loss": 0.5047,
+      "mean_token_accuracy": 0.8343596026301384,
+      "num_tokens": 29081735.0,
+      "step": 195
+    },
+    {
+      "epoch": 1.6439628482972135,
+      "grad_norm": 0.9354324187980655,
+      "learning_rate": 1.0238700172530007e-06,
+      "loss": 0.4975,
+      "mean_token_accuracy": 0.834177765250206,
+      "num_tokens": 29830443.0,
+      "step": 200
+    },
+    {
+      "epoch": 1.6852425180598556,
+      "grad_norm": 0.9383174369871288,
+      "learning_rate": 9.761299827469992e-07,
+      "loss": 0.5167,
+      "mean_token_accuracy": 0.8294686481356621,
+      "num_tokens": 30564371.0,
+      "step": 205
+    },
+    {
+      "epoch": 1.7265221878224974,
+      "grad_norm": 0.9485743322852883,
+      "learning_rate": 9.284443506573739e-07,
+      "loss": 0.4961,
+      "mean_token_accuracy": 0.8358075320720673,
+      "num_tokens": 31307876.0,
+      "step": 210
+    },
+    {
+      "epoch": 1.7678018575851393,
+      "grad_norm": 0.8524322530089569,
+      "learning_rate": 8.809218018277377e-07,
+      "loss": 0.4856,
+      "mean_token_accuracy": 0.8387641996145249,
+      "num_tokens": 32058278.0,
+      "step": 215
+    },
+    {
+      "epoch": 1.8090815273477814,
+      "grad_norm": 1.1251297373275735,
+      "learning_rate": 8.336706454168699e-07,
+      "loss": 0.5009,
+      "mean_token_accuracy": 0.8337702050805091,
+      "num_tokens": 32785582.0,
+      "step": 220
+    },
+    {
+      "epoch": 1.850361197110423,
+      "grad_norm": 0.9150995192385856,
+      "learning_rate": 7.8679857205013e-07,
+      "loss": 0.5002,
+      "mean_token_accuracy": 0.8346363499760627,
+      "num_tokens": 33526490.0,
+      "step": 225
+    },
+    {
+      "epoch": 1.891640866873065,
+      "grad_norm": 0.9121811917199866,
+      "learning_rate": 7.404124083805818e-07,
+      "loss": 0.4951,
+      "mean_token_accuracy": 0.8354502245783806,
+      "num_tokens": 34276923.0,
+      "step": 230
+    },
+    {
+      "epoch": 1.932920536635707,
+      "grad_norm": 0.9500668445733738,
+      "learning_rate": 6.946178736192052e-07,
+      "loss": 0.5093,
+      "mean_token_accuracy": 0.8325110420584678,
+      "num_tokens": 35026509.0,
+      "step": 235
+    },
+    {
+      "epoch": 1.9742002063983488,
+      "grad_norm": 0.936384210591819,
+      "learning_rate": 6.495193385890901e-07,
+      "loss": 0.4915,
+      "mean_token_accuracy": 0.8370130330324173,
+      "num_tokens": 35765801.0,
+      "step": 240
+    },
+    {
+      "epoch": 2.0082559339525283,
+      "grad_norm": 1.081443933500798,
+      "learning_rate": 6.052195878527549e-07,
+      "loss": 0.534,
+      "mean_token_accuracy": 0.8311992432131912,
+      "num_tokens": 36399496.0,
+      "step": 245
+    },
+    {
+      "epoch": 2.0495356037151704,
+      "grad_norm": 0.9264320640204967,
+      "learning_rate": 5.618195854547332e-07,
+      "loss": 0.4596,
+      "mean_token_accuracy": 0.8468097746372223,
+      "num_tokens": 37157466.0,
+      "step": 250
+    },
+    {
+      "epoch": 2.090815273477812,
+      "grad_norm": 0.9743487807211495,
+      "learning_rate": 5.194182448133162e-07,
+      "loss": 0.4507,
+      "mean_token_accuracy": 0.8484956413507462,
+      "num_tokens": 37921600.0,
+      "step": 255
+    },
+    {
+      "epoch": 2.132094943240454,
+      "grad_norm": 0.9384842383306781,
+      "learning_rate": 4.781122032859079e-07,
+      "loss": 0.4422,
+      "mean_token_accuracy": 0.850089156627655,
+      "num_tokens": 38671144.0,
+      "step": 260
+    },
+    {
+      "epoch": 2.173374613003096,
+      "grad_norm": 0.923069296908276,
+      "learning_rate": 4.379956019217674e-07,
+      "loss": 0.4354,
+      "mean_token_accuracy": 0.8527857303619385,
+      "num_tokens": 39418140.0,
+      "step": 265
+    },
+    {
+      "epoch": 2.214654282765738,
+      "grad_norm": 0.8887917642443601,
+      "learning_rate": 3.991598709041195e-07,
+      "loss": 0.4579,
+      "mean_token_accuracy": 0.8460401177406311,
+      "num_tokens": 40184827.0,
+      "step": 270
+    },
+    {
+      "epoch": 2.25593395252838,
+      "grad_norm": 0.9820660095735302,
+      "learning_rate": 3.6169352117062745e-07,
+      "loss": 0.4518,
+      "mean_token_accuracy": 0.8484508559107781,
+      "num_tokens": 40943017.0,
+      "step": 275
+    },
+    {
+      "epoch": 2.2972136222910216,
+      "grad_norm": 0.8880277746538214,
+      "learning_rate": 3.2568194268715065e-07,
+      "loss": 0.4247,
+      "mean_token_accuracy": 0.8553372338414192,
+      "num_tokens": 41675482.0,
+      "step": 280
+    },
+    {
+      "epoch": 2.3384932920536636,
+      "grad_norm": 0.9393539096552885,
+      "learning_rate": 2.912072098345446e-07,
+      "loss": 0.4279,
+      "mean_token_accuracy": 0.8559224531054497,
+      "num_tokens": 42415673.0,
+      "step": 285
+    },
+    {
+      "epoch": 2.3797729618163057,
+      "grad_norm": 0.9303823491332491,
+      "learning_rate": 2.583478943520424e-07,
+      "loss": 0.4423,
+      "mean_token_accuracy": 0.8504590332508087,
+      "num_tokens": 43152305.0,
+      "step": 290
+    },
+    {
+      "epoch": 2.4210526315789473,
+      "grad_norm": 0.971127221838176,
+      "learning_rate": 2.271788862635513e-07,
+      "loss": 0.4323,
+      "mean_token_accuracy": 0.8537680730223656,
+      "num_tokens": 43874492.0,
+      "step": 295
+    },
+    {
+      "epoch": 2.4623323013415894,
+      "grad_norm": 0.9189912575444394,
+      "learning_rate": 1.9777122319497986e-07,
+      "loss": 0.467,
+      "mean_token_accuracy": 0.8447170093655586,
+      "num_tokens": 44628327.0,
+      "step": 300
+    },
+    {
+      "epoch": 2.503611971104231,
+      "grad_norm": 0.9428059815426227,
+      "learning_rate": 1.7019192847161423e-07,
+      "loss": 0.429,
+      "mean_token_accuracy": 0.8544344991445542,
+      "num_tokens": 45369336.0,
+      "step": 305
+    },
+    {
+      "epoch": 2.544891640866873,
+      "grad_norm": 0.9101357299119612,
+      "learning_rate": 1.4450385836452428e-07,
+      "loss": 0.4555,
+      "mean_token_accuracy": 0.8474543124437333,
+      "num_tokens": 46119769.0,
+      "step": 310
+    },
+    {
+      "epoch": 2.586171310629515,
+      "grad_norm": 0.919668232631187,
+      "learning_rate": 1.207655588341534e-07,
+      "loss": 0.4445,
+      "mean_token_accuracy": 0.8487650215625763,
+      "num_tokens": 46867680.0,
+      "step": 315
+    },
+    {
+      "epoch": 2.627450980392157,
+      "grad_norm": 0.8805176832592541,
+      "learning_rate": 9.903113209758096e-08,
+      "loss": 0.4274,
+      "mean_token_accuracy": 0.85523192435503,
+      "num_tokens": 47623269.0,
+      "step": 320
+    },
+    {
+      "epoch": 2.6687306501547985,
+      "grad_norm": 1.0165924861588809,
+      "learning_rate": 7.93501133235711e-08,
+      "loss": 0.4583,
+      "mean_token_accuracy": 0.8462967693805694,
+      "num_tokens": 48351505.0,
+      "step": 325
+    },
+    {
+      "epoch": 2.7100103199174406,
+      "grad_norm": 0.9019149565338729,
+      "learning_rate": 6.17673577364296e-08,
+      "loss": 0.438,
+      "mean_token_accuracy": 0.8522011756896972,
+      "num_tokens": 49095045.0,
+      "step": 330
+    },
+    {
+      "epoch": 2.7512899896800826,
+      "grad_norm": 0.8969543904734346,
+      "learning_rate": 4.632293838597246e-08,
+      "loss": 0.433,
+      "mean_token_accuracy": 0.8527301624417305,
+      "num_tokens": 49857090.0,
+      "step": 335
+    },
+    {
+      "epoch": 2.7925696594427247,
+      "grad_norm": 0.9016846496482673,
+      "learning_rate": 3.305205481660245e-08,
+      "loss": 0.448,
+      "mean_token_accuracy": 0.8483750134706497,
+      "num_tokens": 50619517.0,
+      "step": 340
+    },
+    {
+      "epoch": 2.8338493292053664,
+      "grad_norm": 0.9202038224797638,
+      "learning_rate": 2.19849528436441e-08,
+      "loss": 0.4477,
+      "mean_token_accuracy": 0.850049777328968,
+      "num_tokens": 51364012.0,
+      "step": 345
+    },
+    {
+      "epoch": 2.875128998968008,
+      "grad_norm": 1.3192572217707328,
+      "learning_rate": 1.3146855619776132e-08,
+      "loss": 0.4181,
+      "mean_token_accuracy": 0.8579459518194199,
+      "num_tokens": 52098120.0,
+      "step": 350
+    },
+    {
+      "epoch": 2.91640866873065,
+      "grad_norm": 0.908172601322105,
+      "learning_rate": 6.557906148669023e-09,
+      "loss": 0.4465,
+      "mean_token_accuracy": 0.8493014112114906,
+      "num_tokens": 52845956.0,
+      "step": 355
+    },
+    {
+      "epoch": 2.957688338493292,
+      "grad_norm": 0.9137493586477308,
+      "learning_rate": 2.233121376846836e-09,
+      "loss": 0.4569,
+      "mean_token_accuracy": 0.8459745928645134,
+      "num_tokens": 53593774.0,
+      "step": 360
+    },
+    {
+      "epoch": 2.998968008255934,
+      "grad_norm": 0.9681544351701314,
+      "learning_rate": 1.8235796839982664e-10,
+      "loss": 0.4458,
+      "mean_token_accuracy": 0.8503826469182968,
+      "num_tokens": 54348421.0,
+      "step": 365
+    },
+    {
+      "epoch": 3.0,
+      "mean_token_accuracy": 0.8451418280601501,
+      "num_tokens": 54368147.0,
+      "step": 366,
+      "total_flos": 231659938701312.0,
+      "train_loss": 0.5313233767376572,
+      "train_runtime": 12361.3768,
+      "train_samples_per_second": 3.762,
+      "train_steps_per_second": 0.03
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 366,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 231659938701312.0,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}