no_pipeline_100k_32B / trainer_state.json

Upload model

72929ea verified 8 months ago

42.4 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 4.961240310077519,
	"eval_steps": 500,
	"global_step": 240,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.020671834625323,
	"grad_norm": 2.9160615895696287,
	"learning_rate": 3.3333333333333333e-06,
	"loss": 0.8883,
	"step": 1
	},
	{
	"epoch": 0.041343669250646,
	"grad_norm": 2.8580123177883006,
	"learning_rate": 6.666666666666667e-06,
	"loss": 0.8848,
	"step": 2
	},
	{
	"epoch": 0.06201550387596899,
	"grad_norm": 2.7122432751897176,
	"learning_rate": 1e-05,
	"loss": 0.8795,
	"step": 3
	},
	{
	"epoch": 0.082687338501292,
	"grad_norm": 1.513030205425536,
	"learning_rate": 1.3333333333333333e-05,
	"loss": 0.8245,
	"step": 4
	},
	{
	"epoch": 0.10335917312661498,
	"grad_norm": 1.3443713492280498,
	"learning_rate": 1.6666666666666667e-05,
	"loss": 0.7893,
	"step": 5
	},
	{
	"epoch": 0.12403100775193798,
	"grad_norm": 1.1804286091298655,
	"learning_rate": 2e-05,
	"loss": 0.7386,
	"step": 6
	},
	{
	"epoch": 0.14470284237726097,
	"grad_norm": 1.4145959109105715,
	"learning_rate": 2.3333333333333336e-05,
	"loss": 0.7205,
	"step": 7
	},
	{
	"epoch": 0.165374677002584,
	"grad_norm": 1.2357655230641855,
	"learning_rate": 2.6666666666666667e-05,
	"loss": 0.6846,
	"step": 8
	},
	{
	"epoch": 0.18604651162790697,
	"grad_norm": 1.0044529380434546,
	"learning_rate": 3.0000000000000004e-05,
	"loss": 0.6703,
	"step": 9
	},
	{
	"epoch": 0.20671834625322996,
	"grad_norm": 0.7736903323340503,
	"learning_rate": 3.3333333333333335e-05,
	"loss": 0.6625,
	"step": 10
	},
	{
	"epoch": 0.22739018087855298,
	"grad_norm": 0.8691083811443499,
	"learning_rate": 3.6666666666666666e-05,
	"loss": 0.639,
	"step": 11
	},
	{
	"epoch": 0.24806201550387597,
	"grad_norm": 0.7248603690109244,
	"learning_rate": 4e-05,
	"loss": 0.6387,
	"step": 12
	},
	{
	"epoch": 0.268733850129199,
	"grad_norm": 0.8294236796702565,
	"learning_rate": 4.3333333333333334e-05,
	"loss": 0.6344,
	"step": 13
	},
	{
	"epoch": 0.28940568475452194,
	"grad_norm": 0.5760472222889121,
	"learning_rate": 4.666666666666667e-05,
	"loss": 0.6157,
	"step": 14
	},
	{
	"epoch": 0.31007751937984496,
	"grad_norm": 0.5595513798990738,
	"learning_rate": 5e-05,
	"loss": 0.6132,
	"step": 15
	},
	{
	"epoch": 0.330749354005168,
	"grad_norm": 0.6094355123731108,
	"learning_rate": 5.333333333333333e-05,
	"loss": 0.607,
	"step": 16
	},
	{
	"epoch": 0.35142118863049093,
	"grad_norm": 0.4550744555441343,
	"learning_rate": 5.666666666666668e-05,
	"loss": 0.597,
	"step": 17
	},
	{
	"epoch": 0.37209302325581395,
	"grad_norm": 0.5503338541742518,
	"learning_rate": 6.000000000000001e-05,
	"loss": 0.5883,
	"step": 18
	},
	{
	"epoch": 0.39276485788113696,
	"grad_norm": 0.38787592050569225,
	"learning_rate": 6.333333333333333e-05,
	"loss": 0.585,
	"step": 19
	},
	{
	"epoch": 0.4134366925064599,
	"grad_norm": 0.5311180440664859,
	"learning_rate": 6.666666666666667e-05,
	"loss": 0.5823,
	"step": 20
	},
	{
	"epoch": 0.43410852713178294,
	"grad_norm": 0.5233803608939733,
	"learning_rate": 7.000000000000001e-05,
	"loss": 0.5826,
	"step": 21
	},
	{
	"epoch": 0.45478036175710596,
	"grad_norm": 0.5080450227129891,
	"learning_rate": 7.333333333333333e-05,
	"loss": 0.5725,
	"step": 22
	},
	{
	"epoch": 0.4754521963824289,
	"grad_norm": 0.6170489561809843,
	"learning_rate": 7.666666666666668e-05,
	"loss": 0.5794,
	"step": 23
	},
	{
	"epoch": 0.49612403100775193,
	"grad_norm": 0.8492871852161974,
	"learning_rate": 8e-05,
	"loss": 0.5739,
	"step": 24
	},
	{
	"epoch": 0.5167958656330749,
	"grad_norm": 1.0957049612040843,
	"learning_rate": 7.99957692770843e-05,
	"loss": 0.5738,
	"step": 25
	},
	{
	"epoch": 0.537467700258398,
	"grad_norm": 1.1467346259917117,
	"learning_rate": 7.998307800328803e-05,
	"loss": 0.5676,
	"step": 26
	},
	{
	"epoch": 0.5581395348837209,
	"grad_norm": 0.9479677758413664,
	"learning_rate": 7.996192886327432e-05,
	"loss": 0.5626,
	"step": 27
	},
	{
	"epoch": 0.5788113695090439,
	"grad_norm": 0.645380904520113,
	"learning_rate": 7.993232633085074e-05,
	"loss": 0.5577,
	"step": 28
	},
	{
	"epoch": 0.599483204134367,
	"grad_norm": 0.7182744075304529,
	"learning_rate": 7.98942766680229e-05,
	"loss": 0.5588,
	"step": 29
	},
	{
	"epoch": 0.6201550387596899,
	"grad_norm": 0.5127412291089614,
	"learning_rate": 7.984778792366983e-05,
	"loss": 0.5576,
	"step": 30
	},
	{
	"epoch": 0.6408268733850129,
	"grad_norm": 0.5717315410000132,
	"learning_rate": 7.979286993184134e-05,
	"loss": 0.5543,
	"step": 31
	},
	{
	"epoch": 0.661498708010336,
	"grad_norm": 0.574802710774332,
	"learning_rate": 7.972953430967773e-05,
	"loss": 0.5546,
	"step": 32
	},
	{
	"epoch": 0.6821705426356589,
	"grad_norm": 0.38071050250313326,
	"learning_rate": 7.965779445495243e-05,
	"loss": 0.5423,
	"step": 33
	},
	{
	"epoch": 0.7028423772609819,
	"grad_norm": 0.560940638806937,
	"learning_rate": 7.957766554323778e-05,
	"loss": 0.5549,
	"step": 34
	},
	{
	"epoch": 0.7235142118863049,
	"grad_norm": 0.3195456558063643,
	"learning_rate": 7.948916452469497e-05,
	"loss": 0.5381,
	"step": 35
	},
	{
	"epoch": 0.7441860465116279,
	"grad_norm": 0.5120309870626497,
	"learning_rate": 7.939231012048833e-05,
	"loss": 0.5334,
	"step": 36
	},
	{
	"epoch": 0.7648578811369509,
	"grad_norm": 0.41200122065705974,
	"learning_rate": 7.928712281882523e-05,
	"loss": 0.546,
	"step": 37
	},
	{
	"epoch": 0.7855297157622739,
	"grad_norm": 0.34801915896030955,
	"learning_rate": 7.917362487062207e-05,
	"loss": 0.538,
	"step": 38
	},
	{
	"epoch": 0.8062015503875969,
	"grad_norm": 0.4814496611227264,
	"learning_rate": 7.905184028479734e-05,
	"loss": 0.5395,
	"step": 39
	},
	{
	"epoch": 0.8268733850129198,
	"grad_norm": 0.343357625146377,
	"learning_rate": 7.892179482319297e-05,
	"loss": 0.5351,
	"step": 40
	},
	{
	"epoch": 0.8475452196382429,
	"grad_norm": 0.3732374596704409,
	"learning_rate": 7.878351599512465e-05,
	"loss": 0.5332,
	"step": 41
	},
	{
	"epoch": 0.8682170542635659,
	"grad_norm": 0.35877511208535684,
	"learning_rate": 7.863703305156273e-05,
	"loss": 0.5255,
	"step": 42
	},
	{
	"epoch": 0.8888888888888888,
	"grad_norm": 0.2718043315180321,
	"learning_rate": 7.848237697894453e-05,
	"loss": 0.5289,
	"step": 43
	},
	{
	"epoch": 0.9095607235142119,
	"grad_norm": 0.3538773839345982,
	"learning_rate": 7.831958049261956e-05,
	"loss": 0.53,
	"step": 44
	},
	{
	"epoch": 0.9302325581395349,
	"grad_norm": 0.23197832751573458,
	"learning_rate": 7.814867802992907e-05,
	"loss": 0.528,
	"step": 45
	},
	{
	"epoch": 0.9509043927648578,
	"grad_norm": 0.3210740150407701,
	"learning_rate": 7.796970574292136e-05,
	"loss": 0.5281,
	"step": 46
	},
	{
	"epoch": 0.9715762273901809,
	"grad_norm": 0.3700032416130845,
	"learning_rate": 7.77827014907042e-05,
	"loss": 0.5214,
	"step": 47
	},
	{
	"epoch": 0.9922480620155039,
	"grad_norm": 0.3009183027050577,
	"learning_rate": 7.758770483143634e-05,
	"loss": 0.5269,
	"step": 48
	},
	{
	"epoch": 1.0129198966408268,
	"grad_norm": 0.3896828923021403,
	"learning_rate": 7.738475701395955e-05,
	"loss": 0.5093,
	"step": 49
	},
	{
	"epoch": 1.0335917312661498,
	"grad_norm": 0.543202361441145,
	"learning_rate": 7.71739009690729e-05,
	"loss": 0.4955,
	"step": 50
	},
	{
	"epoch": 1.054263565891473,
	"grad_norm": 0.7625591010952377,
	"learning_rate": 7.695518130045147e-05,
	"loss": 0.4969,
	"step": 51
	},
	{
	"epoch": 1.074935400516796,
	"grad_norm": 1.193784060003013,
	"learning_rate": 7.672864427521097e-05,
	"loss": 0.5087,
	"step": 52
	},
	{
	"epoch": 1.0956072351421189,
	"grad_norm": 0.7752291239959456,
	"learning_rate": 7.649433781412058e-05,
	"loss": 0.5012,
	"step": 53
	},
	{
	"epoch": 1.1162790697674418,
	"grad_norm": 0.6474587717802546,
	"learning_rate": 7.625231148146601e-05,
	"loss": 0.4947,
	"step": 54
	},
	{
	"epoch": 1.1369509043927648,
	"grad_norm": 0.7738304727686638,
	"learning_rate": 7.600261647456485e-05,
	"loss": 0.501,
	"step": 55
	},
	{
	"epoch": 1.1576227390180878,
	"grad_norm": 0.6980515832191755,
	"learning_rate": 7.57453056129365e-05,
	"loss": 0.4909,
	"step": 56
	},
	{
	"epoch": 1.178294573643411,
	"grad_norm": 0.6004371658326068,
	"learning_rate": 7.548043332712887e-05,
	"loss": 0.4889,
	"step": 57
	},
	{
	"epoch": 1.198966408268734,
	"grad_norm": 0.6165348115304269,
	"learning_rate": 7.520805564720444e-05,
	"loss": 0.4916,
	"step": 58
	},
	{
	"epoch": 1.2196382428940569,
	"grad_norm": 0.6291962094809461,
	"learning_rate": 7.492823019088785e-05,
	"loss": 0.4876,
	"step": 59
	},
	{
	"epoch": 1.2403100775193798,
	"grad_norm": 0.5151425388987184,
	"learning_rate": 7.464101615137756e-05,
	"loss": 0.4903,
	"step": 60
	},
	{
	"epoch": 1.2609819121447028,
	"grad_norm": 0.6152043162282845,
	"learning_rate": 7.434647428482453e-05,
	"loss": 0.4852,
	"step": 61
	},
	{
	"epoch": 1.2816537467700257,
	"grad_norm": 0.4108530991008805,
	"learning_rate": 7.404466689747999e-05,
	"loss": 0.4824,
	"step": 62
	},
	{
	"epoch": 1.302325581395349,
	"grad_norm": 0.5619333094656168,
	"learning_rate": 7.373565783251544e-05,
	"loss": 0.4862,
	"step": 63
	},
	{
	"epoch": 1.322997416020672,
	"grad_norm": 0.36736616896387303,
	"learning_rate": 7.341951245651747e-05,
	"loss": 0.4816,
	"step": 64
	},
	{
	"epoch": 1.3436692506459949,
	"grad_norm": 0.5007899896930137,
	"learning_rate": 7.309629764566042e-05,
	"loss": 0.4849,
	"step": 65
	},
	{
	"epoch": 1.3643410852713178,
	"grad_norm": 0.3567245531783105,
	"learning_rate": 7.276608177155968e-05,
	"loss": 0.4806,
	"step": 66
	},
	{
	"epoch": 1.3850129198966408,
	"grad_norm": 0.4042585004384195,
	"learning_rate": 7.242893468680849e-05,
	"loss": 0.479,
	"step": 67
	},
	{
	"epoch": 1.405684754521964,
	"grad_norm": 0.3071251372629263,
	"learning_rate": 7.208492771020176e-05,
	"loss": 0.4708,
	"step": 68
	},
	{
	"epoch": 1.4263565891472867,
	"grad_norm": 0.3178098545746679,
	"learning_rate": 7.173413361164941e-05,
	"loss": 0.4743,
	"step": 69
	},
	{
	"epoch": 1.4470284237726099,
	"grad_norm": 0.32791656769788197,
	"learning_rate": 7.137662659678303e-05,
	"loss": 0.479,
	"step": 70
	},
	{
	"epoch": 1.4677002583979328,
	"grad_norm": 0.31073048837177464,
	"learning_rate": 7.101248229125864e-05,
	"loss": 0.4748,
	"step": 71
	},
	{
	"epoch": 1.4883720930232558,
	"grad_norm": 0.23092670638656684,
	"learning_rate": 7.064177772475912e-05,
	"loss": 0.483,
	"step": 72
	},
	{
	"epoch": 1.509043927648579,
	"grad_norm": 0.29202717623796903,
	"learning_rate": 7.026459131469972e-05,
	"loss": 0.4806,
	"step": 73
	},
	{
	"epoch": 1.5297157622739017,
	"grad_norm": 0.24757644213273783,
	"learning_rate": 6.988100284963985e-05,
	"loss": 0.4758,
	"step": 74
	},
	{
	"epoch": 1.550387596899225,
	"grad_norm": 0.21393996054013467,
	"learning_rate": 6.949109347240496e-05,
	"loss": 0.478,
	"step": 75
	},
	{
	"epoch": 1.5710594315245479,
	"grad_norm": 0.21940059670661766,
	"learning_rate": 6.909494566292195e-05,
	"loss": 0.4794,
	"step": 76
	},
	{
	"epoch": 1.5917312661498708,
	"grad_norm": 0.25120510290065323,
	"learning_rate": 6.869264322077158e-05,
	"loss": 0.4741,
	"step": 77
	},
	{
	"epoch": 1.6124031007751938,
	"grad_norm": 0.26922385323839254,
	"learning_rate": 6.828427124746191e-05,
	"loss": 0.4719,
	"step": 78
	},
	{
	"epoch": 1.6330749354005167,
	"grad_norm": 0.20344576961977537,
	"learning_rate": 6.786991612842621e-05,
	"loss": 0.4778,
	"step": 79
	},
	{
	"epoch": 1.65374677002584,
	"grad_norm": 0.22604786354074988,
	"learning_rate": 6.744966551474936e-05,
	"loss": 0.4761,
	"step": 80
	},
	{
	"epoch": 1.6744186046511627,
	"grad_norm": 0.18625757521916195,
	"learning_rate": 6.702360830462642e-05,
	"loss": 0.475,
	"step": 81
	},
	{
	"epoch": 1.6950904392764858,
	"grad_norm": 0.20462391670532523,
	"learning_rate": 6.659183462455751e-05,
	"loss": 0.4752,
	"step": 82
	},
	{
	"epoch": 1.7157622739018088,
	"grad_norm": 0.18546909132461142,
	"learning_rate": 6.615443581028279e-05,
	"loss": 0.4773,
	"step": 83
	},
	{
	"epoch": 1.7364341085271318,
	"grad_norm": 0.18510363335943614,
	"learning_rate": 6.571150438746157e-05,
	"loss": 0.4695,
	"step": 84
	},
	{
	"epoch": 1.757105943152455,
	"grad_norm": 0.15034980115459998,
	"learning_rate": 6.526313405209991e-05,
	"loss": 0.4663,
	"step": 85
	},
	{
	"epoch": 1.7777777777777777,
	"grad_norm": 0.19615925097698703,
	"learning_rate": 6.480941965073041e-05,
	"loss": 0.4749,
	"step": 86
	},
	{
	"epoch": 1.7984496124031009,
	"grad_norm": 0.2654011493760909,
	"learning_rate": 6.435045716034883e-05,
	"loss": 0.4736,
	"step": 87
	},
	{
	"epoch": 1.8191214470284238,
	"grad_norm": 0.3111773040871724,
	"learning_rate": 6.388634366811146e-05,
	"loss": 0.4708,
	"step": 88
	},
	{
	"epoch": 1.8397932816537468,
	"grad_norm": 0.36927812675111354,
	"learning_rate": 6.341717735079763e-05,
	"loss": 0.4752,
	"step": 89
	},
	{
	"epoch": 1.8604651162790697,
	"grad_norm": 0.4160789587496509,
	"learning_rate": 6.294305745404185e-05,
	"loss": 0.4754,
	"step": 90
	},
	{
	"epoch": 1.8811369509043927,
	"grad_norm": 0.3977585119965555,
	"learning_rate": 6.246408427133972e-05,
	"loss": 0.4786,
	"step": 91
	},
	{
	"epoch": 1.9018087855297159,
	"grad_norm": 0.3516911724442998,
	"learning_rate": 6.198035912283225e-05,
	"loss": 0.481,
	"step": 92
	},
	{
	"epoch": 1.9224806201550386,
	"grad_norm": 0.293513841505873,
	"learning_rate": 6.149198433387297e-05,
	"loss": 0.4729,
	"step": 93
	},
	{
	"epoch": 1.9431524547803618,
	"grad_norm": 0.2731022151882442,
	"learning_rate": 6.099906321338241e-05,
	"loss": 0.4741,
	"step": 94
	},
	{
	"epoch": 1.9638242894056848,
	"grad_norm": 0.35410712723586696,
	"learning_rate": 6.0501700031994613e-05,
	"loss": 0.474,
	"step": 95
	},
	{
	"epoch": 1.9844961240310077,
	"grad_norm": 0.4538676453325634,
	"learning_rate": 6.000000000000001e-05,
	"loss": 0.4739,
	"step": 96
	},
	{
	"epoch": 2.005167958656331,
	"grad_norm": 0.46816594534216643,
	"learning_rate": 5.94940692450897e-05,
	"loss": 0.4659,
	"step": 97
	},
	{
	"epoch": 2.0258397932816536,
	"grad_norm": 0.3490457312607184,
	"learning_rate": 5.8984014789905625e-05,
	"loss": 0.4321,
	"step": 98
	},
	{
	"epoch": 2.046511627906977,
	"grad_norm": 0.3313437102668528,
	"learning_rate": 5.846994452940137e-05,
	"loss": 0.4324,
	"step": 99
	},
	{
	"epoch": 2.0671834625322996,
	"grad_norm": 0.4268324278027606,
	"learning_rate": 5.79519672080185e-05,
	"loss": 0.4343,
	"step": 100
	},
	{
	"epoch": 2.0878552971576227,
	"grad_norm": 0.46532373355417445,
	"learning_rate": 5.743019239668318e-05,
	"loss": 0.4348,
	"step": 101
	},
	{
	"epoch": 2.108527131782946,
	"grad_norm": 0.3656350937833029,
	"learning_rate": 5.6904730469627985e-05,
	"loss": 0.4287,
	"step": 102
	},
	{
	"epoch": 2.1291989664082687,
	"grad_norm": 0.341576849989435,
	"learning_rate": 5.6375692581043705e-05,
	"loss": 0.4256,
	"step": 103
	},
	{
	"epoch": 2.149870801033592,
	"grad_norm": 0.3435636006449175,
	"learning_rate": 5.584319064156628e-05,
	"loss": 0.4255,
	"step": 104
	},
	{
	"epoch": 2.1705426356589146,
	"grad_norm": 0.3674851087079681,
	"learning_rate": 5.5307337294603595e-05,
	"loss": 0.4297,
	"step": 105
	},
	{
	"epoch": 2.1912144702842378,
	"grad_norm": 0.25757942003867124,
	"learning_rate": 5.476824589250738e-05,
	"loss": 0.4265,
	"step": 106
	},
	{
	"epoch": 2.2118863049095605,
	"grad_norm": 0.29319082903907967,
	"learning_rate": 5.4226030472595075e-05,
	"loss": 0.4273,
	"step": 107
	},
	{
	"epoch": 2.2325581395348837,
	"grad_norm": 0.30912735428671423,
	"learning_rate": 5.368080573302676e-05,
	"loss": 0.4274,
	"step": 108
	},
	{
	"epoch": 2.253229974160207,
	"grad_norm": 0.2946112564630265,
	"learning_rate": 5.3132687008542454e-05,
	"loss": 0.4266,
	"step": 109
	},
	{
	"epoch": 2.2739018087855296,
	"grad_norm": 0.24956667963282786,
	"learning_rate": 5.258179024606455e-05,
	"loss": 0.4233,
	"step": 110
	},
	{
	"epoch": 2.294573643410853,
	"grad_norm": 0.24495972859727833,
	"learning_rate": 5.202823198017092e-05,
	"loss": 0.4201,
	"step": 111
	},
	{
	"epoch": 2.3152454780361755,
	"grad_norm": 0.25189356412883607,
	"learning_rate": 5.1472129308443616e-05,
	"loss": 0.4281,
	"step": 112
	},
	{
	"epoch": 2.3359173126614987,
	"grad_norm": 0.24882897366306153,
	"learning_rate": 5.091359986669845e-05,
	"loss": 0.4275,
	"step": 113
	},
	{
	"epoch": 2.356589147286822,
	"grad_norm": 0.2505341488622872,
	"learning_rate": 5.0352761804100835e-05,
	"loss": 0.4244,
	"step": 114
	},
	{
	"epoch": 2.3772609819121446,
	"grad_norm": 0.23709144675798577,
	"learning_rate": 4.9789733758172956e-05,
	"loss": 0.4233,
	"step": 115
	},
	{
	"epoch": 2.397932816537468,
	"grad_norm": 0.22216591251943948,
	"learning_rate": 4.922463482969761e-05,
	"loss": 0.4257,
	"step": 116
	},
	{
	"epoch": 2.4186046511627906,
	"grad_norm": 0.2485822812049657,
	"learning_rate": 4.8657584557524116e-05,
	"loss": 0.4238,
	"step": 117
	},
	{
	"epoch": 2.4392764857881137,
	"grad_norm": 0.20581013393206954,
	"learning_rate": 4.808870289328153e-05,
	"loss": 0.4237,
	"step": 118
	},
	{
	"epoch": 2.459948320413437,
	"grad_norm": 0.2683694988919976,
	"learning_rate": 4.751811017600448e-05,
	"loss": 0.428,
	"step": 119
	},
	{
	"epoch": 2.4806201550387597,
	"grad_norm": 0.2732119282896145,
	"learning_rate": 4.694592710667723e-05,
	"loss": 0.4177,
	"step": 120
	},
	{
	"epoch": 2.501291989664083,
	"grad_norm": 0.16985653465966316,
	"learning_rate": 4.637227472270091e-05,
	"loss": 0.4212,
	"step": 121
	},
	{
	"epoch": 2.5219638242894056,
	"grad_norm": 0.24083993805158754,
	"learning_rate": 4.579727437228987e-05,
	"loss": 0.4259,
	"step": 122
	},
	{
	"epoch": 2.5426356589147288,
	"grad_norm": 0.19049366411569346,
	"learning_rate": 4.522104768880208e-05,
	"loss": 0.4237,
	"step": 123
	},
	{
	"epoch": 2.5633074935400515,
	"grad_norm": 0.18921694866288802,
	"learning_rate": 4.464371656500921e-05,
	"loss": 0.4162,
	"step": 124
	},
	{
	"epoch": 2.5839793281653747,
	"grad_norm": 0.11515867618528139,
	"learning_rate": 4.406540312731208e-05,
	"loss": 0.4245,
	"step": 125
	},
	{
	"epoch": 2.604651162790698,
	"grad_norm": 0.16805334717409715,
	"learning_rate": 4.348622970990634e-05,
	"loss": 0.4244,
	"step": 126
	},
	{
	"epoch": 2.6253229974160206,
	"grad_norm": 0.14624332678173066,
	"learning_rate": 4.290631882890443e-05,
	"loss": 0.4206,
	"step": 127
	},
	{
	"epoch": 2.645994832041344,
	"grad_norm": 0.1226966632599885,
	"learning_rate": 4.2325793156419035e-05,
	"loss": 0.422,
	"step": 128
	},
	{
	"epoch": 2.6666666666666665,
	"grad_norm": 0.12200828138561001,
	"learning_rate": 4.174477549461345e-05,
	"loss": 0.4234,
	"step": 129
	},
	{
	"epoch": 2.6873385012919897,
	"grad_norm": 0.13700653705541546,
	"learning_rate": 4.116338874972446e-05,
	"loss": 0.4232,
	"step": 130
	},
	{
	"epoch": 2.7080103359173124,
	"grad_norm": 0.11557203582812532,
	"learning_rate": 4.058175590606332e-05,
	"loss": 0.4218,
	"step": 131
	},
	{
	"epoch": 2.7286821705426356,
	"grad_norm": 0.11956605011466209,
	"learning_rate": 4e-05,
	"loss": 0.4252,
	"step": 132
	},
	{
	"epoch": 2.749354005167959,
	"grad_norm": 0.10473648355726717,
	"learning_rate": 3.9418244093936694e-05,
	"loss": 0.4204,
	"step": 133
	},
	{
	"epoch": 2.7700258397932815,
	"grad_norm": 0.1186616842930409,
	"learning_rate": 3.8836611250275546e-05,
	"loss": 0.4241,
	"step": 134
	},
	{
	"epoch": 2.7906976744186047,
	"grad_norm": 0.10525513152325092,
	"learning_rate": 3.825522450538657e-05,
	"loss": 0.4275,
	"step": 135
	},
	{
	"epoch": 2.811369509043928,
	"grad_norm": 0.11453121919183189,
	"learning_rate": 3.767420684358097e-05,
	"loss": 0.4213,
	"step": 136
	},
	{
	"epoch": 2.8320413436692506,
	"grad_norm": 0.09206489385884514,
	"learning_rate": 3.709368117109558e-05,
	"loss": 0.4234,
	"step": 137
	},
	{
	"epoch": 2.8527131782945734,
	"grad_norm": 0.118433918645971,
	"learning_rate": 3.6513770290093674e-05,
	"loss": 0.4242,
	"step": 138
	},
	{
	"epoch": 2.8733850129198966,
	"grad_norm": 0.0943985454829677,
	"learning_rate": 3.5934596872687924e-05,
	"loss": 0.4225,
	"step": 139
	},
	{
	"epoch": 2.8940568475452197,
	"grad_norm": 0.11050468674335369,
	"learning_rate": 3.535628343499079e-05,
	"loss": 0.4193,
	"step": 140
	},
	{
	"epoch": 2.9147286821705425,
	"grad_norm": 0.09949452607563593,
	"learning_rate": 3.477895231119795e-05,
	"loss": 0.429,
	"step": 141
	},
	{
	"epoch": 2.9354005167958657,
	"grad_norm": 0.1106090290134035,
	"learning_rate": 3.4202725627710136e-05,
	"loss": 0.4244,
	"step": 142
	},
	{
	"epoch": 2.956072351421189,
	"grad_norm": 0.12048140894086738,
	"learning_rate": 3.3627725277299103e-05,
	"loss": 0.4178,
	"step": 143
	},
	{
	"epoch": 2.9767441860465116,
	"grad_norm": 0.09941200224739741,
	"learning_rate": 3.305407289332279e-05,
	"loss": 0.4193,
	"step": 144
	},
	{
	"epoch": 2.9974160206718348,
	"grad_norm": 0.11191324212004439,
	"learning_rate": 3.248188982399553e-05,
	"loss": 0.4268,
	"step": 145
	},
	{
	"epoch": 3.0180878552971575,
	"grad_norm": 0.1927802146617283,
	"learning_rate": 3.191129710671849e-05,
	"loss": 0.3943,
	"step": 146
	},
	{
	"epoch": 3.0387596899224807,
	"grad_norm": 0.13601769681186723,
	"learning_rate": 3.134241544247589e-05,
	"loss": 0.3843,
	"step": 147
	},
	{
	"epoch": 3.0594315245478034,
	"grad_norm": 0.18128467277952806,
	"learning_rate": 3.07753651703024e-05,
	"loss": 0.3875,
	"step": 148
	},
	{
	"epoch": 3.0801033591731266,
	"grad_norm": 0.22945154955579947,
	"learning_rate": 3.0210266241827047e-05,
	"loss": 0.3807,
	"step": 149
	},
	{
	"epoch": 3.10077519379845,
	"grad_norm": 0.16654454526224097,
	"learning_rate": 2.9647238195899168e-05,
	"loss": 0.3838,
	"step": 150
	},
	{
	"epoch": 3.1214470284237725,
	"grad_norm": 0.22750866213777649,
	"learning_rate": 2.9086400133301573e-05,
	"loss": 0.3751,
	"step": 151
	},
	{
	"epoch": 3.1421188630490957,
	"grad_norm": 0.17973030546542432,
	"learning_rate": 2.8527870691556404e-05,
	"loss": 0.3826,
	"step": 152
	},
	{
	"epoch": 3.1627906976744184,
	"grad_norm": 0.17029401369958916,
	"learning_rate": 2.7971768019829083e-05,
	"loss": 0.3804,
	"step": 153
	},
	{
	"epoch": 3.1834625322997416,
	"grad_norm": 0.1852119301785162,
	"learning_rate": 2.7418209753935464e-05,
	"loss": 0.3806,
	"step": 154
	},
	{
	"epoch": 3.2041343669250644,
	"grad_norm": 0.14136299318153245,
	"learning_rate": 2.6867312991457563e-05,
	"loss": 0.3806,
	"step": 155
	},
	{
	"epoch": 3.2248062015503876,
	"grad_norm": 0.16072645831339827,
	"learning_rate": 2.6319194266973256e-05,
	"loss": 0.3813,
	"step": 156
	},
	{
	"epoch": 3.2454780361757107,
	"grad_norm": 0.13278616146506314,
	"learning_rate": 2.577396952740495e-05,
	"loss": 0.3838,
	"step": 157
	},
	{
	"epoch": 3.2661498708010335,
	"grad_norm": 0.14768004119760159,
	"learning_rate": 2.523175410749263e-05,
	"loss": 0.379,
	"step": 158
	},
	{
	"epoch": 3.2868217054263567,
	"grad_norm": 0.12905452066326767,
	"learning_rate": 2.4692662705396412e-05,
	"loss": 0.3798,
	"step": 159
	},
	{
	"epoch": 3.3074935400516794,
	"grad_norm": 0.12981775553641342,
	"learning_rate": 2.4156809358433728e-05,
	"loss": 0.3829,
	"step": 160
	},
	{
	"epoch": 3.3281653746770026,
	"grad_norm": 0.11735923882875593,
	"learning_rate": 2.3624307418956298e-05,
	"loss": 0.3854,
	"step": 161
	},
	{
	"epoch": 3.3488372093023258,
	"grad_norm": 0.1094304758715909,
	"learning_rate": 2.3095269530372032e-05,
	"loss": 0.3846,
	"step": 162
	},
	{
	"epoch": 3.3695090439276485,
	"grad_norm": 0.12552108042358762,
	"learning_rate": 2.2569807603316836e-05,
	"loss": 0.3799,
	"step": 163
	},
	{
	"epoch": 3.3901808785529717,
	"grad_norm": 0.09960480491775725,
	"learning_rate": 2.2048032791981515e-05,
	"loss": 0.3816,
	"step": 164
	},
	{
	"epoch": 3.4108527131782944,
	"grad_norm": 0.13048633977534593,
	"learning_rate": 2.1530055470598654e-05,
	"loss": 0.3805,
	"step": 165
	},
	{
	"epoch": 3.4315245478036176,
	"grad_norm": 0.10265331283268403,
	"learning_rate": 2.1015985210094385e-05,
	"loss": 0.3838,
	"step": 166
	},
	{
	"epoch": 3.452196382428941,
	"grad_norm": 0.12636258686674082,
	"learning_rate": 2.050593075491031e-05,
	"loss": 0.3796,
	"step": 167
	},
	{
	"epoch": 3.4728682170542635,
	"grad_norm": 0.09627358297975736,
	"learning_rate": 2.0000000000000012e-05,
	"loss": 0.382,
	"step": 168
	},
	{
	"epoch": 3.4935400516795867,
	"grad_norm": 0.10144594851320451,
	"learning_rate": 1.9498299968005393e-05,
	"loss": 0.376,
	"step": 169
	},
	{
	"epoch": 3.5142118863049094,
	"grad_norm": 0.09960892836011123,
	"learning_rate": 1.90009367866176e-05,
	"loss": 0.3828,
	"step": 170
	},
	{
	"epoch": 3.5348837209302326,
	"grad_norm": 0.08649589297067169,
	"learning_rate": 1.8508015666127043e-05,
	"loss": 0.3827,
	"step": 171
	},
	{
	"epoch": 3.5555555555555554,
	"grad_norm": 0.10384196159292765,
	"learning_rate": 1.8019640877167763e-05,
	"loss": 0.3839,
	"step": 172
	},
	{
	"epoch": 3.5762273901808785,
	"grad_norm": 0.08656341678898698,
	"learning_rate": 1.753591572866029e-05,
	"loss": 0.375,
	"step": 173
	},
	{
	"epoch": 3.5968992248062017,
	"grad_norm": 0.08511926948170766,
	"learning_rate": 1.7056942545958167e-05,
	"loss": 0.3804,
	"step": 174
	},
	{
	"epoch": 3.6175710594315245,
	"grad_norm": 0.09259550643790064,
	"learning_rate": 1.6582822649202382e-05,
	"loss": 0.3835,
	"step": 175
	},
	{
	"epoch": 3.6382428940568476,
	"grad_norm": 0.08328195157299345,
	"learning_rate": 1.6113656331888563e-05,
	"loss": 0.3807,
	"step": 176
	},
	{
	"epoch": 3.6589147286821704,
	"grad_norm": 0.08877299434086175,
	"learning_rate": 1.5649542839651175e-05,
	"loss": 0.3764,
	"step": 177
	},
	{
	"epoch": 3.6795865633074936,
	"grad_norm": 0.08380640318280198,
	"learning_rate": 1.5190580349269604e-05,
	"loss": 0.3804,
	"step": 178
	},
	{
	"epoch": 3.7002583979328163,
	"grad_norm": 0.07699776373434924,
	"learning_rate": 1.4736865947900106e-05,
	"loss": 0.3796,
	"step": 179
	},
	{
	"epoch": 3.7209302325581395,
	"grad_norm": 0.09256081817751462,
	"learning_rate": 1.4288495612538427e-05,
	"loss": 0.3797,
	"step": 180
	},
	{
	"epoch": 3.7416020671834627,
	"grad_norm": 0.08359373379077649,
	"learning_rate": 1.3845564189717218e-05,
	"loss": 0.3745,
	"step": 181
	},
	{
	"epoch": 3.7622739018087854,
	"grad_norm": 0.08520678172410531,
	"learning_rate": 1.3408165375442486e-05,
	"loss": 0.383,
	"step": 182
	},
	{
	"epoch": 3.7829457364341086,
	"grad_norm": 0.09122883357806844,
	"learning_rate": 1.297639169537359e-05,
	"loss": 0.3795,
	"step": 183
	},
	{
	"epoch": 3.8036175710594318,
	"grad_norm": 0.0779176471928561,
	"learning_rate": 1.2550334485250661e-05,
	"loss": 0.3825,
	"step": 184
	},
	{
	"epoch": 3.8242894056847545,
	"grad_norm": 0.08154088851689886,
	"learning_rate": 1.2130083871573812e-05,
	"loss": 0.3814,
	"step": 185
	},
	{
	"epoch": 3.8449612403100772,
	"grad_norm": 0.10166515233750176,
	"learning_rate": 1.1715728752538103e-05,
	"loss": 0.3763,
	"step": 186
	},
	{
	"epoch": 3.8656330749354004,
	"grad_norm": 0.07978891816708118,
	"learning_rate": 1.130735677922842e-05,
	"loss": 0.382,
	"step": 187
	},
	{
	"epoch": 3.8863049095607236,
	"grad_norm": 0.08247932494598004,
	"learning_rate": 1.0905054337078051e-05,
	"loss": 0.3816,
	"step": 188
	},
	{
	"epoch": 3.9069767441860463,
	"grad_norm": 0.08617393492477488,
	"learning_rate": 1.0508906527595042e-05,
	"loss": 0.3758,
	"step": 189
	},
	{
	"epoch": 3.9276485788113695,
	"grad_norm": 0.07076644296330604,
	"learning_rate": 1.0118997150360169e-05,
	"loss": 0.3822,
	"step": 190
	},
	{
	"epoch": 3.9483204134366927,
	"grad_norm": 0.07065814361505379,
	"learning_rate": 9.735408685300287e-06,
	"loss": 0.3826,
	"step": 191
	},
	{
	"epoch": 3.9689922480620154,
	"grad_norm": 0.08938154240197935,
	"learning_rate": 9.358222275240884e-06,
	"loss": 0.3828,
	"step": 192
	},
	{
	"epoch": 3.9896640826873386,
	"grad_norm": 0.07941435941658158,
	"learning_rate": 8.987517708741364e-06,
	"loss": 0.378,
	"step": 193
	},
	{
	"epoch": 4.010335917312662,
	"grad_norm": 0.09711457338727685,
	"learning_rate": 8.623373403216972e-06,
	"loss": 0.3677,
	"step": 194
	},
	{
	"epoch": 4.0310077519379846,
	"grad_norm": 0.13105925666440368,
	"learning_rate": 8.265866388350598e-06,
	"loss": 0.3617,
	"step": 195
	},
	{
	"epoch": 4.051679586563307,
	"grad_norm": 0.08933195191567478,
	"learning_rate": 7.915072289798247e-06,
	"loss": 0.3537,
	"step": 196
	},
	{
	"epoch": 4.072351421188631,
	"grad_norm": 0.08419493114811873,
	"learning_rate": 7.5710653131915125e-06,
	"loss": 0.3627,
	"step": 197
	},
	{
	"epoch": 4.093023255813954,
	"grad_norm": 0.09855757707090335,
	"learning_rate": 7.233918228440324e-06,
	"loss": 0.363,
	"step": 198
	},
	{
	"epoch": 4.113695090439276,
	"grad_norm": 0.10644403332249518,
	"learning_rate": 6.903702354339578e-06,
	"loss": 0.3572,
	"step": 199
	},
	{
	"epoch": 4.134366925064599,
	"grad_norm": 0.10474868764346248,
	"learning_rate": 6.58048754348255e-06,
	"loss": 0.3656,
	"step": 200
	},
	{
	"epoch": 4.155038759689923,
	"grad_norm": 0.08998213945424546,
	"learning_rate": 6.26434216748458e-06,
	"loss": 0.357,
	"step": 201
	},
	{
	"epoch": 4.1757105943152455,
	"grad_norm": 0.0874382734058534,
	"learning_rate": 5.955333102520011e-06,
	"loss": 0.3579,
	"step": 202
	},
	{
	"epoch": 4.196382428940568,
	"grad_norm": 0.09229516478584097,
	"learning_rate": 5.653525715175483e-06,
	"loss": 0.3551,
	"step": 203
	},
	{
	"epoch": 4.217054263565892,
	"grad_norm": 0.0899139620609084,
	"learning_rate": 5.358983848622452e-06,
	"loss": 0.3561,
	"step": 204
	},
	{
	"epoch": 4.237726098191215,
	"grad_norm": 0.09480003016590481,
	"learning_rate": 5.07176980911217e-06,
	"loss": 0.3612,
	"step": 205
	},
	{
	"epoch": 4.258397932816537,
	"grad_norm": 0.07955059469841694,
	"learning_rate": 4.791944352795561e-06,
	"loss": 0.3576,
	"step": 206
	},
	{
	"epoch": 4.27906976744186,
	"grad_norm": 0.08281316418812414,
	"learning_rate": 4.519566672871132e-06,
	"loss": 0.3596,
	"step": 207
	},
	{
	"epoch": 4.299741602067184,
	"grad_norm": 0.08360162648406322,
	"learning_rate": 4.254694387063514e-06,
	"loss": 0.358,
	"step": 208
	},
	{
	"epoch": 4.320413436692506,
	"grad_norm": 0.07640740401473636,
	"learning_rate": 3.997383525435154e-06,
	"loss": 0.3532,
	"step": 209
	},
	{
	"epoch": 4.341085271317829,
	"grad_norm": 0.07916200584935532,
	"learning_rate": 3.747688518534003e-06,
	"loss": 0.3608,
	"step": 210
	},
	{
	"epoch": 4.361757105943153,
	"grad_norm": 0.06910995508249697,
	"learning_rate": 3.5056621858794393e-06,
	"loss": 0.3521,
	"step": 211
	},
	{
	"epoch": 4.3824289405684755,
	"grad_norm": 0.07374366802772589,
	"learning_rate": 3.2713557247890447e-06,
	"loss": 0.3617,
	"step": 212
	},
	{
	"epoch": 4.403100775193798,
	"grad_norm": 0.0710814968114632,
	"learning_rate": 3.0448186995485307e-06,
	"loss": 0.3601,
	"step": 213
	},
	{
	"epoch": 4.423772609819121,
	"grad_norm": 0.06896603986098794,
	"learning_rate": 2.8260990309270987e-06,
	"loss": 0.3479,
	"step": 214
	},
	{
	"epoch": 4.444444444444445,
	"grad_norm": 0.06185011564865765,
	"learning_rate": 2.6152429860404647e-06,
	"loss": 0.3614,
	"step": 215
	},
	{
	"epoch": 4.465116279069767,
	"grad_norm": 0.06549697826461233,
	"learning_rate": 2.4122951685636674e-06,
	"loss": 0.3561,
	"step": 216
	},
	{
	"epoch": 4.48578811369509,
	"grad_norm": 0.061438617551997,
	"learning_rate": 2.217298509295813e-06,
	"loss": 0.3555,
	"step": 217
	},
	{
	"epoch": 4.506459948320414,
	"grad_norm": 0.060700891226855756,
	"learning_rate": 2.0302942570786446e-06,
	"loss": 0.3584,
	"step": 218
	},
	{
	"epoch": 4.5271317829457365,
	"grad_norm": 0.06178488967139298,
	"learning_rate": 1.8513219700709272e-06,
	"loss": 0.3581,
	"step": 219
	},
	{
	"epoch": 4.547803617571059,
	"grad_norm": 0.06183530674329798,
	"learning_rate": 1.6804195073804442e-06,
	"loss": 0.352,
	"step": 220
	},
	{
	"epoch": 4.568475452196383,
	"grad_norm": 0.05866001427045164,
	"learning_rate": 1.5176230210554744e-06,
	"loss": 0.3509,
	"step": 221
	},
	{
	"epoch": 4.589147286821706,
	"grad_norm": 0.05774735846339501,
	"learning_rate": 1.3629669484372722e-06,
	"loss": 0.3574,
	"step": 222
	},
	{
	"epoch": 4.609819121447028,
	"grad_norm": 0.05601122893723008,
	"learning_rate": 1.2164840048753602e-06,
	"loss": 0.3569,
	"step": 223
	},
	{
	"epoch": 4.630490956072351,
	"grad_norm": 0.05526767753253488,
	"learning_rate": 1.0782051768070477e-06,
	"loss": 0.3582,
	"step": 224
	},
	{
	"epoch": 4.651162790697675,
	"grad_norm": 0.05616027399981306,
	"learning_rate": 9.481597152026656e-07,
	"loss": 0.3493,
	"step": 225
	},
	{
	"epoch": 4.671834625322997,
	"grad_norm": 0.05467514890147951,
	"learning_rate": 8.263751293779409e-07,
	"loss": 0.3533,
	"step": 226
	},
	{
	"epoch": 4.69250645994832,
	"grad_norm": 0.05486244376026512,
	"learning_rate": 7.128771811747737e-07,
	"loss": 0.353,
	"step": 227
	},
	{
	"epoch": 4.713178294573644,
	"grad_norm": 0.053720925123237416,
	"learning_rate": 6.076898795116792e-07,
	"loss": 0.359,
	"step": 228
	},
	{
	"epoch": 4.7338501291989665,
	"grad_norm": 0.054529190806937466,
	"learning_rate": 5.108354753050381e-07,
	"loss": 0.3548,
	"step": 229
	},
	{
	"epoch": 4.754521963824289,
	"grad_norm": 0.054284156157904224,
	"learning_rate": 4.223344567622212e-07,
	"loss": 0.3509,
	"step": 230
	},
	{
	"epoch": 4.775193798449612,
	"grad_norm": 0.05169076157313685,
	"learning_rate": 3.4220554504758475e-07,
	"loss": 0.3576,
	"step": 231
	},
	{
	"epoch": 4.795865633074936,
	"grad_norm": 0.05516028856228327,
	"learning_rate": 2.704656903222791e-07,
	"loss": 0.3591,
	"step": 232
	},
	{
	"epoch": 4.816537467700258,
	"grad_norm": 0.05350115446089016,
	"learning_rate": 2.0713006815868075e-07,
	"loss": 0.358,
	"step": 233
	},
	{
	"epoch": 4.837209302325581,
	"grad_norm": 0.052581881517593826,
	"learning_rate": 1.522120763301782e-07,
	"loss": 0.3586,
	"step": 234
	},
	{
	"epoch": 4.857881136950905,
	"grad_norm": 0.053948835043271054,
	"learning_rate": 1.0572333197711005e-07,
	"loss": 0.3543,
	"step": 235
	},
	{
	"epoch": 4.8785529715762275,
	"grad_norm": 0.0546909910210749,
	"learning_rate": 6.767366914927298e-08,
	"loss": 0.3566,
	"step": 236
	},
	{
	"epoch": 4.89922480620155,
	"grad_norm": 0.05406684942381343,
	"learning_rate": 3.8071136725688074e-08,
	"loss": 0.3561,
	"step": 237
	},
	{
	"epoch": 4.919896640826874,
	"grad_norm": 0.05108092626758996,
	"learning_rate": 1.6921996711976028e-08,
	"loss": 0.3512,
	"step": 238
	},
	{
	"epoch": 4.940568475452197,
	"grad_norm": 0.053315673178670926,
	"learning_rate": 4.230722915701257e-09,
	"loss": 0.3584,
	"step": 239
	},
	{
	"epoch": 4.961240310077519,
	"grad_norm": 0.05179414324279462,
	"learning_rate": 0.0,
	"loss": 0.3541,
	"step": 240
	},
	{
	"epoch": 4.961240310077519,
	"step": 240,
	"total_flos": 8.242697655180853e+18,
	"train_loss": 0.45099904040495553,
	"train_runtime": 77492.3925,
	"train_samples_per_second": 1.597,
	"train_steps_per_second": 0.003
	}
	],
	"logging_steps": 1,
	"max_steps": 240,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 5,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 8.242697655180853e+18,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}