bloomz_lora_mn / last-checkpoint /trainer_state.json

Training in progress, step 5493, checkpoint

2ca9fb7 verified 11 months ago

96.4 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"eval_steps": 1000,
	"global_step": 5493,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0018204988166757691,
	"grad_norm": 900.346923828125,
	"learning_rate": 2.0000000000000003e-06,
	"loss": 20.2441,
	"step": 10
	},
	{
	"epoch": 0.0036409976333515383,
	"grad_norm": 939.3712158203125,
	"learning_rate": 4.000000000000001e-06,
	"loss": 19.6193,
	"step": 20
	},
	{
	"epoch": 0.005461496450027308,
	"grad_norm": 562.291015625,
	"learning_rate": 6e-06,
	"loss": 18.7898,
	"step": 30
	},
	{
	"epoch": 0.007281995266703077,
	"grad_norm": 447.43060302734375,
	"learning_rate": 8.000000000000001e-06,
	"loss": 17.2234,
	"step": 40
	},
	{
	"epoch": 0.009102494083378846,
	"grad_norm": 361.34100341796875,
	"learning_rate": 1e-05,
	"loss": 15.4955,
	"step": 50
	},
	{
	"epoch": 0.010922992900054615,
	"grad_norm": 320.7839660644531,
	"learning_rate": 1.2e-05,
	"loss": 13.6977,
	"step": 60
	},
	{
	"epoch": 0.012743491716730384,
	"grad_norm": 131.0957794189453,
	"learning_rate": 1.4000000000000001e-05,
	"loss": 11.4716,
	"step": 70
	},
	{
	"epoch": 0.014563990533406153,
	"grad_norm": 75.75025177001953,
	"learning_rate": 1.6000000000000003e-05,
	"loss": 9.5351,
	"step": 80
	},
	{
	"epoch": 0.016384489350081924,
	"grad_norm": 42.2626953125,
	"learning_rate": 1.8e-05,
	"loss": 8.1668,
	"step": 90
	},
	{
	"epoch": 0.018204988166757693,
	"grad_norm": 25.88639259338379,
	"learning_rate": 2e-05,
	"loss": 7.3242,
	"step": 100
	},
	{
	"epoch": 0.02002548698343346,
	"grad_norm": 16.043380737304688,
	"learning_rate": 2.2000000000000003e-05,
	"loss": 6.6513,
	"step": 110
	},
	{
	"epoch": 0.02184598580010923,
	"grad_norm": 15.031912803649902,
	"learning_rate": 2.4e-05,
	"loss": 6.1476,
	"step": 120
	},
	{
	"epoch": 0.023666484616785,
	"grad_norm": 8.564423561096191,
	"learning_rate": 2.6000000000000002e-05,
	"loss": 5.7499,
	"step": 130
	},
	{
	"epoch": 0.02548698343346077,
	"grad_norm": 9.205732345581055,
	"learning_rate": 2.8000000000000003e-05,
	"loss": 5.4031,
	"step": 140
	},
	{
	"epoch": 0.027307482250136537,
	"grad_norm": 7.424269199371338,
	"learning_rate": 3e-05,
	"loss": 5.1054,
	"step": 150
	},
	{
	"epoch": 0.029127981066812306,
	"grad_norm": 7.239726543426514,
	"learning_rate": 3.2000000000000005e-05,
	"loss": 4.9637,
	"step": 160
	},
	{
	"epoch": 0.030948479883488075,
	"grad_norm": 9.377843856811523,
	"learning_rate": 3.4000000000000007e-05,
	"loss": 4.7583,
	"step": 170
	},
	{
	"epoch": 0.03276897870016385,
	"grad_norm": 5.893341064453125,
	"learning_rate": 3.6e-05,
	"loss": 4.7093,
	"step": 180
	},
	{
	"epoch": 0.03458947751683961,
	"grad_norm": 5.311996936798096,
	"learning_rate": 3.8e-05,
	"loss": 4.5147,
	"step": 190
	},
	{
	"epoch": 0.036409976333515386,
	"grad_norm": 5.311359882354736,
	"learning_rate": 4e-05,
	"loss": 4.5004,
	"step": 200
	},
	{
	"epoch": 0.03823047515019115,
	"grad_norm": 8.67163372039795,
	"learning_rate": 4.2e-05,
	"loss": 4.3923,
	"step": 210
	},
	{
	"epoch": 0.04005097396686692,
	"grad_norm": 5.317925930023193,
	"learning_rate": 4.4000000000000006e-05,
	"loss": 4.3169,
	"step": 220
	},
	{
	"epoch": 0.04187147278354269,
	"grad_norm": 10.292462348937988,
	"learning_rate": 4.600000000000001e-05,
	"loss": 4.2887,
	"step": 230
	},
	{
	"epoch": 0.04369197160021846,
	"grad_norm": 6.532808303833008,
	"learning_rate": 4.8e-05,
	"loss": 4.2458,
	"step": 240
	},
	{
	"epoch": 0.04551247041689423,
	"grad_norm": 5.974935531616211,
	"learning_rate": 5e-05,
	"loss": 4.1716,
	"step": 250
	},
	{
	"epoch": 0.04733296923357,
	"grad_norm": 10.58936595916748,
	"learning_rate": 5.2000000000000004e-05,
	"loss": 4.0606,
	"step": 260
	},
	{
	"epoch": 0.049153468050245765,
	"grad_norm": 11.461891174316406,
	"learning_rate": 5.4000000000000005e-05,
	"loss": 4.1349,
	"step": 270
	},
	{
	"epoch": 0.05097396686692154,
	"grad_norm": 8.389955520629883,
	"learning_rate": 5.6000000000000006e-05,
	"loss": 4.044,
	"step": 280
	},
	{
	"epoch": 0.0527944656835973,
	"grad_norm": 5.730175018310547,
	"learning_rate": 5.8e-05,
	"loss": 4.0169,
	"step": 290
	},
	{
	"epoch": 0.054614964500273075,
	"grad_norm": 8.236620903015137,
	"learning_rate": 6e-05,
	"loss": 3.8992,
	"step": 300
	},
	{
	"epoch": 0.05643546331694885,
	"grad_norm": 9.377148628234863,
	"learning_rate": 6.2e-05,
	"loss": 3.9041,
	"step": 310
	},
	{
	"epoch": 0.05825596213362461,
	"grad_norm": 8.225547790527344,
	"learning_rate": 6.400000000000001e-05,
	"loss": 3.8243,
	"step": 320
	},
	{
	"epoch": 0.060076460950300385,
	"grad_norm": 6.899202823638916,
	"learning_rate": 6.6e-05,
	"loss": 3.8613,
	"step": 330
	},
	{
	"epoch": 0.06189695976697615,
	"grad_norm": 7.693598747253418,
	"learning_rate": 6.800000000000001e-05,
	"loss": 3.7624,
	"step": 340
	},
	{
	"epoch": 0.06371745858365192,
	"grad_norm": 6.594521522521973,
	"learning_rate": 7e-05,
	"loss": 3.7709,
	"step": 350
	},
	{
	"epoch": 0.0655379574003277,
	"grad_norm": 7.71303129196167,
	"learning_rate": 7.2e-05,
	"loss": 3.699,
	"step": 360
	},
	{
	"epoch": 0.06735845621700345,
	"grad_norm": 11.58485221862793,
	"learning_rate": 7.4e-05,
	"loss": 3.6711,
	"step": 370
	},
	{
	"epoch": 0.06917895503367923,
	"grad_norm": 12.817239761352539,
	"learning_rate": 7.6e-05,
	"loss": 3.6647,
	"step": 380
	},
	{
	"epoch": 0.070999453850355,
	"grad_norm": 11.794710159301758,
	"learning_rate": 7.800000000000001e-05,
	"loss": 3.6485,
	"step": 390
	},
	{
	"epoch": 0.07281995266703077,
	"grad_norm": 7.5003509521484375,
	"learning_rate": 8e-05,
	"loss": 3.63,
	"step": 400
	},
	{
	"epoch": 0.07464045148370653,
	"grad_norm": 7.507719993591309,
	"learning_rate": 8.2e-05,
	"loss": 3.5663,
	"step": 410
	},
	{
	"epoch": 0.0764609503003823,
	"grad_norm": 10.392959594726562,
	"learning_rate": 8.4e-05,
	"loss": 3.5462,
	"step": 420
	},
	{
	"epoch": 0.07828144911705807,
	"grad_norm": 10.792546272277832,
	"learning_rate": 8.6e-05,
	"loss": 3.489,
	"step": 430
	},
	{
	"epoch": 0.08010194793373385,
	"grad_norm": 8.886263847351074,
	"learning_rate": 8.800000000000001e-05,
	"loss": 3.507,
	"step": 440
	},
	{
	"epoch": 0.0819224467504096,
	"grad_norm": 10.633005142211914,
	"learning_rate": 9e-05,
	"loss": 3.4786,
	"step": 450
	},
	{
	"epoch": 0.08374294556708538,
	"grad_norm": 8.927319526672363,
	"learning_rate": 9.200000000000001e-05,
	"loss": 3.4799,
	"step": 460
	},
	{
	"epoch": 0.08556344438376115,
	"grad_norm": 7.764442443847656,
	"learning_rate": 9.4e-05,
	"loss": 3.4424,
	"step": 470
	},
	{
	"epoch": 0.08738394320043692,
	"grad_norm": 7.294579982757568,
	"learning_rate": 9.6e-05,
	"loss": 3.3888,
	"step": 480
	},
	{
	"epoch": 0.0892044420171127,
	"grad_norm": 12.751729965209961,
	"learning_rate": 9.8e-05,
	"loss": 3.4342,
	"step": 490
	},
	{
	"epoch": 0.09102494083378845,
	"grad_norm": 12.688404083251953,
	"learning_rate": 0.0001,
	"loss": 3.412,
	"step": 500
	},
	{
	"epoch": 0.09284543965046423,
	"grad_norm": 8.39454174041748,
	"learning_rate": 9.99990102735217e-05,
	"loss": 3.3787,
	"step": 510
	},
	{
	"epoch": 0.09466593846714,
	"grad_norm": 8.661295890808105,
	"learning_rate": 9.999604113326911e-05,
	"loss": 3.3499,
	"step": 520
	},
	{
	"epoch": 0.09648643728381577,
	"grad_norm": 11.745123863220215,
	"learning_rate": 9.999109269678773e-05,
	"loss": 3.3025,
	"step": 530
	},
	{
	"epoch": 0.09830693610049153,
	"grad_norm": 11.857743263244629,
	"learning_rate": 9.998416515998146e-05,
	"loss": 3.3443,
	"step": 540
	},
	{
	"epoch": 0.1001274349171673,
	"grad_norm": 10.025672912597656,
	"learning_rate": 9.997525879710501e-05,
	"loss": 3.2624,
	"step": 550
	},
	{
	"epoch": 0.10194793373384307,
	"grad_norm": 11.870292663574219,
	"learning_rate": 9.996437396075289e-05,
	"loss": 3.3323,
	"step": 560
	},
	{
	"epoch": 0.10376843255051885,
	"grad_norm": 11.637451171875,
	"learning_rate": 9.995151108184551e-05,
	"loss": 3.2349,
	"step": 570
	},
	{
	"epoch": 0.1055889313671946,
	"grad_norm": 21.10885238647461,
	"learning_rate": 9.993667066961219e-05,
	"loss": 3.3025,
	"step": 580
	},
	{
	"epoch": 0.10740943018387038,
	"grad_norm": 19.601778030395508,
	"learning_rate": 9.991985331157083e-05,
	"loss": 3.2509,
	"step": 590
	},
	{
	"epoch": 0.10922992900054615,
	"grad_norm": 15.462264060974121,
	"learning_rate": 9.990105967350486e-05,
	"loss": 3.2197,
	"step": 600
	},
	{
	"epoch": 0.11105042781722192,
	"grad_norm": 10.48941421508789,
	"learning_rate": 9.98802904994367e-05,
	"loss": 3.2523,
	"step": 610
	},
	{
	"epoch": 0.1128709266338977,
	"grad_norm": 11.569725036621094,
	"learning_rate": 9.985754661159844e-05,
	"loss": 3.192,
	"step": 620
	},
	{
	"epoch": 0.11469142545057345,
	"grad_norm": 7.362033843994141,
	"learning_rate": 9.983282891039914e-05,
	"loss": 3.2174,
	"step": 630
	},
	{
	"epoch": 0.11651192426724923,
	"grad_norm": 7.256021022796631,
	"learning_rate": 9.98061383743894e-05,
	"loss": 3.1671,
	"step": 640
	},
	{
	"epoch": 0.118332423083925,
	"grad_norm": 8.411303520202637,
	"learning_rate": 9.97774760602224e-05,
	"loss": 3.1793,
	"step": 650
	},
	{
	"epoch": 0.12015292190060077,
	"grad_norm": 9.6874361038208,
	"learning_rate": 9.97468431026122e-05,
	"loss": 3.167,
	"step": 660
	},
	{
	"epoch": 0.12197342071727653,
	"grad_norm": 9.121397972106934,
	"learning_rate": 9.971424071428877e-05,
	"loss": 3.1107,
	"step": 670
	},
	{
	"epoch": 0.1237939195339523,
	"grad_norm": 13.291868209838867,
	"learning_rate": 9.967967018594997e-05,
	"loss": 3.1678,
	"step": 680
	},
	{
	"epoch": 0.12561441835062806,
	"grad_norm": 10.143365859985352,
	"learning_rate": 9.96431328862105e-05,
	"loss": 3.1591,
	"step": 690
	},
	{
	"epoch": 0.12743491716730385,
	"grad_norm": 9.821294784545898,
	"learning_rate": 9.96046302615477e-05,
	"loss": 3.1315,
	"step": 700
	},
	{
	"epoch": 0.1292554159839796,
	"grad_norm": 12.868693351745605,
	"learning_rate": 9.956416383624422e-05,
	"loss": 3.0713,
	"step": 710
	},
	{
	"epoch": 0.1310759148006554,
	"grad_norm": 10.408199310302734,
	"learning_rate": 9.95217352123278e-05,
	"loss": 3.1292,
	"step": 720
	},
	{
	"epoch": 0.13289641361733115,
	"grad_norm": 8.829959869384766,
	"learning_rate": 9.947734606950771e-05,
	"loss": 3.111,
	"step": 730
	},
	{
	"epoch": 0.1347169124340069,
	"grad_norm": 9.13364315032959,
	"learning_rate": 9.943099816510836e-05,
	"loss": 3.1011,
	"step": 740
	},
	{
	"epoch": 0.1365374112506827,
	"grad_norm": 8.674768447875977,
	"learning_rate": 9.93826933339997e-05,
	"loss": 3.0991,
	"step": 750
	},
	{
	"epoch": 0.13835791006735845,
	"grad_norm": 8.487624168395996,
	"learning_rate": 9.933243348852451e-05,
	"loss": 3.0915,
	"step": 760
	},
	{
	"epoch": 0.14017840888403424,
	"grad_norm": 7.808052062988281,
	"learning_rate": 9.928022061842282e-05,
	"loss": 3.0694,
	"step": 770
	},
	{
	"epoch": 0.14199890770071,
	"grad_norm": 12.615427017211914,
	"learning_rate": 9.922605679075298e-05,
	"loss": 3.0524,
	"step": 780
	},
	{
	"epoch": 0.14381940651738576,
	"grad_norm": 8.977923393249512,
	"learning_rate": 9.916994414981002e-05,
	"loss": 2.9989,
	"step": 790
	},
	{
	"epoch": 0.14563990533406154,
	"grad_norm": 8.723967552185059,
	"learning_rate": 9.911188491704058e-05,
	"loss": 3.0123,
	"step": 800
	},
	{
	"epoch": 0.1474604041507373,
	"grad_norm": 8.96397590637207,
	"learning_rate": 9.905188139095506e-05,
	"loss": 3.0031,
	"step": 810
	},
	{
	"epoch": 0.14928090296741306,
	"grad_norm": 21.173276901245117,
	"learning_rate": 9.89899359470366e-05,
	"loss": 3.0045,
	"step": 820
	},
	{
	"epoch": 0.15110140178408885,
	"grad_norm": 9.059152603149414,
	"learning_rate": 9.892605103764704e-05,
	"loss": 2.972,
	"step": 830
	},
	{
	"epoch": 0.1529219006007646,
	"grad_norm": 7.885227203369141,
	"learning_rate": 9.886022919192985e-05,
	"loss": 2.9822,
	"step": 840
	},
	{
	"epoch": 0.1547423994174404,
	"grad_norm": 7.191554069519043,
	"learning_rate": 9.879247301570995e-05,
	"loss": 3.0297,
	"step": 850
	},
	{
	"epoch": 0.15656289823411615,
	"grad_norm": 10.712031364440918,
	"learning_rate": 9.872278519139062e-05,
	"loss": 3.0149,
	"step": 860
	},
	{
	"epoch": 0.1583833970507919,
	"grad_norm": 10.305954933166504,
	"learning_rate": 9.865116847784726e-05,
	"loss": 3.0046,
	"step": 870
	},
	{
	"epoch": 0.1602038958674677,
	"grad_norm": 11.114262580871582,
	"learning_rate": 9.857762571031818e-05,
	"loss": 2.9784,
	"step": 880
	},
	{
	"epoch": 0.16202439468414345,
	"grad_norm": 10.611502647399902,
	"learning_rate": 9.850215980029234e-05,
	"loss": 2.9992,
	"step": 890
	},
	{
	"epoch": 0.1638448935008192,
	"grad_norm": 8.901230812072754,
	"learning_rate": 9.842477373539412e-05,
	"loss": 2.9712,
	"step": 900
	},
	{
	"epoch": 0.165665392317495,
	"grad_norm": 7.750337600708008,
	"learning_rate": 9.834547057926502e-05,
	"loss": 2.9586,
	"step": 910
	},
	{
	"epoch": 0.16748589113417076,
	"grad_norm": 8.038575172424316,
	"learning_rate": 9.826425347144237e-05,
	"loss": 2.9487,
	"step": 920
	},
	{
	"epoch": 0.16930638995084654,
	"grad_norm": 8.837507247924805,
	"learning_rate": 9.818112562723507e-05,
	"loss": 2.9682,
	"step": 930
	},
	{
	"epoch": 0.1711268887675223,
	"grad_norm": 8.412049293518066,
	"learning_rate": 9.809609033759625e-05,
	"loss": 2.9253,
	"step": 940
	},
	{
	"epoch": 0.17294738758419806,
	"grad_norm": 8.611617088317871,
	"learning_rate": 9.8009150968993e-05,
	"loss": 2.9494,
	"step": 950
	},
	{
	"epoch": 0.17476788640087385,
	"grad_norm": 8.870803833007812,
	"learning_rate": 9.792031096327318e-05,
	"loss": 2.9347,
	"step": 960
	},
	{
	"epoch": 0.1765883852175496,
	"grad_norm": 6.085882186889648,
	"learning_rate": 9.782957383752898e-05,
	"loss": 2.8954,
	"step": 970
	},
	{
	"epoch": 0.1784088840342254,
	"grad_norm": 53.74106979370117,
	"learning_rate": 9.773694318395786e-05,
	"loss": 2.9159,
	"step": 980
	},
	{
	"epoch": 0.18022938285090115,
	"grad_norm": 8.432936668395996,
	"learning_rate": 9.764242266972021e-05,
	"loss": 2.9752,
	"step": 990
	},
	{
	"epoch": 0.1820498816675769,
	"grad_norm": 6.479644298553467,
	"learning_rate": 9.75460160367943e-05,
	"loss": 2.938,
	"step": 1000
	},
	{
	"epoch": 0.1820498816675769,
	"eval_loss": 2.901522159576416,
	"eval_runtime": 1012.3411,
	"eval_samples_per_second": 9.647,
	"eval_steps_per_second": 1.206,
	"step": 1000
	},
	{
	"epoch": 0.1838703804842527,
	"grad_norm": 8.284567832946777,
	"learning_rate": 9.744772710182801e-05,
	"loss": 2.899,
	"step": 1010
	},
	{
	"epoch": 0.18569087930092845,
	"grad_norm": 6.623629570007324,
	"learning_rate": 9.734755975598777e-05,
	"loss": 2.9371,
	"step": 1020
	},
	{
	"epoch": 0.1875113781176042,
	"grad_norm": 8.541956901550293,
	"learning_rate": 9.724551796480459e-05,
	"loss": 2.8807,
	"step": 1030
	},
	{
	"epoch": 0.18933187693428,
	"grad_norm": 8.620600700378418,
	"learning_rate": 9.714160576801696e-05,
	"loss": 2.8888,
	"step": 1040
	},
	{
	"epoch": 0.19115237575095576,
	"grad_norm": 8.644622802734375,
	"learning_rate": 9.7035827279411e-05,
	"loss": 2.8747,
	"step": 1050
	},
	{
	"epoch": 0.19297287456763154,
	"grad_norm": 9.656100273132324,
	"learning_rate": 9.692818668665752e-05,
	"loss": 2.9203,
	"step": 1060
	},
	{
	"epoch": 0.1947933733843073,
	"grad_norm": 10.529635429382324,
	"learning_rate": 9.681868825114634e-05,
	"loss": 2.9257,
	"step": 1070
	},
	{
	"epoch": 0.19661387220098306,
	"grad_norm": 8.376754760742188,
	"learning_rate": 9.670733630781747e-05,
	"loss": 2.8864,
	"step": 1080
	},
	{
	"epoch": 0.19843437101765884,
	"grad_norm": 8.018802642822266,
	"learning_rate": 9.659413526498962e-05,
	"loss": 2.8672,
	"step": 1090
	},
	{
	"epoch": 0.2002548698343346,
	"grad_norm": 7.348598480224609,
	"learning_rate": 9.647908960418553e-05,
	"loss": 2.8528,
	"step": 1100
	},
	{
	"epoch": 0.2020753686510104,
	"grad_norm": 7.87021017074585,
	"learning_rate": 9.636220387995469e-05,
	"loss": 2.8713,
	"step": 1110
	},
	{
	"epoch": 0.20389586746768615,
	"grad_norm": 8.476405143737793,
	"learning_rate": 9.624348271969295e-05,
	"loss": 2.8667,
	"step": 1120
	},
	{
	"epoch": 0.2057163662843619,
	"grad_norm": 8.64283561706543,
	"learning_rate": 9.612293082345931e-05,
	"loss": 2.8523,
	"step": 1130
	},
	{
	"epoch": 0.2075368651010377,
	"grad_norm": 10.11330795288086,
	"learning_rate": 9.600055296378995e-05,
	"loss": 2.8375,
	"step": 1140
	},
	{
	"epoch": 0.20935736391771345,
	"grad_norm": 8.217743873596191,
	"learning_rate": 9.58763539855092e-05,
	"loss": 2.8685,
	"step": 1150
	},
	{
	"epoch": 0.2111778627343892,
	"grad_norm": 7.501378536224365,
	"learning_rate": 9.575033880553774e-05,
	"loss": 2.8349,
	"step": 1160
	},
	{
	"epoch": 0.212998361551065,
	"grad_norm": 8.812211036682129,
	"learning_rate": 9.562251241269798e-05,
	"loss": 2.8384,
	"step": 1170
	},
	{
	"epoch": 0.21481886036774075,
	"grad_norm": 7.964756011962891,
	"learning_rate": 9.549287986751655e-05,
	"loss": 2.8653,
	"step": 1180
	},
	{
	"epoch": 0.21663935918441654,
	"grad_norm": 7.216350555419922,
	"learning_rate": 9.536144630202395e-05,
	"loss": 2.8276,
	"step": 1190
	},
	{
	"epoch": 0.2184598580010923,
	"grad_norm": 7.890927314758301,
	"learning_rate": 9.522821691955135e-05,
	"loss": 2.7802,
	"step": 1200
	},
	{
	"epoch": 0.22028035681776806,
	"grad_norm": 8.259157180786133,
	"learning_rate": 9.509319699452469e-05,
	"loss": 2.8407,
	"step": 1210
	},
	{
	"epoch": 0.22210085563444384,
	"grad_norm": 7.810998916625977,
	"learning_rate": 9.495639187225575e-05,
	"loss": 2.8374,
	"step": 1220
	},
	{
	"epoch": 0.2239213544511196,
	"grad_norm": 6.905944347381592,
	"learning_rate": 9.481780696873059e-05,
	"loss": 2.8342,
	"step": 1230
	},
	{
	"epoch": 0.2257418532677954,
	"grad_norm": 8.832979202270508,
	"learning_rate": 9.467744777039517e-05,
	"loss": 2.7816,
	"step": 1240
	},
	{
	"epoch": 0.22756235208447115,
	"grad_norm": 6.949944972991943,
	"learning_rate": 9.453531983393809e-05,
	"loss": 2.8104,
	"step": 1250
	},
	{
	"epoch": 0.2293828509011469,
	"grad_norm": 11.183205604553223,
	"learning_rate": 9.439142878607061e-05,
	"loss": 2.8605,
	"step": 1260
	},
	{
	"epoch": 0.2312033497178227,
	"grad_norm": 8.672426223754883,
	"learning_rate": 9.424578032330398e-05,
	"loss": 2.7866,
	"step": 1270
	},
	{
	"epoch": 0.23302384853449845,
	"grad_norm": 8.570023536682129,
	"learning_rate": 9.409838021172375e-05,
	"loss": 2.7814,
	"step": 1280
	},
	{
	"epoch": 0.2348443473511742,
	"grad_norm": 17.605865478515625,
	"learning_rate": 9.394923428676168e-05,
	"loss": 2.8896,
	"step": 1290
	},
	{
	"epoch": 0.23666484616785,
	"grad_norm": 8.613877296447754,
	"learning_rate": 9.379834845296463e-05,
	"loss": 2.8474,
	"step": 1300
	},
	{
	"epoch": 0.23848534498452575,
	"grad_norm": 9.39710807800293,
	"learning_rate": 9.364572868376075e-05,
	"loss": 2.7771,
	"step": 1310
	},
	{
	"epoch": 0.24030584380120154,
	"grad_norm": 12.333969116210938,
	"learning_rate": 9.349138102122316e-05,
	"loss": 2.8079,
	"step": 1320
	},
	{
	"epoch": 0.2421263426178773,
	"grad_norm": 10.491060256958008,
	"learning_rate": 9.333531157583055e-05,
	"loss": 2.7536,
	"step": 1330
	},
	{
	"epoch": 0.24394684143455306,
	"grad_norm": 9.862618446350098,
	"learning_rate": 9.317752652622547e-05,
	"loss": 2.8011,
	"step": 1340
	},
	{
	"epoch": 0.24576734025122884,
	"grad_norm": 11.95722484588623,
	"learning_rate": 9.301803211896955e-05,
	"loss": 2.8058,
	"step": 1350
	},
	{
	"epoch": 0.2475878390679046,
	"grad_norm": 8.709095001220703,
	"learning_rate": 9.28568346682963e-05,
	"loss": 2.7922,
	"step": 1360
	},
	{
	"epoch": 0.2494083378845804,
	"grad_norm": 6.32808256149292,
	"learning_rate": 9.269394055586116e-05,
	"loss": 2.7246,
	"step": 1370
	},
	{
	"epoch": 0.2512288367012561,
	"grad_norm": 10.615900039672852,
	"learning_rate": 9.252935623048875e-05,
	"loss": 2.7993,
	"step": 1380
	},
	{
	"epoch": 0.2530493355179319,
	"grad_norm": 10.374322891235352,
	"learning_rate": 9.236308820791768e-05,
	"loss": 2.7583,
	"step": 1390
	},
	{
	"epoch": 0.2548698343346077,
	"grad_norm": 11.486263275146484,
	"learning_rate": 9.219514307054251e-05,
	"loss": 2.8258,
	"step": 1400
	},
	{
	"epoch": 0.2566903331512835,
	"grad_norm": 9.840982437133789,
	"learning_rate": 9.202552746715322e-05,
	"loss": 2.8464,
	"step": 1410
	},
	{
	"epoch": 0.2585108319679592,
	"grad_norm": 15.894274711608887,
	"learning_rate": 9.185424811267199e-05,
	"loss": 2.8465,
	"step": 1420
	},
	{
	"epoch": 0.260331330784635,
	"grad_norm": 8.428662300109863,
	"learning_rate": 9.168131178788726e-05,
	"loss": 2.8095,
	"step": 1430
	},
	{
	"epoch": 0.2621518296013108,
	"grad_norm": 17.082258224487305,
	"learning_rate": 9.150672533918544e-05,
	"loss": 2.7782,
	"step": 1440
	},
	{
	"epoch": 0.2639723284179865,
	"grad_norm": 7.154361724853516,
	"learning_rate": 9.133049567827982e-05,
	"loss": 2.7773,
	"step": 1450
	},
	{
	"epoch": 0.2657928272346623,
	"grad_norm": 6.119648456573486,
	"learning_rate": 9.115262978193679e-05,
	"loss": 2.7788,
	"step": 1460
	},
	{
	"epoch": 0.2676133260513381,
	"grad_norm": 8.635058403015137,
	"learning_rate": 9.097313469169988e-05,
	"loss": 2.7703,
	"step": 1470
	},
	{
	"epoch": 0.2694338248680138,
	"grad_norm": 12.325600624084473,
	"learning_rate": 9.079201751361082e-05,
	"loss": 2.7313,
	"step": 1480
	},
	{
	"epoch": 0.2712543236846896,
	"grad_norm": 8.181892395019531,
	"learning_rate": 9.06092854179283e-05,
	"loss": 2.7795,
	"step": 1490
	},
	{
	"epoch": 0.2730748225013654,
	"grad_norm": 14.719033241271973,
	"learning_rate": 9.042494563884404e-05,
	"loss": 2.8108,
	"step": 1500
	},
	{
	"epoch": 0.2748953213180411,
	"grad_norm": 7.8658061027526855,
	"learning_rate": 9.023900547419646e-05,
	"loss": 2.7663,
	"step": 1510
	},
	{
	"epoch": 0.2767158201347169,
	"grad_norm": 15.445107460021973,
	"learning_rate": 9.005147228518174e-05,
	"loss": 2.7878,
	"step": 1520
	},
	{
	"epoch": 0.2785363189513927,
	"grad_norm": 12.650901794433594,
	"learning_rate": 8.986235349606238e-05,
	"loss": 2.8219,
	"step": 1530
	},
	{
	"epoch": 0.2803568177680685,
	"grad_norm": 10.226774215698242,
	"learning_rate": 8.967165659387331e-05,
	"loss": 2.742,
	"step": 1540
	},
	{
	"epoch": 0.2821773165847442,
	"grad_norm": 138.37210083007812,
	"learning_rate": 8.947938912812548e-05,
	"loss": 2.9524,
	"step": 1550
	},
	{
	"epoch": 0.28399781540142,
	"grad_norm": 16.11450958251953,
	"learning_rate": 8.928555871050693e-05,
	"loss": 2.7966,
	"step": 1560
	},
	{
	"epoch": 0.2858183142180958,
	"grad_norm": 10.201882362365723,
	"learning_rate": 8.909017301458156e-05,
	"loss": 2.8389,
	"step": 1570
	},
	{
	"epoch": 0.2876388130347715,
	"grad_norm": 10.96867847442627,
	"learning_rate": 8.889323977548521e-05,
	"loss": 2.7495,
	"step": 1580
	},
	{
	"epoch": 0.2894593118514473,
	"grad_norm": 10.814942359924316,
	"learning_rate": 8.869476678961954e-05,
	"loss": 2.7676,
	"step": 1590
	},
	{
	"epoch": 0.2912798106681231,
	"grad_norm": 6.535337448120117,
	"learning_rate": 8.849476191434334e-05,
	"loss": 2.7589,
	"step": 1600
	},
	{
	"epoch": 0.2931003094847988,
	"grad_norm": 7.036696434020996,
	"learning_rate": 8.829323306766142e-05,
	"loss": 2.7921,
	"step": 1610
	},
	{
	"epoch": 0.2949208083014746,
	"grad_norm": 5.92086124420166,
	"learning_rate": 8.809018822791121e-05,
	"loss": 2.7267,
	"step": 1620
	},
	{
	"epoch": 0.2967413071181504,
	"grad_norm": 6.186739921569824,
	"learning_rate": 8.788563543344688e-05,
	"loss": 2.795,
	"step": 1630
	},
	{
	"epoch": 0.2985618059348261,
	"grad_norm": 8.154546737670898,
	"learning_rate": 8.767958278232112e-05,
	"loss": 2.7627,
	"step": 1640
	},
	{
	"epoch": 0.3003823047515019,
	"grad_norm": 7.674529075622559,
	"learning_rate": 8.74720384319645e-05,
	"loss": 2.7996,
	"step": 1650
	},
	{
	"epoch": 0.3022028035681777,
	"grad_norm": 6.348474025726318,
	"learning_rate": 8.726301059886259e-05,
	"loss": 2.7704,
	"step": 1660
	},
	{
	"epoch": 0.3040233023848534,
	"grad_norm": 10.496267318725586,
	"learning_rate": 8.705250755823064e-05,
	"loss": 2.7591,
	"step": 1670
	},
	{
	"epoch": 0.3058438012015292,
	"grad_norm": 102.05543518066406,
	"learning_rate": 8.684053764368598e-05,
	"loss": 2.8027,
	"step": 1680
	},
	{
	"epoch": 0.307664300018205,
	"grad_norm": 8.403404235839844,
	"learning_rate": 8.662710924691805e-05,
	"loss": 2.8801,
	"step": 1690
	},
	{
	"epoch": 0.3094847988348808,
	"grad_norm": 7.355569839477539,
	"learning_rate": 8.64122308173563e-05,
	"loss": 2.8346,
	"step": 1700
	},
	{
	"epoch": 0.3113052976515565,
	"grad_norm": 12.551121711730957,
	"learning_rate": 8.61959108618356e-05,
	"loss": 2.8381,
	"step": 1710
	},
	{
	"epoch": 0.3131257964682323,
	"grad_norm": 116.6989517211914,
	"learning_rate": 8.597815794425943e-05,
	"loss": 2.814,
	"step": 1720
	},
	{
	"epoch": 0.3149462952849081,
	"grad_norm": 21.63788604736328,
	"learning_rate": 8.575898068526093e-05,
	"loss": 2.8389,
	"step": 1730
	},
	{
	"epoch": 0.3167667941015838,
	"grad_norm": 143.42408752441406,
	"learning_rate": 8.553838776186158e-05,
	"loss": 2.8534,
	"step": 1740
	},
	{
	"epoch": 0.3185872929182596,
	"grad_norm": 9.04028034210205,
	"learning_rate": 8.531638790712765e-05,
	"loss": 2.8186,
	"step": 1750
	},
	{
	"epoch": 0.3204077917349354,
	"grad_norm": 11.659414291381836,
	"learning_rate": 8.509298990982453e-05,
	"loss": 2.8078,
	"step": 1760
	},
	{
	"epoch": 0.3222282905516111,
	"grad_norm": 7.934113502502441,
	"learning_rate": 8.486820261406873e-05,
	"loss": 2.792,
	"step": 1770
	},
	{
	"epoch": 0.3240487893682869,
	"grad_norm": 12.919567108154297,
	"learning_rate": 8.464203491897779e-05,
	"loss": 2.8111,
	"step": 1780
	},
	{
	"epoch": 0.3258692881849627,
	"grad_norm": 13.67540454864502,
	"learning_rate": 8.441449577831801e-05,
	"loss": 2.8085,
	"step": 1790
	},
	{
	"epoch": 0.3276897870016384,
	"grad_norm": 7.7655110359191895,
	"learning_rate": 8.418559420014984e-05,
	"loss": 2.7689,
	"step": 1800
	},
	{
	"epoch": 0.3295102858183142,
	"grad_norm": 8.168259620666504,
	"learning_rate": 8.395533924647141e-05,
	"loss": 2.7534,
	"step": 1810
	},
	{
	"epoch": 0.33133078463499,
	"grad_norm": 14.387748718261719,
	"learning_rate": 8.372374003285968e-05,
	"loss": 2.8353,
	"step": 1820
	},
	{
	"epoch": 0.3331512834516658,
	"grad_norm": 9.209723472595215,
	"learning_rate": 8.349080572810965e-05,
	"loss": 2.7837,
	"step": 1830
	},
	{
	"epoch": 0.3349717822683415,
	"grad_norm": 9.160303115844727,
	"learning_rate": 8.325654555387123e-05,
	"loss": 2.8186,
	"step": 1840
	},
	{
	"epoch": 0.3367922810850173,
	"grad_norm": 20.171415328979492,
	"learning_rate": 8.302096878428438e-05,
	"loss": 2.8011,
	"step": 1850
	},
	{
	"epoch": 0.3386127799016931,
	"grad_norm": 29.545217514038086,
	"learning_rate": 8.278408474561169e-05,
	"loss": 2.7971,
	"step": 1860
	},
	{
	"epoch": 0.3404332787183688,
	"grad_norm": 19.314136505126953,
	"learning_rate": 8.254590281586942e-05,
	"loss": 2.7983,
	"step": 1870
	},
	{
	"epoch": 0.3422537775350446,
	"grad_norm": 8.010175704956055,
	"learning_rate": 8.230643242445605e-05,
	"loss": 2.7921,
	"step": 1880
	},
	{
	"epoch": 0.3440742763517204,
	"grad_norm": 24.649381637573242,
	"learning_rate": 8.206568305177907e-05,
	"loss": 2.7962,
	"step": 1890
	},
	{
	"epoch": 0.3458947751683961,
	"grad_norm": 8.272650718688965,
	"learning_rate": 8.182366422887964e-05,
	"loss": 2.7439,
	"step": 1900
	},
	{
	"epoch": 0.3477152739850719,
	"grad_norm": 7.553550720214844,
	"learning_rate": 8.158038553705524e-05,
	"loss": 2.7845,
	"step": 1910
	},
	{
	"epoch": 0.3495357728017477,
	"grad_norm": 8.573986053466797,
	"learning_rate": 8.13358566074804e-05,
	"loss": 2.7003,
	"step": 1920
	},
	{
	"epoch": 0.3513562716184234,
	"grad_norm": 10.316489219665527,
	"learning_rate": 8.109008712082538e-05,
	"loss": 2.7627,
	"step": 1930
	},
	{
	"epoch": 0.3531767704350992,
	"grad_norm": 8.462483406066895,
	"learning_rate": 8.084308680687287e-05,
	"loss": 2.7281,
	"step": 1940
	},
	{
	"epoch": 0.354997269251775,
	"grad_norm": 20.140274047851562,
	"learning_rate": 8.059486544413298e-05,
	"loss": 2.6906,
	"step": 1950
	},
	{
	"epoch": 0.3568177680684508,
	"grad_norm": 7.473912239074707,
	"learning_rate": 8.034543285945584e-05,
	"loss": 2.8117,
	"step": 1960
	},
	{
	"epoch": 0.3586382668851265,
	"grad_norm": 38.26898193359375,
	"learning_rate": 8.009479892764284e-05,
	"loss": 2.7456,
	"step": 1970
	},
	{
	"epoch": 0.3604587657018023,
	"grad_norm": 48.63120651245117,
	"learning_rate": 7.984297357105552e-05,
	"loss": 2.7224,
	"step": 1980
	},
	{
	"epoch": 0.3622792645184781,
	"grad_norm": 10.31283187866211,
	"learning_rate": 7.95899667592228e-05,
	"loss": 2.7108,
	"step": 1990
	},
	{
	"epoch": 0.3640997633351538,
	"grad_norm": 6.465616703033447,
	"learning_rate": 7.933578850844636e-05,
	"loss": 2.6901,
	"step": 2000
	},
	{
	"epoch": 0.3640997633351538,
	"eval_loss": 2.735260248184204,
	"eval_runtime": 1011.986,
	"eval_samples_per_second": 9.65,
	"eval_steps_per_second": 1.207,
	"step": 2000
	},
	{
	"epoch": 0.3659202621518296,
	"grad_norm": 7.348064422607422,
	"learning_rate": 7.908044888140394e-05,
	"loss": 2.7194,
	"step": 2010
	},
	{
	"epoch": 0.3677407609685054,
	"grad_norm": 10.493142127990723,
	"learning_rate": 7.882395798675115e-05,
	"loss": 2.7374,
	"step": 2020
	},
	{
	"epoch": 0.3695612597851811,
	"grad_norm": 9.447548866271973,
	"learning_rate": 7.856632597872122e-05,
	"loss": 2.7186,
	"step": 2030
	},
	{
	"epoch": 0.3713817586018569,
	"grad_norm": 6.926711559295654,
	"learning_rate": 7.83075630567229e-05,
	"loss": 2.7369,
	"step": 2040
	},
	{
	"epoch": 0.3732022574185327,
	"grad_norm": 19.662818908691406,
	"learning_rate": 7.804767946493685e-05,
	"loss": 2.71,
	"step": 2050
	},
	{
	"epoch": 0.3750227562352084,
	"grad_norm": 37.960330963134766,
	"learning_rate": 7.778668549190994e-05,
	"loss": 2.7497,
	"step": 2060
	},
	{
	"epoch": 0.3768432550518842,
	"grad_norm": 10.371471405029297,
	"learning_rate": 7.7524591470148e-05,
	"loss": 2.7329,
	"step": 2070
	},
	{
	"epoch": 0.37866375386856,
	"grad_norm": 7.78175163269043,
	"learning_rate": 7.726140777570675e-05,
	"loss": 2.6866,
	"step": 2080
	},
	{
	"epoch": 0.3804842526852358,
	"grad_norm": 63.65814971923828,
	"learning_rate": 7.699714482778104e-05,
	"loss": 2.6993,
	"step": 2090
	},
	{
	"epoch": 0.3823047515019115,
	"grad_norm": 20.166156768798828,
	"learning_rate": 7.673181308829233e-05,
	"loss": 2.7455,
	"step": 2100
	},
	{
	"epoch": 0.3841252503185873,
	"grad_norm": 10.943995475769043,
	"learning_rate": 7.646542306147455e-05,
	"loss": 2.7369,
	"step": 2110
	},
	{
	"epoch": 0.3859457491352631,
	"grad_norm": 8.025435447692871,
	"learning_rate": 7.619798529345825e-05,
	"loss": 2.6558,
	"step": 2120
	},
	{
	"epoch": 0.3877662479519388,
	"grad_norm": 7.745648384094238,
	"learning_rate": 7.592951037185301e-05,
	"loss": 2.7071,
	"step": 2130
	},
	{
	"epoch": 0.3895867467686146,
	"grad_norm": 11.425312995910645,
	"learning_rate": 7.566000892532838e-05,
	"loss": 2.7322,
	"step": 2140
	},
	{
	"epoch": 0.3914072455852904,
	"grad_norm": 21.18678855895996,
	"learning_rate": 7.538949162319306e-05,
	"loss": 2.6649,
	"step": 2150
	},
	{
	"epoch": 0.3932277444019661,
	"grad_norm": 7.39724588394165,
	"learning_rate": 7.511796917497255e-05,
	"loss": 2.6632,
	"step": 2160
	},
	{
	"epoch": 0.3950482432186419,
	"grad_norm": 26.170703887939453,
	"learning_rate": 7.484545232998508e-05,
	"loss": 2.7239,
	"step": 2170
	},
	{
	"epoch": 0.3968687420353177,
	"grad_norm": 9.031233787536621,
	"learning_rate": 7.457195187691614e-05,
	"loss": 2.6995,
	"step": 2180
	},
	{
	"epoch": 0.3986892408519934,
	"grad_norm": 9.091829299926758,
	"learning_rate": 7.429747864339136e-05,
	"loss": 2.6826,
	"step": 2190
	},
	{
	"epoch": 0.4005097396686692,
	"grad_norm": 8.380509376525879,
	"learning_rate": 7.40220434955478e-05,
	"loss": 2.7026,
	"step": 2200
	},
	{
	"epoch": 0.402330238485345,
	"grad_norm": 5.83329439163208,
	"learning_rate": 7.374565733760379e-05,
	"loss": 2.6523,
	"step": 2210
	},
	{
	"epoch": 0.4041507373020208,
	"grad_norm": 6.2706475257873535,
	"learning_rate": 7.346833111142735e-05,
	"loss": 2.6854,
	"step": 2220
	},
	{
	"epoch": 0.4059712361186965,
	"grad_norm": 6.717202663421631,
	"learning_rate": 7.319007579610277e-05,
	"loss": 2.6949,
	"step": 2230
	},
	{
	"epoch": 0.4077917349353723,
	"grad_norm": 9.39269733428955,
	"learning_rate": 7.291090240749621e-05,
	"loss": 2.6903,
	"step": 2240
	},
	{
	"epoch": 0.4096122337520481,
	"grad_norm": 5.5886383056640625,
	"learning_rate": 7.263082199781949e-05,
	"loss": 2.6633,
	"step": 2250
	},
	{
	"epoch": 0.4114327325687238,
	"grad_norm": 7.369466304779053,
	"learning_rate": 7.234984565519247e-05,
	"loss": 2.6493,
	"step": 2260
	},
	{
	"epoch": 0.4132532313853996,
	"grad_norm": 11.548351287841797,
	"learning_rate": 7.206798450320422e-05,
	"loss": 2.6406,
	"step": 2270
	},
	{
	"epoch": 0.4150737302020754,
	"grad_norm": 9.547252655029297,
	"learning_rate": 7.178524970047253e-05,
	"loss": 2.7079,
	"step": 2280
	},
	{
	"epoch": 0.4168942290187511,
	"grad_norm": 7.008022785186768,
	"learning_rate": 7.150165244020224e-05,
	"loss": 2.6277,
	"step": 2290
	},
	{
	"epoch": 0.4187147278354269,
	"grad_norm": 7.342654705047607,
	"learning_rate": 7.121720394974206e-05,
	"loss": 2.6857,
	"step": 2300
	},
	{
	"epoch": 0.4205352266521027,
	"grad_norm": 6.655099391937256,
	"learning_rate": 7.093191549014007e-05,
	"loss": 2.654,
	"step": 2310
	},
	{
	"epoch": 0.4223557254687784,
	"grad_norm": 6.727902412414551,
	"learning_rate": 7.0645798355698e-05,
	"loss": 2.6778,
	"step": 2320
	},
	{
	"epoch": 0.4241762242854542,
	"grad_norm": 6.407891273498535,
	"learning_rate": 7.035886387352399e-05,
	"loss": 2.6798,
	"step": 2330
	},
	{
	"epoch": 0.42599672310213,
	"grad_norm": 6.782746315002441,
	"learning_rate": 7.007112340308423e-05,
	"loss": 2.6669,
	"step": 2340
	},
	{
	"epoch": 0.4278172219188058,
	"grad_norm": 6.325183868408203,
	"learning_rate": 6.97825883357532e-05,
	"loss": 2.6556,
	"step": 2350
	},
	{
	"epoch": 0.4296377207354815,
	"grad_norm": 5.9982008934021,
	"learning_rate": 6.949327009436278e-05,
	"loss": 2.6764,
	"step": 2360
	},
	{
	"epoch": 0.4314582195521573,
	"grad_norm": 6.148717403411865,
	"learning_rate": 6.920318013274988e-05,
	"loss": 2.6792,
	"step": 2370
	},
	{
	"epoch": 0.4332787183688331,
	"grad_norm": 6.28306245803833,
	"learning_rate": 6.891232993530319e-05,
	"loss": 2.6945,
	"step": 2380
	},
	{
	"epoch": 0.4350992171855088,
	"grad_norm": 6.82548713684082,
	"learning_rate": 6.862073101650837e-05,
	"loss": 2.6592,
	"step": 2390
	},
	{
	"epoch": 0.4369197160021846,
	"grad_norm": 6.251521587371826,
	"learning_rate": 6.832839492049225e-05,
	"loss": 2.6386,
	"step": 2400
	},
	{
	"epoch": 0.4387402148188604,
	"grad_norm": 6.3002800941467285,
	"learning_rate": 6.80353332205658e-05,
	"loss": 2.6491,
	"step": 2410
	},
	{
	"epoch": 0.4405607136355361,
	"grad_norm": 6.661396026611328,
	"learning_rate": 6.774155751876603e-05,
	"loss": 2.6538,
	"step": 2420
	},
	{
	"epoch": 0.4423812124522119,
	"grad_norm": 5.950438022613525,
	"learning_rate": 6.744707944539654e-05,
	"loss": 2.603,
	"step": 2430
	},
	{
	"epoch": 0.4442017112688877,
	"grad_norm": 9.665274620056152,
	"learning_rate": 6.715191065856721e-05,
	"loss": 2.6364,
	"step": 2440
	},
	{
	"epoch": 0.4460222100855634,
	"grad_norm": 7.168936252593994,
	"learning_rate": 6.685606284373258e-05,
	"loss": 2.6911,
	"step": 2450
	},
	{
	"epoch": 0.4478427089022392,
	"grad_norm": 6.2818145751953125,
	"learning_rate": 6.655954771322929e-05,
	"loss": 2.6304,
	"step": 2460
	},
	{
	"epoch": 0.449663207718915,
	"grad_norm": 6.3358964920043945,
	"learning_rate": 6.626237700581238e-05,
	"loss": 2.6124,
	"step": 2470
	},
	{
	"epoch": 0.4514837065355908,
	"grad_norm": 7.2275004386901855,
	"learning_rate": 6.596456248619054e-05,
	"loss": 2.644,
	"step": 2480
	},
	{
	"epoch": 0.4533042053522665,
	"grad_norm": 5.857280254364014,
	"learning_rate": 6.566611594456042e-05,
	"loss": 2.6175,
	"step": 2490
	},
	{
	"epoch": 0.4551247041689423,
	"grad_norm": 6.958190441131592,
	"learning_rate": 6.536704919613982e-05,
	"loss": 2.6372,
	"step": 2500
	},
	{
	"epoch": 0.4569452029856181,
	"grad_norm": 6.084266662597656,
	"learning_rate": 6.506737408069988e-05,
	"loss": 2.5989,
	"step": 2510
	},
	{
	"epoch": 0.4587657018022938,
	"grad_norm": 6.761366367340088,
	"learning_rate": 6.476710246209649e-05,
	"loss": 2.6231,
	"step": 2520
	},
	{
	"epoch": 0.4605862006189696,
	"grad_norm": 6.110794544219971,
	"learning_rate": 6.446624622780052e-05,
	"loss": 2.6294,
	"step": 2530
	},
	{
	"epoch": 0.4624066994356454,
	"grad_norm": 7.39132022857666,
	"learning_rate": 6.416481728842722e-05,
	"loss": 2.589,
	"step": 2540
	},
	{
	"epoch": 0.4642271982523211,
	"grad_norm": 5.385328769683838,
	"learning_rate": 6.386282757726467e-05,
	"loss": 2.5938,
	"step": 2550
	},
	{
	"epoch": 0.4660476970689969,
	"grad_norm": 6.137452602386475,
	"learning_rate": 6.356028904980145e-05,
	"loss": 2.611,
	"step": 2560
	},
	{
	"epoch": 0.4678681958856727,
	"grad_norm": 6.881803512573242,
	"learning_rate": 6.325721368325317e-05,
	"loss": 2.5577,
	"step": 2570
	},
	{
	"epoch": 0.4696886947023484,
	"grad_norm": 7.0561323165893555,
	"learning_rate": 6.295361347608846e-05,
	"loss": 2.5971,
	"step": 2580
	},
	{
	"epoch": 0.4715091935190242,
	"grad_norm": 8.178688049316406,
	"learning_rate": 6.264950044755387e-05,
	"loss": 2.6111,
	"step": 2590
	},
	{
	"epoch": 0.4733296923357,
	"grad_norm": 7.674656867980957,
	"learning_rate": 6.234488663719807e-05,
	"loss": 2.6211,
	"step": 2600
	},
	{
	"epoch": 0.4751501911523758,
	"grad_norm": 6.952455043792725,
	"learning_rate": 6.203978410439519e-05,
	"loss": 2.5976,
	"step": 2610
	},
	{
	"epoch": 0.4769706899690515,
	"grad_norm": 7.033661842346191,
	"learning_rate": 6.173420492786747e-05,
	"loss": 2.5667,
	"step": 2620
	},
	{
	"epoch": 0.4787911887857273,
	"grad_norm": 7.665953636169434,
	"learning_rate": 6.142816120520699e-05,
	"loss": 2.5964,
	"step": 2630
	},
	{
	"epoch": 0.4806116876024031,
	"grad_norm": 6.789517402648926,
	"learning_rate": 6.112166505239679e-05,
	"loss": 2.5046,
	"step": 2640
	},
	{
	"epoch": 0.4824321864190788,
	"grad_norm": 6.597125053405762,
	"learning_rate": 6.0814728603331176e-05,
	"loss": 2.6044,
	"step": 2650
	},
	{
	"epoch": 0.4842526852357546,
	"grad_norm": 5.781830310821533,
	"learning_rate": 6.050736400933538e-05,
	"loss": 2.6041,
	"step": 2660
	},
	{
	"epoch": 0.4860731840524304,
	"grad_norm": 6.907136917114258,
	"learning_rate": 6.0199583438684495e-05,
	"loss": 2.587,
	"step": 2670
	},
	{
	"epoch": 0.4878936828691061,
	"grad_norm": 5.483163833618164,
	"learning_rate": 5.989139907612174e-05,
	"loss": 2.6136,
	"step": 2680
	},
	{
	"epoch": 0.4897141816857819,
	"grad_norm": 5.925361156463623,
	"learning_rate": 5.958282312237605e-05,
	"loss": 2.5801,
	"step": 2690
	},
	{
	"epoch": 0.4915346805024577,
	"grad_norm": 6.07294225692749,
	"learning_rate": 5.927386779367912e-05,
	"loss": 2.6287,
	"step": 2700
	},
	{
	"epoch": 0.4933551793191334,
	"grad_norm": 5.8490424156188965,
	"learning_rate": 5.896454532128171e-05,
	"loss": 2.5894,
	"step": 2710
	},
	{
	"epoch": 0.4951756781358092,
	"grad_norm": 6.67198371887207,
	"learning_rate": 5.865486795096948e-05,
	"loss": 2.5684,
	"step": 2720
	},
	{
	"epoch": 0.496996176952485,
	"grad_norm": 6.779095649719238,
	"learning_rate": 5.8344847942578175e-05,
	"loss": 2.5916,
	"step": 2730
	},
	{
	"epoch": 0.4988166757691608,
	"grad_norm": 6.148252487182617,
	"learning_rate": 5.8034497569508206e-05,
	"loss": 2.579,
	"step": 2740
	},
	{
	"epoch": 0.5006371745858366,
	"grad_norm": 7.566195011138916,
	"learning_rate": 5.772382911823886e-05,
	"loss": 2.5639,
	"step": 2750
	},
	{
	"epoch": 0.5024576734025122,
	"grad_norm": 6.119766712188721,
	"learning_rate": 5.741285488784183e-05,
	"loss": 2.5728,
	"step": 2760
	},
	{
	"epoch": 0.504278172219188,
	"grad_norm": 6.376175880432129,
	"learning_rate": 5.710158718949431e-05,
	"loss": 2.5889,
	"step": 2770
	},
	{
	"epoch": 0.5060986710358638,
	"grad_norm": 7.798823833465576,
	"learning_rate": 5.67900383459916e-05,
	"loss": 2.5611,
	"step": 2780
	},
	{
	"epoch": 0.5079191698525396,
	"grad_norm": 5.470147132873535,
	"learning_rate": 5.64782206912593e-05,
	"loss": 2.6003,
	"step": 2790
	},
	{
	"epoch": 0.5097396686692154,
	"grad_norm": 6.034721374511719,
	"learning_rate": 5.6166146569864986e-05,
	"loss": 2.6126,
	"step": 2800
	},
	{
	"epoch": 0.5115601674858912,
	"grad_norm": 5.667842388153076,
	"learning_rate": 5.585382833652951e-05,
	"loss": 2.5349,
	"step": 2810
	},
	{
	"epoch": 0.513380666302567,
	"grad_norm": 5.957113742828369,
	"learning_rate": 5.554127835563784e-05,
	"loss": 2.5567,
	"step": 2820
	},
	{
	"epoch": 0.5152011651192426,
	"grad_norm": 8.104249000549316,
	"learning_rate": 5.5228509000749705e-05,
	"loss": 2.5654,
	"step": 2830
	},
	{
	"epoch": 0.5170216639359184,
	"grad_norm": 5.897515296936035,
	"learning_rate": 5.491553265410956e-05,
	"loss": 2.599,
	"step": 2840
	},
	{
	"epoch": 0.5188421627525942,
	"grad_norm": 7.213466167449951,
	"learning_rate": 5.46023617061565e-05,
	"loss": 2.5782,
	"step": 2850
	},
	{
	"epoch": 0.52066266156927,
	"grad_norm": 6.2212910652160645,
	"learning_rate": 5.4289008555033704e-05,
	"loss": 2.5869,
	"step": 2860
	},
	{
	"epoch": 0.5224831603859458,
	"grad_norm": 7.721590042114258,
	"learning_rate": 5.397548560609762e-05,
	"loss": 2.5546,
	"step": 2870
	},
	{
	"epoch": 0.5243036592026216,
	"grad_norm": 6.373271465301514,
	"learning_rate": 5.366180527142678e-05,
	"loss": 2.555,
	"step": 2880
	},
	{
	"epoch": 0.5261241580192972,
	"grad_norm": 7.320889949798584,
	"learning_rate": 5.334797996933052e-05,
	"loss": 2.5487,
	"step": 2890
	},
	{
	"epoch": 0.527944656835973,
	"grad_norm": 5.541944980621338,
	"learning_rate": 5.3034022123857285e-05,
	"loss": 2.6031,
	"step": 2900
	},
	{
	"epoch": 0.5297651556526488,
	"grad_norm": 6.056175708770752,
	"learning_rate": 5.271994416430278e-05,
	"loss": 2.5569,
	"step": 2910
	},
	{
	"epoch": 0.5315856544693246,
	"grad_norm": 6.227322578430176,
	"learning_rate": 5.240575852471791e-05,
	"loss": 2.5726,
	"step": 2920
	},
	{
	"epoch": 0.5334061532860004,
	"grad_norm": 5.931169509887695,
	"learning_rate": 5.2091477643416565e-05,
	"loss": 2.563,
	"step": 2930
	},
	{
	"epoch": 0.5352266521026762,
	"grad_norm": 5.819269180297852,
	"learning_rate": 5.17771139624831e-05,
	"loss": 2.5544,
	"step": 2940
	},
	{
	"epoch": 0.537047150919352,
	"grad_norm": 5.978631973266602,
	"learning_rate": 5.14626799272799e-05,
	"loss": 2.5477,
	"step": 2950
	},
	{
	"epoch": 0.5388676497360276,
	"grad_norm": 7.41937255859375,
	"learning_rate": 5.114818798595457e-05,
	"loss": 2.537,
	"step": 2960
	},
	{
	"epoch": 0.5406881485527034,
	"grad_norm": 6.325901985168457,
	"learning_rate": 5.083365058894717e-05,
	"loss": 2.5219,
	"step": 2970
	},
	{
	"epoch": 0.5425086473693792,
	"grad_norm": 5.593471050262451,
	"learning_rate": 5.051908018849729e-05,
	"loss": 2.5031,
	"step": 2980
	},
	{
	"epoch": 0.544329146186055,
	"grad_norm": 6.014733791351318,
	"learning_rate": 5.020448923815115e-05,
	"loss": 2.5559,
	"step": 2990
	},
	{
	"epoch": 0.5461496450027308,
	"grad_norm": 5.821467399597168,
	"learning_rate": 4.988989019226846e-05,
	"loss": 2.5543,
	"step": 3000
	},
	{
	"epoch": 0.5461496450027308,
	"eval_loss": 2.542562246322632,
	"eval_runtime": 1012.6169,
	"eval_samples_per_second": 9.644,
	"eval_steps_per_second": 1.206,
	"step": 3000
	},
	{
	"epoch": 0.5479701438194066,
	"grad_norm": 5.459403991699219,
	"learning_rate": 4.9575295505529476e-05,
	"loss": 2.5296,
	"step": 3010
	},
	{
	"epoch": 0.5497906426360822,
	"grad_norm": 5.517323970794678,
	"learning_rate": 4.926071763244182e-05,
	"loss": 2.5244,
	"step": 3020
	},
	{
	"epoch": 0.551611141452758,
	"grad_norm": 6.594572067260742,
	"learning_rate": 4.894616902684755e-05,
	"loss": 2.5305,
	"step": 3030
	},
	{
	"epoch": 0.5534316402694338,
	"grad_norm": 5.410883903503418,
	"learning_rate": 4.8631662141429965e-05,
	"loss": 2.52,
	"step": 3040
	},
	{
	"epoch": 0.5552521390861096,
	"grad_norm": 6.53268575668335,
	"learning_rate": 4.8317209427220776e-05,
	"loss": 2.552,
	"step": 3050
	},
	{
	"epoch": 0.5570726379027854,
	"grad_norm": 5.973785877227783,
	"learning_rate": 4.8002823333107094e-05,
	"loss": 2.5089,
	"step": 3060
	},
	{
	"epoch": 0.5588931367194612,
	"grad_norm": 5.9094038009643555,
	"learning_rate": 4.768851630533858e-05,
	"loss": 2.5641,
	"step": 3070
	},
	{
	"epoch": 0.560713635536137,
	"grad_norm": 6.263980865478516,
	"learning_rate": 4.737430078703473e-05,
	"loss": 2.5573,
	"step": 3080
	},
	{
	"epoch": 0.5625341343528126,
	"grad_norm": 5.653293609619141,
	"learning_rate": 4.706018921769229e-05,
	"loss": 2.5162,
	"step": 3090
	},
	{
	"epoch": 0.5643546331694884,
	"grad_norm": 5.543784141540527,
	"learning_rate": 4.674619403269275e-05,
	"loss": 2.5121,
	"step": 3100
	},
	{
	"epoch": 0.5661751319861642,
	"grad_norm": 5.531651020050049,
	"learning_rate": 4.643232766281003e-05,
	"loss": 2.5214,
	"step": 3110
	},
	{
	"epoch": 0.56799563080284,
	"grad_norm": 6.792632579803467,
	"learning_rate": 4.6118602533718457e-05,
	"loss": 2.5064,
	"step": 3120
	},
	{
	"epoch": 0.5698161296195158,
	"grad_norm": 5.586999416351318,
	"learning_rate": 4.580503106550069e-05,
	"loss": 2.5475,
	"step": 3130
	},
	{
	"epoch": 0.5716366284361916,
	"grad_norm": 5.922962188720703,
	"learning_rate": 4.549162567215612e-05,
	"loss": 2.4942,
	"step": 3140
	},
	{
	"epoch": 0.5734571272528672,
	"grad_norm": 6.408661842346191,
	"learning_rate": 4.517839876110942e-05,
	"loss": 2.5143,
	"step": 3150
	},
	{
	"epoch": 0.575277626069543,
	"grad_norm": 6.490014553070068,
	"learning_rate": 4.4865362732719266e-05,
	"loss": 2.524,
	"step": 3160
	},
	{
	"epoch": 0.5770981248862188,
	"grad_norm": 7.0241217613220215,
	"learning_rate": 4.45525299797875e-05,
	"loss": 2.5019,
	"step": 3170
	},
	{
	"epoch": 0.5789186237028946,
	"grad_norm": 5.701231002807617,
	"learning_rate": 4.423991288706851e-05,
	"loss": 2.5243,
	"step": 3180
	},
	{
	"epoch": 0.5807391225195704,
	"grad_norm": 5.697451591491699,
	"learning_rate": 4.392752383077883e-05,
	"loss": 2.5121,
	"step": 3190
	},
	{
	"epoch": 0.5825596213362462,
	"grad_norm": 6.233221530914307,
	"learning_rate": 4.3615375178107306e-05,
	"loss": 2.5233,
	"step": 3200
	},
	{
	"epoch": 0.584380120152922,
	"grad_norm": 5.627314567565918,
	"learning_rate": 4.330347928672538e-05,
	"loss": 2.4944,
	"step": 3210
	},
	{
	"epoch": 0.5862006189695976,
	"grad_norm": 5.6860737800598145,
	"learning_rate": 4.299184850429795e-05,
	"loss": 2.5099,
	"step": 3220
	},
	{
	"epoch": 0.5880211177862734,
	"grad_norm": 6.200436592102051,
	"learning_rate": 4.26804951679945e-05,
	"loss": 2.5251,
	"step": 3230
	},
	{
	"epoch": 0.5898416166029492,
	"grad_norm": 6.162016868591309,
	"learning_rate": 4.2369431604000654e-05,
	"loss": 2.5156,
	"step": 3240
	},
	{
	"epoch": 0.591662115419625,
	"grad_norm": 5.810561656951904,
	"learning_rate": 4.205867012703025e-05,
	"loss": 2.5343,
	"step": 3250
	},
	{
	"epoch": 0.5934826142363008,
	"grad_norm": 5.519481182098389,
	"learning_rate": 4.174822303983779e-05,
	"loss": 2.4742,
	"step": 3260
	},
	{
	"epoch": 0.5953031130529766,
	"grad_norm": 5.590371131896973,
	"learning_rate": 4.1438102632731346e-05,
	"loss": 2.5091,
	"step": 3270
	},
	{
	"epoch": 0.5971236118696522,
	"grad_norm": 5.302878379821777,
	"learning_rate": 4.1128321183086065e-05,
	"loss": 2.5024,
	"step": 3280
	},
	{
	"epoch": 0.598944110686328,
	"grad_norm": 5.2954864501953125,
	"learning_rate": 4.081889095485806e-05,
	"loss": 2.5304,
	"step": 3290
	},
	{
	"epoch": 0.6007646095030038,
	"grad_norm": 6.41418981552124,
	"learning_rate": 4.050982419809895e-05,
	"loss": 2.482,
	"step": 3300
	},
	{
	"epoch": 0.6025851083196796,
	"grad_norm": 6.165164947509766,
	"learning_rate": 4.020113314847082e-05,
	"loss": 2.5042,
	"step": 3310
	},
	{
	"epoch": 0.6044056071363554,
	"grad_norm": 5.556238651275635,
	"learning_rate": 3.989283002676193e-05,
	"loss": 2.4748,
	"step": 3320
	},
	{
	"epoch": 0.6062261059530312,
	"grad_norm": 5.898430824279785,
	"learning_rate": 3.958492703840276e-05,
	"loss": 2.5103,
	"step": 3330
	},
	{
	"epoch": 0.6080466047697068,
	"grad_norm": 6.131360054016113,
	"learning_rate": 3.9277436372982945e-05,
	"loss": 2.5023,
	"step": 3340
	},
	{
	"epoch": 0.6098671035863826,
	"grad_norm": 6.646694660186768,
	"learning_rate": 3.8970370203768595e-05,
	"loss": 2.5278,
	"step": 3350
	},
	{
	"epoch": 0.6116876024030584,
	"grad_norm": 5.293123245239258,
	"learning_rate": 3.8663740687220466e-05,
	"loss": 2.5339,
	"step": 3360
	},
	{
	"epoch": 0.6135081012197342,
	"grad_norm": 5.64793586730957,
	"learning_rate": 3.835755996251261e-05,
	"loss": 2.4955,
	"step": 3370
	},
	{
	"epoch": 0.61532860003641,
	"grad_norm": 5.227383613586426,
	"learning_rate": 3.805184015105182e-05,
	"loss": 2.4942,
	"step": 3380
	},
	{
	"epoch": 0.6171490988530858,
	"grad_norm": 6.251855850219727,
	"learning_rate": 3.774659335599783e-05,
	"loss": 2.4941,
	"step": 3390
	},
	{
	"epoch": 0.6189695976697616,
	"grad_norm": 6.169816970825195,
	"learning_rate": 3.744183166178405e-05,
	"loss": 2.5091,
	"step": 3400
	},
	{
	"epoch": 0.6207900964864372,
	"grad_norm": 5.742128372192383,
	"learning_rate": 3.71375671336392e-05,
	"loss": 2.4775,
	"step": 3410
	},
	{
	"epoch": 0.622610595303113,
	"grad_norm": 5.501997470855713,
	"learning_rate": 3.683381181710969e-05,
	"loss": 2.5165,
	"step": 3420
	},
	{
	"epoch": 0.6244310941197888,
	"grad_norm": 5.634415149688721,
	"learning_rate": 3.653057773758268e-05,
	"loss": 2.5137,
	"step": 3430
	},
	{
	"epoch": 0.6262515929364646,
	"grad_norm": 6.159447193145752,
	"learning_rate": 3.622787689981009e-05,
	"loss": 2.5118,
	"step": 3440
	},
	{
	"epoch": 0.6280720917531404,
	"grad_norm": 5.9222307205200195,
	"learning_rate": 3.5925721287433304e-05,
	"loss": 2.5158,
	"step": 3450
	},
	{
	"epoch": 0.6298925905698162,
	"grad_norm": 5.72164249420166,
	"learning_rate": 3.5624122862508724e-05,
	"loss": 2.4573,
	"step": 3460
	},
	{
	"epoch": 0.6317130893864918,
	"grad_norm": 5.604609489440918,
	"learning_rate": 3.5323093565034213e-05,
	"loss": 2.4427,
	"step": 3470
	},
	{
	"epoch": 0.6335335882031676,
	"grad_norm": 6.2562336921691895,
	"learning_rate": 3.502264531247644e-05,
	"loss": 2.5276,
	"step": 3480
	},
	{
	"epoch": 0.6353540870198434,
	"grad_norm": 5.994789123535156,
	"learning_rate": 3.4722789999299034e-05,
	"loss": 2.5015,
	"step": 3490
	},
	{
	"epoch": 0.6371745858365192,
	"grad_norm": 7.051544189453125,
	"learning_rate": 3.442353949649173e-05,
	"loss": 2.4955,
	"step": 3500
	},
	{
	"epoch": 0.638995084653195,
	"grad_norm": 5.279881000518799,
	"learning_rate": 3.412490565110034e-05,
	"loss": 2.5066,
	"step": 3510
	},
	{
	"epoch": 0.6408155834698708,
	"grad_norm": 5.663167476654053,
	"learning_rate": 3.382690028575789e-05,
	"loss": 2.4843,
	"step": 3520
	},
	{
	"epoch": 0.6426360822865466,
	"grad_norm": 6.197967052459717,
	"learning_rate": 3.352953519821637e-05,
	"loss": 2.4439,
	"step": 3530
	},
	{
	"epoch": 0.6444565811032222,
	"grad_norm": 6.703118324279785,
	"learning_rate": 3.3232822160879825e-05,
	"loss": 2.4902,
	"step": 3540
	},
	{
	"epoch": 0.646277079919898,
	"grad_norm": 6.075878143310547,
	"learning_rate": 3.2936772920338244e-05,
	"loss": 2.4375,
	"step": 3550
	},
	{
	"epoch": 0.6480975787365738,
	"grad_norm": 5.913654327392578,
	"learning_rate": 3.2641399196902505e-05,
	"loss": 2.4575,
	"step": 3560
	},
	{
	"epoch": 0.6499180775532496,
	"grad_norm": 5.623748779296875,
	"learning_rate": 3.234671268414041e-05,
	"loss": 2.5078,
	"step": 3570
	},
	{
	"epoch": 0.6517385763699254,
	"grad_norm": 4.9896745681762695,
	"learning_rate": 3.2052725048413734e-05,
	"loss": 2.461,
	"step": 3580
	},
	{
	"epoch": 0.6535590751866012,
	"grad_norm": 5.503573417663574,
	"learning_rate": 3.175944792841639e-05,
	"loss": 2.4964,
	"step": 3590
	},
	{
	"epoch": 0.6553795740032768,
	"grad_norm": 5.610907077789307,
	"learning_rate": 3.146689293471362e-05,
	"loss": 2.496,
	"step": 3600
	},
	{
	"epoch": 0.6572000728199526,
	"grad_norm": 5.222755432128906,
	"learning_rate": 3.117507164928235e-05,
	"loss": 2.4587,
	"step": 3610
	},
	{
	"epoch": 0.6590205716366284,
	"grad_norm": 5.29688024520874,
	"learning_rate": 3.0883995625052735e-05,
	"loss": 2.4976,
	"step": 3620
	},
	{
	"epoch": 0.6608410704533042,
	"grad_norm": 5.991846084594727,
	"learning_rate": 3.059367638545069e-05,
	"loss": 2.4668,
	"step": 3630
	},
	{
	"epoch": 0.66266156926998,
	"grad_norm": 5.622383117675781,
	"learning_rate": 3.030412542394176e-05,
	"loss": 2.4624,
	"step": 3640
	},
	{
	"epoch": 0.6644820680866558,
	"grad_norm": 5.628267288208008,
	"learning_rate": 3.001535420357607e-05,
	"loss": 2.4497,
	"step": 3650
	},
	{
	"epoch": 0.6663025669033316,
	"grad_norm": 5.707132339477539,
	"learning_rate": 2.972737415653456e-05,
	"loss": 2.4921,
	"step": 3660
	},
	{
	"epoch": 0.6681230657200072,
	"grad_norm": 6.638173580169678,
	"learning_rate": 2.9440196683676337e-05,
	"loss": 2.4978,
	"step": 3670
	},
	{
	"epoch": 0.669943564536683,
	"grad_norm": 6.14837121963501,
	"learning_rate": 2.915383315408736e-05,
	"loss": 2.4597,
	"step": 3680
	},
	{
	"epoch": 0.6717640633533588,
	"grad_norm": 5.452149391174316,
	"learning_rate": 2.8868294904630333e-05,
	"loss": 2.4789,
	"step": 3690
	},
	{
	"epoch": 0.6735845621700346,
	"grad_norm": 5.278966903686523,
	"learning_rate": 2.8583593239495875e-05,
	"loss": 2.4435,
	"step": 3700
	},
	{
	"epoch": 0.6754050609867104,
	"grad_norm": 5.96103048324585,
	"learning_rate": 2.8299739429755057e-05,
	"loss": 2.4103,
	"step": 3710
	},
	{
	"epoch": 0.6772255598033862,
	"grad_norm": 5.705805778503418,
	"learning_rate": 2.8016744712913164e-05,
	"loss": 2.494,
	"step": 3720
	},
	{
	"epoch": 0.6790460586200618,
	"grad_norm": 6.212954044342041,
	"learning_rate": 2.773462029246475e-05,
	"loss": 2.4419,
	"step": 3730
	},
	{
	"epoch": 0.6808665574367376,
	"grad_norm": 5.658579349517822,
	"learning_rate": 2.7453377337450182e-05,
	"loss": 2.4648,
	"step": 3740
	},
	{
	"epoch": 0.6826870562534134,
	"grad_norm": 6.050464630126953,
	"learning_rate": 2.7173026982013417e-05,
	"loss": 2.4964,
	"step": 3750
	},
	{
	"epoch": 0.6845075550700892,
	"grad_norm": 5.388469219207764,
	"learning_rate": 2.689358032496129e-05,
	"loss": 2.4463,
	"step": 3760
	},
	{
	"epoch": 0.686328053886765,
	"grad_norm": 5.987942695617676,
	"learning_rate": 2.661504842932402e-05,
	"loss": 2.4777,
	"step": 3770
	},
	{
	"epoch": 0.6881485527034408,
	"grad_norm": 20.632400512695312,
	"learning_rate": 2.633744232191726e-05,
	"loss": 2.4645,
	"step": 3780
	},
	{
	"epoch": 0.6899690515201166,
	"grad_norm": 5.323004245758057,
	"learning_rate": 2.6060772992905647e-05,
	"loss": 2.4832,
	"step": 3790
	},
	{
	"epoch": 0.6917895503367922,
	"grad_norm": 5.565816402435303,
	"learning_rate": 2.578505139536762e-05,
	"loss": 2.4677,
	"step": 3800
	},
	{
	"epoch": 0.693610049153468,
	"grad_norm": 6.668233394622803,
	"learning_rate": 2.5510288444861784e-05,
	"loss": 2.4372,
	"step": 3810
	},
	{
	"epoch": 0.6954305479701438,
	"grad_norm": 6.057459354400635,
	"learning_rate": 2.5236495018994844e-05,
	"loss": 2.4625,
	"step": 3820
	},
	{
	"epoch": 0.6972510467868196,
	"grad_norm": 5.716314315795898,
	"learning_rate": 2.4963681956990896e-05,
	"loss": 2.4582,
	"step": 3830
	},
	{
	"epoch": 0.6990715456034954,
	"grad_norm": 5.098658561706543,
	"learning_rate": 2.4691860059262427e-05,
	"loss": 2.449,
	"step": 3840
	},
	{
	"epoch": 0.7008920444201712,
	"grad_norm": 6.102919578552246,
	"learning_rate": 2.4421040086982587e-05,
	"loss": 2.4678,
	"step": 3850
	},
	{
	"epoch": 0.7027125432368468,
	"grad_norm": 6.12929630279541,
	"learning_rate": 2.4151232761659305e-05,
	"loss": 2.4162,
	"step": 3860
	},
	{
	"epoch": 0.7045330420535226,
	"grad_norm": 5.601887226104736,
	"learning_rate": 2.3882448764710698e-05,
	"loss": 2.4455,
	"step": 3870
	},
	{
	"epoch": 0.7063535408701984,
	"grad_norm": 5.384401798248291,
	"learning_rate": 2.3614698737042355e-05,
	"loss": 2.4618,
	"step": 3880
	},
	{
	"epoch": 0.7081740396868742,
	"grad_norm": 5.636379718780518,
	"learning_rate": 2.3347993278625933e-05,
	"loss": 2.43,
	"step": 3890
	},
	{
	"epoch": 0.70999453850355,
	"grad_norm": 6.716041088104248,
	"learning_rate": 2.3082342948079606e-05,
	"loss": 2.4177,
	"step": 3900
	},
	{
	"epoch": 0.7118150373202258,
	"grad_norm": 4.779394149780273,
	"learning_rate": 2.2817758262249988e-05,
	"loss": 2.4502,
	"step": 3910
	},
	{
	"epoch": 0.7136355361369016,
	"grad_norm": 5.225165843963623,
	"learning_rate": 2.2554249695795878e-05,
	"loss": 2.4954,
	"step": 3920
	},
	{
	"epoch": 0.7154560349535772,
	"grad_norm": 5.962668418884277,
	"learning_rate": 2.2291827680773508e-05,
	"loss": 2.4367,
	"step": 3930
	},
	{
	"epoch": 0.717276533770253,
	"grad_norm": 5.683213233947754,
	"learning_rate": 2.2030502606223534e-05,
	"loss": 2.4969,
	"step": 3940
	},
	{
	"epoch": 0.7190970325869288,
	"grad_norm": 5.069901466369629,
	"learning_rate": 2.1770284817759767e-05,
	"loss": 2.4462,
	"step": 3950
	},
	{
	"epoch": 0.7209175314036046,
	"grad_norm": 5.872584819793701,
	"learning_rate": 2.1511184617159652e-05,
	"loss": 2.4353,
	"step": 3960
	},
	{
	"epoch": 0.7227380302202804,
	"grad_norm": 5.787328720092773,
	"learning_rate": 2.125321226195634e-05,
	"loss": 2.4174,
	"step": 3970
	},
	{
	"epoch": 0.7245585290369562,
	"grad_norm": 8.6191987991333,
	"learning_rate": 2.0996377965032638e-05,
	"loss": 2.4482,
	"step": 3980
	},
	{
	"epoch": 0.7263790278536318,
	"grad_norm": 5.412010192871094,
	"learning_rate": 2.074069189421673e-05,
	"loss": 2.4207,
	"step": 3990
	},
	{
	"epoch": 0.7281995266703076,
	"grad_norm": 5.450544834136963,
	"learning_rate": 2.0486164171879613e-05,
	"loss": 2.4624,
	"step": 4000
	},
	{
	"epoch": 0.7281995266703076,
	"eval_loss": 2.449294328689575,
	"eval_runtime": 1012.1688,
	"eval_samples_per_second": 9.649,
	"eval_steps_per_second": 1.206,
	"step": 4000
	},
	{
	"epoch": 0.7300200254869834,
	"grad_norm": 5.740320205688477,
	"learning_rate": 2.0232804874534313e-05,
	"loss": 2.4582,
	"step": 4010
	},
	{
	"epoch": 0.7318405243036592,
	"grad_norm": 5.987521171569824,
	"learning_rate": 1.998062403243704e-05,
	"loss": 2.4499,
	"step": 4020
	},
	{
	"epoch": 0.733661023120335,
	"grad_norm": 5.337474346160889,
	"learning_rate": 1.9729631629190042e-05,
	"loss": 2.4598,
	"step": 4030
	},
	{
	"epoch": 0.7354815219370108,
	"grad_norm": 5.655992031097412,
	"learning_rate": 1.9479837601346457e-05,
	"loss": 2.4601,
	"step": 4040
	},
	{
	"epoch": 0.7373020207536866,
	"grad_norm": 5.7331414222717285,
	"learning_rate": 1.923125183801678e-05,
	"loss": 2.4445,
	"step": 4050
	},
	{
	"epoch": 0.7391225195703622,
	"grad_norm": 5.471503257751465,
	"learning_rate": 1.898388418047753e-05,
	"loss": 2.4683,
	"step": 4060
	},
	{
	"epoch": 0.740943018387038,
	"grad_norm": 5.409184455871582,
	"learning_rate": 1.87377444217815e-05,
	"loss": 2.4358,
	"step": 4070
	},
	{
	"epoch": 0.7427635172037138,
	"grad_norm": 5.579779148101807,
	"learning_rate": 1.8492842306370182e-05,
	"loss": 2.4989,
	"step": 4080
	},
	{
	"epoch": 0.7445840160203896,
	"grad_norm": 5.366626262664795,
	"learning_rate": 1.8249187529687895e-05,
	"loss": 2.4102,
	"step": 4090
	},
	{
	"epoch": 0.7464045148370654,
	"grad_norm": 5.263418674468994,
	"learning_rate": 1.8006789737797984e-05,
	"loss": 2.4573,
	"step": 4100
	},
	{
	"epoch": 0.7482250136537412,
	"grad_norm": 5.129177570343018,
	"learning_rate": 1.7765658527000966e-05,
	"loss": 2.4792,
	"step": 4110
	},
	{
	"epoch": 0.7500455124704168,
	"grad_norm": 6.237401962280273,
	"learning_rate": 1.7525803443454615e-05,
	"loss": 2.479,
	"step": 4120
	},
	{
	"epoch": 0.7518660112870926,
	"grad_norm": 6.163425445556641,
	"learning_rate": 1.728723398279603e-05,
	"loss": 2.4222,
	"step": 4130
	},
	{
	"epoch": 0.7536865101037684,
	"grad_norm": 5.254932403564453,
	"learning_rate": 1.7049959589765686e-05,
	"loss": 2.4307,
	"step": 4140
	},
	{
	"epoch": 0.7555070089204442,
	"grad_norm": 6.144068717956543,
	"learning_rate": 1.6813989657833534e-05,
	"loss": 2.4923,
	"step": 4150
	},
	{
	"epoch": 0.75732750773712,
	"grad_norm": 5.038397789001465,
	"learning_rate": 1.6579333528827205e-05,
	"loss": 2.4732,
	"step": 4160
	},
	{
	"epoch": 0.7591480065537958,
	"grad_norm": 5.2848076820373535,
	"learning_rate": 1.634600049256204e-05,
	"loss": 2.4651,
	"step": 4170
	},
	{
	"epoch": 0.7609685053704716,
	"grad_norm": 5.274468898773193,
	"learning_rate": 1.611399978647342e-05,
	"loss": 2.4407,
	"step": 4180
	},
	{
	"epoch": 0.7627890041871472,
	"grad_norm": 5.039272308349609,
	"learning_rate": 1.588334059525099e-05,
	"loss": 2.4892,
	"step": 4190
	},
	{
	"epoch": 0.764609503003823,
	"grad_norm": 5.7419867515563965,
	"learning_rate": 1.5654032050475138e-05,
	"loss": 2.4456,
	"step": 4200
	},
	{
	"epoch": 0.7664300018204988,
	"grad_norm": 5.30146598815918,
	"learning_rate": 1.5426083230255405e-05,
	"loss": 2.4515,
	"step": 4210
	},
	{
	"epoch": 0.7682505006371746,
	"grad_norm": 4.977199077606201,
	"learning_rate": 1.5199503158871115e-05,
	"loss": 2.4317,
	"step": 4220
	},
	{
	"epoch": 0.7700709994538504,
	"grad_norm": 5.318095684051514,
	"learning_rate": 1.4974300806414082e-05,
	"loss": 2.403,
	"step": 4230
	},
	{
	"epoch": 0.7718914982705262,
	"grad_norm": 5.638497352600098,
	"learning_rate": 1.4750485088433592e-05,
	"loss": 2.4327,
	"step": 4240
	},
	{
	"epoch": 0.7737119970872018,
	"grad_norm": 5.739340305328369,
	"learning_rate": 1.4528064865583301e-05,
	"loss": 2.4266,
	"step": 4250
	},
	{
	"epoch": 0.7755324959038776,
	"grad_norm": 4.749205112457275,
	"learning_rate": 1.4307048943270606e-05,
	"loss": 2.4136,
	"step": 4260
	},
	{
	"epoch": 0.7773529947205534,
	"grad_norm": 5.616302490234375,
	"learning_rate": 1.4087446071307903e-05,
	"loss": 2.4197,
	"step": 4270
	},
	{
	"epoch": 0.7791734935372292,
	"grad_norm": 5.402510643005371,
	"learning_rate": 1.3869264943566263e-05,
	"loss": 2.4194,
	"step": 4280
	},
	{
	"epoch": 0.780993992353905,
	"grad_norm": 5.278769493103027,
	"learning_rate": 1.3652514197631277e-05,
	"loss": 2.4351,
	"step": 4290
	},
	{
	"epoch": 0.7828144911705808,
	"grad_norm": 6.828596115112305,
	"learning_rate": 1.343720241446103e-05,
	"loss": 2.3813,
	"step": 4300
	},
	{
	"epoch": 0.7846349899872566,
	"grad_norm": 5.306332588195801,
	"learning_rate": 1.322333811804643e-05,
	"loss": 2.4133,
	"step": 4310
	},
	{
	"epoch": 0.7864554888039322,
	"grad_norm": 5.437227249145508,
	"learning_rate": 1.3010929775073765e-05,
	"loss": 2.4166,
	"step": 4320
	},
	{
	"epoch": 0.788275987620608,
	"grad_norm": 5.493254661560059,
	"learning_rate": 1.2799985794589497e-05,
	"loss": 2.3842,
	"step": 4330
	},
	{
	"epoch": 0.7900964864372838,
	"grad_norm": 5.259057521820068,
	"learning_rate": 1.2590514527667336e-05,
	"loss": 2.3783,
	"step": 4340
	},
	{
	"epoch": 0.7919169852539596,
	"grad_norm": 5.750987529754639,
	"learning_rate": 1.2382524267077645e-05,
	"loss": 2.4202,
	"step": 4350
	},
	{
	"epoch": 0.7937374840706354,
	"grad_norm": 4.952456951141357,
	"learning_rate": 1.2176023246959133e-05,
	"loss": 2.4393,
	"step": 4360
	},
	{
	"epoch": 0.7955579828873112,
	"grad_norm": 5.3008713722229,
	"learning_rate": 1.1971019642492942e-05,
	"loss": 2.375,
	"step": 4370
	},
	{
	"epoch": 0.7973784817039868,
	"grad_norm": 4.872366428375244,
	"learning_rate": 1.176752156957886e-05,
	"loss": 2.4257,
	"step": 4380
	},
	{
	"epoch": 0.7991989805206626,
	"grad_norm": 5.488797664642334,
	"learning_rate": 1.1565537084514123e-05,
	"loss": 2.4424,
	"step": 4390
	},
	{
	"epoch": 0.8010194793373384,
	"grad_norm": 5.145867824554443,
	"learning_rate": 1.1365074183674468e-05,
	"loss": 2.4806,
	"step": 4400
	},
	{
	"epoch": 0.8028399781540142,
	"grad_norm": 5.343238353729248,
	"learning_rate": 1.116614080319754e-05,
	"loss": 2.4321,
	"step": 4410
	},
	{
	"epoch": 0.80466047697069,
	"grad_norm": 5.240965366363525,
	"learning_rate": 1.0968744818668691e-05,
	"loss": 2.4358,
	"step": 4420
	},
	{
	"epoch": 0.8064809757873658,
	"grad_norm": 5.5220513343811035,
	"learning_rate": 1.0772894044809229e-05,
	"loss": 2.442,
	"step": 4430
	},
	{
	"epoch": 0.8083014746040416,
	"grad_norm": 4.8629045486450195,
	"learning_rate": 1.0578596235166998e-05,
	"loss": 2.4567,
	"step": 4440
	},
	{
	"epoch": 0.8101219734207172,
	"grad_norm": 5.297680854797363,
	"learning_rate": 1.0385859081809508e-05,
	"loss": 2.4544,
	"step": 4450
	},
	{
	"epoch": 0.811942472237393,
	"grad_norm": 5.134615898132324,
	"learning_rate": 1.0194690215019292e-05,
	"loss": 2.4656,
	"step": 4460
	},
	{
	"epoch": 0.8137629710540688,
	"grad_norm": 5.012113571166992,
	"learning_rate": 1.0005097202991948e-05,
	"loss": 2.382,
	"step": 4470
	},
	{
	"epoch": 0.8155834698707446,
	"grad_norm": 5.369142532348633,
	"learning_rate": 9.817087551536414e-06,
	"loss": 2.4584,
	"step": 4480
	},
	{
	"epoch": 0.8174039686874204,
	"grad_norm": 5.545107841491699,
	"learning_rate": 9.630668703777922e-06,
	"loss": 2.4013,
	"step": 4490
	},
	{
	"epoch": 0.8192244675040962,
	"grad_norm": 4.933434963226318,
	"learning_rate": 9.445848039863252e-06,
	"loss": 2.4516,
	"step": 4500
	},
	{
	"epoch": 0.8210449663207718,
	"grad_norm": 4.916785717010498,
	"learning_rate": 9.262632876668591e-06,
	"loss": 2.4555,
	"step": 4510
	},
	{
	"epoch": 0.8228654651374476,
	"grad_norm": 5.11759090423584,
	"learning_rate": 9.08103046750986e-06,
	"loss": 2.447,
	"step": 4520
	},
	{
	"epoch": 0.8246859639541234,
	"grad_norm": 5.081522464752197,
	"learning_rate": 8.901048001855583e-06,
	"loss": 2.4004,
	"step": 4530
	},
	{
	"epoch": 0.8265064627707992,
	"grad_norm": 5.203310489654541,
	"learning_rate": 8.722692605042248e-06,
	"loss": 2.4237,
	"step": 4540
	},
	{
	"epoch": 0.828326961587475,
	"grad_norm": 5.090500831604004,
	"learning_rate": 8.545971337992197e-06,
	"loss": 2.4342,
	"step": 4550
	},
	{
	"epoch": 0.8301474604041508,
	"grad_norm": 5.330081462860107,
	"learning_rate": 8.37089119693411e-06,
	"loss": 2.3922,
	"step": 4560
	},
	{
	"epoch": 0.8319679592208266,
	"grad_norm": 5.339773178100586,
	"learning_rate": 8.197459113126067e-06,
	"loss": 2.4342,
	"step": 4570
	},
	{
	"epoch": 0.8337884580375022,
	"grad_norm": 5.109127044677734,
	"learning_rate": 8.02568195258107e-06,
	"loss": 2.4207,
	"step": 4580
	},
	{
	"epoch": 0.835608956854178,
	"grad_norm": 5.223607540130615,
	"learning_rate": 7.855566515795282e-06,
	"loss": 2.383,
	"step": 4590
	},
	{
	"epoch": 0.8374294556708538,
	"grad_norm": 5.024397373199463,
	"learning_rate": 7.687119537478799e-06,
	"loss": 2.4197,
	"step": 4600
	},
	{
	"epoch": 0.8392499544875296,
	"grad_norm": 5.112728595733643,
	"learning_rate": 7.52034768628902e-06,
	"loss": 2.4399,
	"step": 4610
	},
	{
	"epoch": 0.8410704533042054,
	"grad_norm": 5.149270057678223,
	"learning_rate": 7.3552575645666036e-06,
	"loss": 2.417,
	"step": 4620
	},
	{
	"epoch": 0.8428909521208812,
	"grad_norm": 5.0890350341796875,
	"learning_rate": 7.191855708074152e-06,
	"loss": 2.4217,
	"step": 4630
	},
	{
	"epoch": 0.8447114509375568,
	"grad_norm": 5.196211338043213,
	"learning_rate": 7.030148585737406e-06,
	"loss": 2.4351,
	"step": 4640
	},
	{
	"epoch": 0.8465319497542326,
	"grad_norm": 5.102319717407227,
	"learning_rate": 6.870142599389217e-06,
	"loss": 2.4397,
	"step": 4650
	},
	{
	"epoch": 0.8483524485709084,
	"grad_norm": 5.2318220138549805,
	"learning_rate": 6.711844083516022e-06,
	"loss": 2.3708,
	"step": 4660
	},
	{
	"epoch": 0.8501729473875842,
	"grad_norm": 5.27686071395874,
	"learning_rate": 6.555259305007139e-06,
	"loss": 2.4018,
	"step": 4670
	},
	{
	"epoch": 0.85199344620426,
	"grad_norm": 5.138775825500488,
	"learning_rate": 6.400394462906612e-06,
	"loss": 2.4244,
	"step": 4680
	},
	{
	"epoch": 0.8538139450209358,
	"grad_norm": 4.929832935333252,
	"learning_rate": 6.247255688167852e-06,
	"loss": 2.3637,
	"step": 4690
	},
	{
	"epoch": 0.8556344438376116,
	"grad_norm": 5.328685283660889,
	"learning_rate": 6.09584904341085e-06,
	"loss": 2.4037,
	"step": 4700
	},
	{
	"epoch": 0.8574549426542872,
	"grad_norm": 4.969110012054443,
	"learning_rate": 5.946180522682227e-06,
	"loss": 2.4054,
	"step": 4710
	},
	{
	"epoch": 0.859275441470963,
	"grad_norm": 4.729069232940674,
	"learning_rate": 5.798256051217882e-06,
	"loss": 2.419,
	"step": 4720
	},
	{
	"epoch": 0.8610959402876388,
	"grad_norm": 4.847239971160889,
	"learning_rate": 5.652081485208482e-06,
	"loss": 2.4067,
	"step": 4730
	},
	{
	"epoch": 0.8629164391043146,
	"grad_norm": 4.862872123718262,
	"learning_rate": 5.507662611567565e-06,
	"loss": 2.4237,
	"step": 4740
	},
	{
	"epoch": 0.8647369379209904,
	"grad_norm": 4.765954971313477,
	"learning_rate": 5.365005147702462e-06,
	"loss": 2.3841,
	"step": 4750
	},
	{
	"epoch": 0.8665574367376662,
	"grad_norm": 5.191616535186768,
	"learning_rate": 5.224114741287922e-06,
	"loss": 2.4473,
	"step": 4760
	},
	{
	"epoch": 0.8683779355543418,
	"grad_norm": 5.6387619972229,
	"learning_rate": 5.084996970042599e-06,
	"loss": 2.3946,
	"step": 4770
	},
	{
	"epoch": 0.8701984343710176,
	"grad_norm": 4.992214202880859,
	"learning_rate": 4.947657341508166e-06,
	"loss": 2.4029,
	"step": 4780
	},
	{
	"epoch": 0.8720189331876934,
	"grad_norm": 4.994503021240234,
	"learning_rate": 4.812101292831283e-06,
	"loss": 2.4212,
	"step": 4790
	},
	{
	"epoch": 0.8738394320043692,
	"grad_norm": 5.3045220375061035,
	"learning_rate": 4.678334190548378e-06,
	"loss": 2.4025,
	"step": 4800
	},
	{
	"epoch": 0.875659930821045,
	"grad_norm": 5.20510196685791,
	"learning_rate": 4.546361330373178e-06,
	"loss": 2.4087,
	"step": 4810
	},
	{
	"epoch": 0.8774804296377208,
	"grad_norm": 5.151695728302002,
	"learning_rate": 4.41618793698706e-06,
	"loss": 2.3748,
	"step": 4820
	},
	{
	"epoch": 0.8793009284543966,
	"grad_norm": 5.292723178863525,
	"learning_rate": 4.287819163832179e-06,
	"loss": 2.4068,
	"step": 4830
	},
	{
	"epoch": 0.8811214272710722,
	"grad_norm": 5.057366847991943,
	"learning_rate": 4.161260092907476e-06,
	"loss": 2.4191,
	"step": 4840
	},
	{
	"epoch": 0.882941926087748,
	"grad_norm": 5.375776290893555,
	"learning_rate": 4.0365157345675255e-06,
	"loss": 2.4085,
	"step": 4850
	},
	{
	"epoch": 0.8847624249044238,
	"grad_norm": 5.110659599304199,
	"learning_rate": 3.91359102732407e-06,
	"loss": 2.3547,
	"step": 4860
	},
	{
	"epoch": 0.8865829237210996,
	"grad_norm": 5.154110908508301,
	"learning_rate": 3.792490837650642e-06,
	"loss": 2.3731,
	"step": 4870
	},
	{
	"epoch": 0.8884034225377754,
	"grad_norm": 4.55220365524292,
	"learning_rate": 3.673219959789803e-06,
	"loss": 2.3956,
	"step": 4880
	},
	{
	"epoch": 0.8902239213544512,
	"grad_norm": 5.095583915710449,
	"learning_rate": 3.5557831155633715e-06,
	"loss": 2.4077,
	"step": 4890
	},
	{
	"epoch": 0.8920444201711268,
	"grad_norm": 5.244335174560547,
	"learning_rate": 3.4401849541855493e-06,
	"loss": 2.4164,
	"step": 4900
	},
	{
	"epoch": 0.8938649189878026,
	"grad_norm": 5.595185279846191,
	"learning_rate": 3.3264300520787607e-06,
	"loss": 2.4055,
	"step": 4910
	},
	{
	"epoch": 0.8956854178044784,
	"grad_norm": 5.167870044708252,
	"learning_rate": 3.214522912692547e-06,
	"loss": 2.4064,
	"step": 4920
	},
	{
	"epoch": 0.8975059166211542,
	"grad_norm": 4.97356653213501,
	"learning_rate": 3.1044679663252807e-06,
	"loss": 2.4249,
	"step": 4930
	},
	{
	"epoch": 0.89932641543783,
	"grad_norm": 5.116016387939453,
	"learning_rate": 2.996269569948745e-06,
	"loss": 2.3617,
	"step": 4940
	},
	{
	"epoch": 0.9011469142545058,
	"grad_norm": 5.192502498626709,
	"learning_rate": 2.889932007035645e-06,
	"loss": 2.3889,
	"step": 4950
	},
	{
	"epoch": 0.9029674130711816,
	"grad_norm": 4.694880485534668,
	"learning_rate": 2.7854594873900463e-06,
	"loss": 2.4309,
	"step": 4960
	},
	{
	"epoch": 0.9047879118878572,
	"grad_norm": 4.840787887573242,
	"learning_rate": 2.6828561469807e-06,
	"loss": 2.4412,
	"step": 4970
	},
	{
	"epoch": 0.906608410704533,
	"grad_norm": 5.104063987731934,
	"learning_rate": 2.582126047777328e-06,
	"loss": 2.4295,
	"step": 4980
	},
	{
	"epoch": 0.9084289095212088,
	"grad_norm": 4.761752605438232,
	"learning_rate": 2.4832731775897844e-06,
	"loss": 2.4125,
	"step": 4990
	},
	{
	"epoch": 0.9102494083378846,
	"grad_norm": 4.580504894256592,
	"learning_rate": 2.3863014499101775e-06,
	"loss": 2.4762,
	"step": 5000
	},
	{
	"epoch": 0.9102494083378846,
	"eval_loss": 2.4089949131011963,
	"eval_runtime": 1012.4809,
	"eval_samples_per_second": 9.646,
	"eval_steps_per_second": 1.206,
	"step": 5000
	},
	{
	"epoch": 0.9120699071545604,
	"grad_norm": 4.849244117736816,
	"learning_rate": 2.291214703757982e-06,
	"loss": 2.3958,
	"step": 5010
	},
	{
	"epoch": 0.9138904059712362,
	"grad_norm": 4.8128204345703125,
	"learning_rate": 2.1980167035280163e-06,
	"loss": 2.4288,
	"step": 5020
	},
	{
	"epoch": 0.9157109047879118,
	"grad_norm": 5.573403835296631,
	"learning_rate": 2.1067111388414163e-06,
	"loss": 2.4134,
	"step": 5030
	},
	{
	"epoch": 0.9175314036045876,
	"grad_norm": 4.9487504959106445,
	"learning_rate": 2.0173016243995866e-06,
	"loss": 2.4095,
	"step": 5040
	},
	{
	"epoch": 0.9193519024212634,
	"grad_norm": 4.933927536010742,
	"learning_rate": 1.929791699841066e-06,
	"loss": 2.4014,
	"step": 5050
	},
	{
	"epoch": 0.9211724012379392,
	"grad_norm": 5.116062641143799,
	"learning_rate": 1.844184829601453e-06,
	"loss": 2.4196,
	"step": 5060
	},
	{
	"epoch": 0.922992900054615,
	"grad_norm": 4.888516902923584,
	"learning_rate": 1.7604844027761802e-06,
	"loss": 2.4418,
	"step": 5070
	},
	{
	"epoch": 0.9248133988712908,
	"grad_norm": 4.990447998046875,
	"learning_rate": 1.6786937329864027e-06,
	"loss": 2.4049,
	"step": 5080
	},
	{
	"epoch": 0.9266338976879666,
	"grad_norm": 4.672518253326416,
	"learning_rate": 1.5988160582477818e-06,
	"loss": 2.3873,
	"step": 5090
	},
	{
	"epoch": 0.9284543965046422,
	"grad_norm": 5.029353618621826,
	"learning_rate": 1.5208545408423092e-06,
	"loss": 2.4754,
	"step": 5100
	},
	{
	"epoch": 0.930274895321318,
	"grad_norm": 4.660059928894043,
	"learning_rate": 1.444812267193102e-06,
	"loss": 2.4081,
	"step": 5110
	},
	{
	"epoch": 0.9320953941379938,
	"grad_norm": 5.001034259796143,
	"learning_rate": 1.3706922477422336e-06,
	"loss": 2.4014,
	"step": 5120
	},
	{
	"epoch": 0.9339158929546696,
	"grad_norm": 5.1275858879089355,
	"learning_rate": 1.2984974168315234e-06,
	"loss": 2.4251,
	"step": 5130
	},
	{
	"epoch": 0.9357363917713454,
	"grad_norm": 4.893324375152588,
	"learning_rate": 1.2282306325864135e-06,
	"loss": 2.4196,
	"step": 5140
	},
	{
	"epoch": 0.9375568905880212,
	"grad_norm": 4.734968662261963,
	"learning_rate": 1.1598946768027863e-06,
	"loss": 2.401,
	"step": 5150
	},
	{
	"epoch": 0.9393773894046968,
	"grad_norm": 4.66255521774292,
	"learning_rate": 1.0934922548368254e-06,
	"loss": 2.3846,
	"step": 5160
	},
	{
	"epoch": 0.9411978882213726,
	"grad_norm": 4.771427631378174,
	"learning_rate": 1.0290259954979397e-06,
	"loss": 2.3953,
	"step": 5170
	},
	{
	"epoch": 0.9430183870380484,
	"grad_norm": 4.673166275024414,
	"learning_rate": 9.664984509446917e-07,
	"loss": 2.3694,
	"step": 5180
	},
	{
	"epoch": 0.9448388858547242,
	"grad_norm": 4.778134346008301,
	"learning_rate": 9.059120965837331e-07,
	"loss": 2.3948,
	"step": 5190
	},
	{
	"epoch": 0.9466593846714,
	"grad_norm": 4.706231594085693,
	"learning_rate": 8.472693309718283e-07,
	"loss": 2.4153,
	"step": 5200
	},
	{
	"epoch": 0.9484798834880758,
	"grad_norm": 4.645259380340576,
	"learning_rate": 7.905724757208965e-07,
	"loss": 2.3806,
	"step": 5210
	},
	{
	"epoch": 0.9503003823047516,
	"grad_norm": 5.04796838760376,
	"learning_rate": 7.358237754060915e-07,
	"loss": 2.454,
	"step": 5220
	},
	{
	"epoch": 0.9521208811214272,
	"grad_norm": 4.7881646156311035,
	"learning_rate": 6.830253974769496e-07,
	"loss": 2.4161,
	"step": 5230
	},
	{
	"epoch": 0.953941379938103,
	"grad_norm": 4.7254743576049805,
	"learning_rate": 6.321794321715757e-07,
	"loss": 2.4715,
	"step": 5240
	},
	{
	"epoch": 0.9557618787547788,
	"grad_norm": 5.13754415512085,
	"learning_rate": 5.832878924338869e-07,
	"loss": 2.4191,
	"step": 5250
	},
	{
	"epoch": 0.9575823775714546,
	"grad_norm": 4.781599998474121,
	"learning_rate": 5.363527138339597e-07,
	"loss": 2.4127,
	"step": 5260
	},
	{
	"epoch": 0.9594028763881304,
	"grad_norm": 4.541421413421631,
	"learning_rate": 4.913757544913355e-07,
	"loss": 2.3908,
	"step": 5270
	},
	{
	"epoch": 0.9612233752048062,
	"grad_norm": 5.078845500946045,
	"learning_rate": 4.4835879500153556e-07,
	"loss": 2.4303,
	"step": 5280
	},
	{
	"epoch": 0.9630438740214818,
	"grad_norm": 4.745322227478027,
	"learning_rate": 4.0730353836549993e-07,
	"loss": 2.4046,
	"step": 5290
	},
	{
	"epoch": 0.9648643728381576,
	"grad_norm": 4.688536643981934,
	"learning_rate": 3.6821160992221993e-07,
	"loss": 2.4456,
	"step": 5300
	},
	{
	"epoch": 0.9666848716548334,
	"grad_norm": 4.9088592529296875,
	"learning_rate": 3.310845572843557e-07,
	"loss": 2.3846,
	"step": 5310
	},
	{
	"epoch": 0.9685053704715092,
	"grad_norm": 5.126766681671143,
	"learning_rate": 2.959238502769912e-07,
	"loss": 2.4093,
	"step": 5320
	},
	{
	"epoch": 0.970325869288185,
	"grad_norm": 4.49152946472168,
	"learning_rate": 2.6273088087943597e-07,
	"loss": 2.3837,
	"step": 5330
	},
	{
	"epoch": 0.9721463681048608,
	"grad_norm": 4.944559097290039,
	"learning_rate": 2.315069631701139e-07,
	"loss": 2.3791,
	"step": 5340
	},
	{
	"epoch": 0.9739668669215366,
	"grad_norm": 4.91040563583374,
	"learning_rate": 2.022533332745602e-07,
	"loss": 2.4035,
	"step": 5350
	},
	{
	"epoch": 0.9757873657382122,
	"grad_norm": 4.91538143157959,
	"learning_rate": 1.7497114931644965e-07,
	"loss": 2.4057,
	"step": 5360
	},
	{
	"epoch": 0.977607864554888,
	"grad_norm": 5.63076114654541,
	"learning_rate": 1.496614913717831e-07,
	"loss": 2.3627,
	"step": 5370
	},
	{
	"epoch": 0.9794283633715638,
	"grad_norm": 4.944591045379639,
	"learning_rate": 1.2632536142609397e-07,
	"loss": 2.3662,
	"step": 5380
	},
	{
	"epoch": 0.9812488621882396,
	"grad_norm": 4.864638328552246,
	"learning_rate": 1.0496368333482442e-07,
	"loss": 2.3704,
	"step": 5390
	},
	{
	"epoch": 0.9830693610049154,
	"grad_norm": 4.991931438446045,
	"learning_rate": 8.557730278669906e-08,
	"loss": 2.3767,
	"step": 5400
	},
	{
	"epoch": 0.9848898598215912,
	"grad_norm": 4.382468223571777,
	"learning_rate": 6.816698727029614e-08,
	"loss": 2.4112,
	"step": 5410
	},
	{
	"epoch": 0.9867103586382668,
	"grad_norm": 44.841453552246094,
	"learning_rate": 5.273342604361631e-08,
	"loss": 2.4092,
	"step": 5420
	},
	{
	"epoch": 0.9885308574549426,
	"grad_norm": 4.815988063812256,
	"learning_rate": 3.9277230106832264e-08,
	"loss": 2.4256,
	"step": 5430
	},
	{
	"epoch": 0.9903513562716184,
	"grad_norm": 4.87392520904541,
	"learning_rate": 2.7798932178080274e-08,
	"loss": 2.3936,
	"step": 5440
	},
	{
	"epoch": 0.9921718550882942,
	"grad_norm": 5.1465559005737305,
	"learning_rate": 1.829898667237151e-08,
	"loss": 2.3805,
	"step": 5450
	},
	{
	"epoch": 0.99399235390497,
	"grad_norm": 4.486802101135254,
	"learning_rate": 1.0777769683617544e-08,
	"loss": 2.3492,
	"step": 5460
	},
	{
	"epoch": 0.9958128527216458,
	"grad_norm": 5.0049614906311035,
	"learning_rate": 5.2355789697144945e-09,
	"loss": 2.4414,
	"step": 5470
	},
	{
	"epoch": 0.9976333515383216,
	"grad_norm": 4.7070441246032715,
	"learning_rate": 1.6726339407857616e-09,
	"loss": 2.4294,
	"step": 5480
	},
	{
	"epoch": 0.9994538503549972,
	"grad_norm": 4.9832539558410645,
	"learning_rate": 8.907565046678557e-11,
	"loss": 2.3724,
	"step": 5490
	}
	],
	"logging_steps": 10,
	"max_steps": 5493,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1.2843428615741768e+18,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}