{ "best_global_step": null, "best_metric": null, "best_model_checkpoint": null, "epoch": 10.0, "eval_steps": 500, "global_step": 3750, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.02666666666666667, "grad_norm": 8.985211372375488, "learning_rate": 4.787234042553191e-06, "loss": 1.0277, "step": 10 }, { "epoch": 0.05333333333333334, "grad_norm": 3.463859796524048, "learning_rate": 1.0106382978723404e-05, "loss": 0.4612, "step": 20 }, { "epoch": 0.08, "grad_norm": 2.2001125812530518, "learning_rate": 1.5425531914893617e-05, "loss": 0.2376, "step": 30 }, { "epoch": 0.10666666666666667, "grad_norm": 1.458909034729004, "learning_rate": 2.074468085106383e-05, "loss": 0.2205, "step": 40 }, { "epoch": 0.13333333333333333, "grad_norm": 1.930877685546875, "learning_rate": 2.6063829787234046e-05, "loss": 0.1645, "step": 50 }, { "epoch": 0.16, "grad_norm": 1.164797306060791, "learning_rate": 3.1382978723404254e-05, "loss": 0.1426, "step": 60 }, { "epoch": 0.18666666666666668, "grad_norm": 1.1787152290344238, "learning_rate": 3.670212765957447e-05, "loss": 0.1227, "step": 70 }, { "epoch": 0.21333333333333335, "grad_norm": 1.4432530403137207, "learning_rate": 4.2021276595744684e-05, "loss": 0.0934, "step": 80 }, { "epoch": 0.24, "grad_norm": 1.1106737852096558, "learning_rate": 4.734042553191489e-05, "loss": 0.088, "step": 90 }, { "epoch": 0.26666666666666666, "grad_norm": 1.230010986328125, "learning_rate": 5.2659574468085106e-05, "loss": 0.089, "step": 100 }, { "epoch": 0.29333333333333333, "grad_norm": 0.6151750683784485, "learning_rate": 5.797872340425532e-05, "loss": 0.0776, "step": 110 }, { "epoch": 0.32, "grad_norm": 1.0353306531906128, "learning_rate": 6.329787234042554e-05, "loss": 0.0777, "step": 120 }, { "epoch": 0.3466666666666667, "grad_norm": 0.805105447769165, "learning_rate": 6.861702127659574e-05, "loss": 0.0653, "step": 130 }, { "epoch": 0.37333333333333335, "grad_norm": 0.9620193243026733, "learning_rate": 7.393617021276597e-05, "loss": 0.0642, "step": 140 }, { "epoch": 0.4, "grad_norm": 0.8269532918930054, "learning_rate": 7.925531914893617e-05, "loss": 0.0569, "step": 150 }, { "epoch": 0.4266666666666667, "grad_norm": 0.5412011742591858, "learning_rate": 8.457446808510638e-05, "loss": 0.0546, "step": 160 }, { "epoch": 0.4533333333333333, "grad_norm": 0.9435767531394958, "learning_rate": 8.98936170212766e-05, "loss": 0.0533, "step": 170 }, { "epoch": 0.48, "grad_norm": 0.8802369832992554, "learning_rate": 9.521276595744681e-05, "loss": 0.0542, "step": 180 }, { "epoch": 0.5066666666666667, "grad_norm": 0.6245200634002686, "learning_rate": 9.999998055303218e-05, "loss": 0.054, "step": 190 }, { "epoch": 0.5333333333333333, "grad_norm": 0.5157750844955444, "learning_rate": 9.999764693519729e-05, "loss": 0.0593, "step": 200 }, { "epoch": 0.56, "grad_norm": 0.4610680937767029, "learning_rate": 9.999142413179632e-05, "loss": 0.0497, "step": 210 }, { "epoch": 0.5866666666666667, "grad_norm": 0.6086261868476868, "learning_rate": 9.998131262688476e-05, "loss": 0.0421, "step": 220 }, { "epoch": 0.6133333333333333, "grad_norm": 0.8495492935180664, "learning_rate": 9.996731320701005e-05, "loss": 0.0464, "step": 230 }, { "epoch": 0.64, "grad_norm": 0.5247445702552795, "learning_rate": 9.994942696115023e-05, "loss": 0.0523, "step": 240 }, { "epoch": 0.6666666666666666, "grad_norm": 0.35035067796707153, "learning_rate": 9.992765528062938e-05, "loss": 0.046, "step": 250 }, { "epoch": 0.6933333333333334, "grad_norm": 0.5744026899337769, "learning_rate": 9.990199985900933e-05, "loss": 0.0462, "step": 260 }, { "epoch": 0.72, "grad_norm": 0.4962559938430786, "learning_rate": 9.987246269195788e-05, "loss": 0.0437, "step": 270 }, { "epoch": 0.7466666666666667, "grad_norm": 0.49948856234550476, "learning_rate": 9.983904607709364e-05, "loss": 0.0455, "step": 280 }, { "epoch": 0.7733333333333333, "grad_norm": 0.6499254107475281, "learning_rate": 9.98017526138073e-05, "loss": 0.0431, "step": 290 }, { "epoch": 0.8, "grad_norm": 0.6874787211418152, "learning_rate": 9.97605852030593e-05, "loss": 0.0481, "step": 300 }, { "epoch": 0.8266666666666667, "grad_norm": 0.9705828428268433, "learning_rate": 9.97155470471544e-05, "loss": 0.0436, "step": 310 }, { "epoch": 0.8533333333333334, "grad_norm": 0.5680714249610901, "learning_rate": 9.966664164949236e-05, "loss": 0.043, "step": 320 }, { "epoch": 0.88, "grad_norm": 0.3350383937358856, "learning_rate": 9.961387281429557e-05, "loss": 0.04, "step": 330 }, { "epoch": 0.9066666666666666, "grad_norm": 0.5094900727272034, "learning_rate": 9.9557244646313e-05, "loss": 0.0367, "step": 340 }, { "epoch": 0.9333333333333333, "grad_norm": 0.6112517714500427, "learning_rate": 9.949676155050107e-05, "loss": 0.0403, "step": 350 }, { "epoch": 0.96, "grad_norm": 1.7841449975967407, "learning_rate": 9.943242823168083e-05, "loss": 0.0391, "step": 360 }, { "epoch": 0.9866666666666667, "grad_norm": 0.3430697023868561, "learning_rate": 9.936424969417212e-05, "loss": 0.0398, "step": 370 }, { "epoch": 1.0133333333333334, "grad_norm": 0.6157214045524597, "learning_rate": 9.929223124140418e-05, "loss": 0.0405, "step": 380 }, { "epoch": 1.04, "grad_norm": 0.7037287354469299, "learning_rate": 9.921637847550322e-05, "loss": 0.0436, "step": 390 }, { "epoch": 1.0666666666666667, "grad_norm": 0.47742992639541626, "learning_rate": 9.913669729685653e-05, "loss": 0.0451, "step": 400 }, { "epoch": 1.0933333333333333, "grad_norm": 0.4796823561191559, "learning_rate": 9.905319390365365e-05, "loss": 0.0349, "step": 410 }, { "epoch": 1.12, "grad_norm": 0.45034724473953247, "learning_rate": 9.896587479140403e-05, "loss": 0.0322, "step": 420 }, { "epoch": 1.1466666666666667, "grad_norm": 0.4744092524051666, "learning_rate": 9.8874746752432e-05, "loss": 0.0316, "step": 430 }, { "epoch": 1.1733333333333333, "grad_norm": 0.5625886917114258, "learning_rate": 9.877981687534823e-05, "loss": 0.043, "step": 440 }, { "epoch": 1.2, "grad_norm": 0.32538509368896484, "learning_rate": 9.868109254449838e-05, "loss": 0.0344, "step": 450 }, { "epoch": 1.2266666666666666, "grad_norm": 0.4461020529270172, "learning_rate": 9.857858143938869e-05, "loss": 0.0404, "step": 460 }, { "epoch": 1.2533333333333334, "grad_norm": 0.5072178840637207, "learning_rate": 9.847229153408867e-05, "loss": 0.0352, "step": 470 }, { "epoch": 1.28, "grad_norm": 0.4349110424518585, "learning_rate": 9.836223109661074e-05, "loss": 0.0335, "step": 480 }, { "epoch": 1.3066666666666666, "grad_norm": 0.441429078578949, "learning_rate": 9.824840868826708e-05, "loss": 0.0353, "step": 490 }, { "epoch": 1.3333333333333333, "grad_norm": 0.374921977519989, "learning_rate": 9.813083316300371e-05, "loss": 0.0313, "step": 500 }, { "epoch": 1.3599999999999999, "grad_norm": 0.41773897409439087, "learning_rate": 9.800951366671179e-05, "loss": 0.0315, "step": 510 }, { "epoch": 1.3866666666666667, "grad_norm": 0.4581700563430786, "learning_rate": 9.788445963651612e-05, "loss": 0.032, "step": 520 }, { "epoch": 1.4133333333333333, "grad_norm": 0.47816455364227295, "learning_rate": 9.775568080004105e-05, "loss": 0.0327, "step": 530 }, { "epoch": 1.44, "grad_norm": 0.4117943048477173, "learning_rate": 9.762318717465388e-05, "loss": 0.0355, "step": 540 }, { "epoch": 1.4666666666666668, "grad_norm": 0.3995654582977295, "learning_rate": 9.748698906668554e-05, "loss": 0.0371, "step": 550 }, { "epoch": 1.4933333333333334, "grad_norm": 0.5716981291770935, "learning_rate": 9.734709707062892e-05, "loss": 0.0349, "step": 560 }, { "epoch": 1.52, "grad_norm": 0.48781585693359375, "learning_rate": 9.72035220683148e-05, "loss": 0.0358, "step": 570 }, { "epoch": 1.5466666666666666, "grad_norm": 0.38026371598243713, "learning_rate": 9.705627522806529e-05, "loss": 0.0314, "step": 580 }, { "epoch": 1.5733333333333333, "grad_norm": 0.5171455144882202, "learning_rate": 9.690536800382512e-05, "loss": 0.0375, "step": 590 }, { "epoch": 1.6, "grad_norm": 0.611598551273346, "learning_rate": 9.675081213427076e-05, "loss": 0.034, "step": 600 }, { "epoch": 1.6266666666666667, "grad_norm": 0.6743072271347046, "learning_rate": 9.659261964189706e-05, "loss": 0.0366, "step": 610 }, { "epoch": 1.6533333333333333, "grad_norm": 0.36076676845550537, "learning_rate": 9.643080283208235e-05, "loss": 0.0364, "step": 620 }, { "epoch": 1.6800000000000002, "grad_norm": 0.38425618410110474, "learning_rate": 9.626537429213101e-05, "loss": 0.0341, "step": 630 }, { "epoch": 1.7066666666666666, "grad_norm": 0.32948267459869385, "learning_rate": 9.609634689029441e-05, "loss": 0.0283, "step": 640 }, { "epoch": 1.7333333333333334, "grad_norm": 0.3194041848182678, "learning_rate": 9.592373377476997e-05, "loss": 0.0317, "step": 650 }, { "epoch": 1.76, "grad_norm": 0.32423779368400574, "learning_rate": 9.574754837267836e-05, "loss": 0.0302, "step": 660 }, { "epoch": 1.7866666666666666, "grad_norm": 0.32492128014564514, "learning_rate": 9.556780438901898e-05, "loss": 0.0289, "step": 670 }, { "epoch": 1.8133333333333335, "grad_norm": 0.3013342320919037, "learning_rate": 9.538451580560395e-05, "loss": 0.0293, "step": 680 }, { "epoch": 1.8399999999999999, "grad_norm": 0.46948185563087463, "learning_rate": 9.519769687997055e-05, "loss": 0.0306, "step": 690 }, { "epoch": 1.8666666666666667, "grad_norm": 0.31402209401130676, "learning_rate": 9.500736214427206e-05, "loss": 0.033, "step": 700 }, { "epoch": 1.8933333333333333, "grad_norm": 0.36868545413017273, "learning_rate": 9.481352640414735e-05, "loss": 0.0281, "step": 710 }, { "epoch": 1.92, "grad_norm": 0.3052051365375519, "learning_rate": 9.461620473756931e-05, "loss": 0.0295, "step": 720 }, { "epoch": 1.9466666666666668, "grad_norm": 0.3227885365486145, "learning_rate": 9.441541249367181e-05, "loss": 0.0339, "step": 730 }, { "epoch": 1.9733333333333334, "grad_norm": 0.300913542509079, "learning_rate": 9.421116529155587e-05, "loss": 0.0365, "step": 740 }, { "epoch": 2.0, "grad_norm": 0.5094019174575806, "learning_rate": 9.400347901907456e-05, "loss": 0.0321, "step": 750 }, { "epoch": 2.026666666666667, "grad_norm": 0.30146101117134094, "learning_rate": 9.379236983159724e-05, "loss": 0.0315, "step": 760 }, { "epoch": 2.0533333333333332, "grad_norm": 0.4535852074623108, "learning_rate": 9.357785415075288e-05, "loss": 0.0291, "step": 770 }, { "epoch": 2.08, "grad_norm": 0.434918075799942, "learning_rate": 9.335994866315252e-05, "loss": 0.0365, "step": 780 }, { "epoch": 2.1066666666666665, "grad_norm": 0.48790043592453003, "learning_rate": 9.313867031909141e-05, "loss": 0.034, "step": 790 }, { "epoch": 2.1333333333333333, "grad_norm": 0.5644739866256714, "learning_rate": 9.291403633123046e-05, "loss": 0.0296, "step": 800 }, { "epoch": 2.16, "grad_norm": 0.3351172208786011, "learning_rate": 9.268606417325724e-05, "loss": 0.0303, "step": 810 }, { "epoch": 2.1866666666666665, "grad_norm": 0.4663149416446686, "learning_rate": 9.245477157852684e-05, "loss": 0.029, "step": 820 }, { "epoch": 2.2133333333333334, "grad_norm": 0.5268027186393738, "learning_rate": 9.22201765386824e-05, "loss": 0.0279, "step": 830 }, { "epoch": 2.24, "grad_norm": 0.40499410033226013, "learning_rate": 9.198229730225558e-05, "loss": 0.0323, "step": 840 }, { "epoch": 2.2666666666666666, "grad_norm": 0.37668687105178833, "learning_rate": 9.174115237324704e-05, "loss": 0.0282, "step": 850 }, { "epoch": 2.2933333333333334, "grad_norm": 0.6794732809066772, "learning_rate": 9.14967605096871e-05, "loss": 0.0272, "step": 860 }, { "epoch": 2.32, "grad_norm": 0.38360530138015747, "learning_rate": 9.124914072217662e-05, "loss": 0.0265, "step": 870 }, { "epoch": 2.3466666666666667, "grad_norm": 0.276666522026062, "learning_rate": 9.099831227240811e-05, "loss": 0.0251, "step": 880 }, { "epoch": 2.3733333333333335, "grad_norm": 0.29487094283103943, "learning_rate": 9.074429467166754e-05, "loss": 0.0251, "step": 890 }, { "epoch": 2.4, "grad_norm": 0.36557185649871826, "learning_rate": 9.048710767931654e-05, "loss": 0.0265, "step": 900 }, { "epoch": 2.4266666666666667, "grad_norm": 0.3815879821777344, "learning_rate": 9.022677130125538e-05, "loss": 0.0252, "step": 910 }, { "epoch": 2.453333333333333, "grad_norm": 0.47583380341529846, "learning_rate": 8.99633057883668e-05, "loss": 0.0277, "step": 920 }, { "epoch": 2.48, "grad_norm": 0.381143182516098, "learning_rate": 8.969673163494064e-05, "loss": 0.0309, "step": 930 }, { "epoch": 2.506666666666667, "grad_norm": 0.47527453303337097, "learning_rate": 8.942706957707977e-05, "loss": 0.0266, "step": 940 }, { "epoch": 2.533333333333333, "grad_norm": 0.3536466658115387, "learning_rate": 8.915434059108705e-05, "loss": 0.0272, "step": 950 }, { "epoch": 2.56, "grad_norm": 0.5431262254714966, "learning_rate": 8.887856589183357e-05, "loss": 0.0256, "step": 960 }, { "epoch": 2.586666666666667, "grad_norm": 0.4219137728214264, "learning_rate": 8.85997669311085e-05, "loss": 0.0292, "step": 970 }, { "epoch": 2.6133333333333333, "grad_norm": 0.7307723760604858, "learning_rate": 8.83179653959503e-05, "loss": 0.0299, "step": 980 }, { "epoch": 2.64, "grad_norm": 0.48045894503593445, "learning_rate": 8.80331832069599e-05, "loss": 0.0266, "step": 990 }, { "epoch": 2.6666666666666665, "grad_norm": 0.474029541015625, "learning_rate": 8.774544251659536e-05, "loss": 0.029, "step": 1000 }, { "epoch": 2.6933333333333334, "grad_norm": 0.579892098903656, "learning_rate": 8.745476570744884e-05, "loss": 0.0317, "step": 1010 }, { "epoch": 2.7199999999999998, "grad_norm": 0.35608384013175964, "learning_rate": 8.716117539050544e-05, "loss": 0.0311, "step": 1020 }, { "epoch": 2.7466666666666666, "grad_norm": 0.4291665554046631, "learning_rate": 8.68646944033844e-05, "loss": 0.0261, "step": 1030 }, { "epoch": 2.7733333333333334, "grad_norm": 0.40457218885421753, "learning_rate": 8.65653458085626e-05, "loss": 0.0302, "step": 1040 }, { "epoch": 2.8, "grad_norm": 0.33455586433410645, "learning_rate": 8.626315289158054e-05, "loss": 0.0303, "step": 1050 }, { "epoch": 2.8266666666666667, "grad_norm": 0.31088611483573914, "learning_rate": 8.595813915923113e-05, "loss": 0.0255, "step": 1060 }, { "epoch": 2.8533333333333335, "grad_norm": 0.34237852692604065, "learning_rate": 8.565032833773102e-05, "loss": 0.0288, "step": 1070 }, { "epoch": 2.88, "grad_norm": 0.3425438404083252, "learning_rate": 8.533974437087516e-05, "loss": 0.0297, "step": 1080 }, { "epoch": 2.9066666666666667, "grad_norm": 0.2791368365287781, "learning_rate": 8.502641141817413e-05, "loss": 0.0239, "step": 1090 }, { "epoch": 2.9333333333333336, "grad_norm": 0.31602412462234497, "learning_rate": 8.471035385297491e-05, "loss": 0.0291, "step": 1100 }, { "epoch": 2.96, "grad_norm": 0.29440611600875854, "learning_rate": 8.439159626056494e-05, "loss": 0.0278, "step": 1110 }, { "epoch": 2.986666666666667, "grad_norm": 0.32920193672180176, "learning_rate": 8.407016343625964e-05, "loss": 0.0243, "step": 1120 }, { "epoch": 3.013333333333333, "grad_norm": 0.46172019839286804, "learning_rate": 8.374608038347376e-05, "loss": 0.0285, "step": 1130 }, { "epoch": 3.04, "grad_norm": 0.32265838980674744, "learning_rate": 8.34193723117763e-05, "loss": 0.0231, "step": 1140 }, { "epoch": 3.066666666666667, "grad_norm": 0.3258083760738373, "learning_rate": 8.309006463492956e-05, "loss": 0.0329, "step": 1150 }, { "epoch": 3.0933333333333333, "grad_norm": 0.2867657542228699, "learning_rate": 8.27581829689124e-05, "loss": 0.0263, "step": 1160 }, { "epoch": 3.12, "grad_norm": 0.3841983377933502, "learning_rate": 8.242375312992743e-05, "loss": 0.0291, "step": 1170 }, { "epoch": 3.1466666666666665, "grad_norm": 0.4883897602558136, "learning_rate": 8.208680113239298e-05, "loss": 0.028, "step": 1180 }, { "epoch": 3.1733333333333333, "grad_norm": 0.3757578134536743, "learning_rate": 8.174735318691945e-05, "loss": 0.0246, "step": 1190 }, { "epoch": 3.2, "grad_norm": 0.3211934268474579, "learning_rate": 8.140543569827051e-05, "loss": 0.0238, "step": 1200 }, { "epoch": 3.2266666666666666, "grad_norm": 0.28397077322006226, "learning_rate": 8.106107526330904e-05, "loss": 0.0242, "step": 1210 }, { "epoch": 3.2533333333333334, "grad_norm": 0.36195385456085205, "learning_rate": 8.071429866892836e-05, "loss": 0.0268, "step": 1220 }, { "epoch": 3.2800000000000002, "grad_norm": 0.3749883472919464, "learning_rate": 8.036513288996843e-05, "loss": 0.0216, "step": 1230 }, { "epoch": 3.3066666666666666, "grad_norm": 0.4031529128551483, "learning_rate": 8.001360508711767e-05, "loss": 0.0275, "step": 1240 }, { "epoch": 3.3333333333333335, "grad_norm": 0.27909335494041443, "learning_rate": 7.96597426048e-05, "loss": 0.0291, "step": 1250 }, { "epoch": 3.36, "grad_norm": 0.29174724221229553, "learning_rate": 7.930357296904806e-05, "loss": 0.0239, "step": 1260 }, { "epoch": 3.3866666666666667, "grad_norm": 0.44274041056632996, "learning_rate": 7.894512388536182e-05, "loss": 0.0266, "step": 1270 }, { "epoch": 3.413333333333333, "grad_norm": 0.49823087453842163, "learning_rate": 7.858442323655353e-05, "loss": 0.0224, "step": 1280 }, { "epoch": 3.44, "grad_norm": 0.3110140860080719, "learning_rate": 7.822149908057878e-05, "loss": 0.0289, "step": 1290 }, { "epoch": 3.466666666666667, "grad_norm": 0.6392334699630737, "learning_rate": 7.785637964835395e-05, "loss": 0.0274, "step": 1300 }, { "epoch": 3.493333333333333, "grad_norm": 0.41025975346565247, "learning_rate": 7.748909334156012e-05, "loss": 0.0236, "step": 1310 }, { "epoch": 3.52, "grad_norm": 0.33739539980888367, "learning_rate": 7.711966873043398e-05, "loss": 0.0219, "step": 1320 }, { "epoch": 3.546666666666667, "grad_norm": 0.2997468411922455, "learning_rate": 7.674813455154514e-05, "loss": 0.0288, "step": 1330 }, { "epoch": 3.5733333333333333, "grad_norm": 0.30205342173576355, "learning_rate": 7.637451970556107e-05, "loss": 0.0227, "step": 1340 }, { "epoch": 3.6, "grad_norm": 0.26616528630256653, "learning_rate": 7.599885325499879e-05, "loss": 0.021, "step": 1350 }, { "epoch": 3.626666666666667, "grad_norm": 0.4714079201221466, "learning_rate": 7.562116442196428e-05, "loss": 0.0228, "step": 1360 }, { "epoch": 3.6533333333333333, "grad_norm": 0.2696021795272827, "learning_rate": 7.524148258587935e-05, "loss": 0.022, "step": 1370 }, { "epoch": 3.68, "grad_norm": 0.24782340228557587, "learning_rate": 7.485983728119625e-05, "loss": 0.0203, "step": 1380 }, { "epoch": 3.7066666666666666, "grad_norm": 0.3804541826248169, "learning_rate": 7.447625819510028e-05, "loss": 0.0243, "step": 1390 }, { "epoch": 3.7333333333333334, "grad_norm": 0.3216511011123657, "learning_rate": 7.409077516520056e-05, "loss": 0.0267, "step": 1400 }, { "epoch": 3.76, "grad_norm": 0.3896216154098511, "learning_rate": 7.3703418177209e-05, "loss": 0.0211, "step": 1410 }, { "epoch": 3.7866666666666666, "grad_norm": 0.41557958722114563, "learning_rate": 7.331421736260771e-05, "loss": 0.0215, "step": 1420 }, { "epoch": 3.8133333333333335, "grad_norm": 0.6643136739730835, "learning_rate": 7.29232029963053e-05, "loss": 0.0233, "step": 1430 }, { "epoch": 3.84, "grad_norm": 0.2598290741443634, "learning_rate": 7.25304054942818e-05, "loss": 0.0211, "step": 1440 }, { "epoch": 3.8666666666666667, "grad_norm": 0.5095392465591431, "learning_rate": 7.213585541122261e-05, "loss": 0.0239, "step": 1450 }, { "epoch": 3.8933333333333335, "grad_norm": 0.3057542145252228, "learning_rate": 7.173958343814187e-05, "loss": 0.0202, "step": 1460 }, { "epoch": 3.92, "grad_norm": 0.29420748353004456, "learning_rate": 7.134162039999502e-05, "loss": 0.0235, "step": 1470 }, { "epoch": 3.9466666666666668, "grad_norm": 0.2528304159641266, "learning_rate": 7.094199725328098e-05, "loss": 0.0254, "step": 1480 }, { "epoch": 3.9733333333333336, "grad_norm": 0.3084951639175415, "learning_rate": 7.054074508363415e-05, "loss": 0.0217, "step": 1490 }, { "epoch": 4.0, "grad_norm": 0.32245925068855286, "learning_rate": 7.013789510340635e-05, "loss": 0.0206, "step": 1500 }, { "epoch": 4.026666666666666, "grad_norm": 0.21563838422298431, "learning_rate": 6.973347864923891e-05, "loss": 0.0242, "step": 1510 }, { "epoch": 4.053333333333334, "grad_norm": 0.32354357838630676, "learning_rate": 6.932752717962505e-05, "loss": 0.0195, "step": 1520 }, { "epoch": 4.08, "grad_norm": 0.4385572373867035, "learning_rate": 6.892007227246274e-05, "loss": 0.0251, "step": 1530 }, { "epoch": 4.1066666666666665, "grad_norm": 0.382889986038208, "learning_rate": 6.851114562259849e-05, "loss": 0.0264, "step": 1540 }, { "epoch": 4.133333333333334, "grad_norm": 0.3483249545097351, "learning_rate": 6.810077903936176e-05, "loss": 0.0234, "step": 1550 }, { "epoch": 4.16, "grad_norm": 0.3633870482444763, "learning_rate": 6.768900444409065e-05, "loss": 0.0232, "step": 1560 }, { "epoch": 4.1866666666666665, "grad_norm": 0.29185667634010315, "learning_rate": 6.727585386764884e-05, "loss": 0.0249, "step": 1570 }, { "epoch": 4.213333333333333, "grad_norm": 0.3217538893222809, "learning_rate": 6.686135944793395e-05, "loss": 0.0214, "step": 1580 }, { "epoch": 4.24, "grad_norm": 0.39069122076034546, "learning_rate": 6.644555342737763e-05, "loss": 0.0208, "step": 1590 }, { "epoch": 4.266666666666667, "grad_norm": 0.28384286165237427, "learning_rate": 6.602846815043752e-05, "loss": 0.0201, "step": 1600 }, { "epoch": 4.293333333333333, "grad_norm": 0.2166718691587448, "learning_rate": 6.561013606108126e-05, "loss": 0.0218, "step": 1610 }, { "epoch": 4.32, "grad_norm": 0.3972111940383911, "learning_rate": 6.519058970026273e-05, "loss": 0.0178, "step": 1620 }, { "epoch": 4.346666666666667, "grad_norm": 0.5844058394432068, "learning_rate": 6.476986170339086e-05, "loss": 0.0204, "step": 1630 }, { "epoch": 4.373333333333333, "grad_norm": 0.26672181487083435, "learning_rate": 6.43479847977908e-05, "loss": 0.0221, "step": 1640 }, { "epoch": 4.4, "grad_norm": 0.17854145169258118, "learning_rate": 6.392499180015847e-05, "loss": 0.0184, "step": 1650 }, { "epoch": 4.426666666666667, "grad_norm": 0.40568092465400696, "learning_rate": 6.350091561400754e-05, "loss": 0.0206, "step": 1660 }, { "epoch": 4.453333333333333, "grad_norm": 0.4765859842300415, "learning_rate": 6.307578922711011e-05, "loss": 0.0216, "step": 1670 }, { "epoch": 4.48, "grad_norm": 0.6255671381950378, "learning_rate": 6.264964570893061e-05, "loss": 0.0253, "step": 1680 }, { "epoch": 4.506666666666667, "grad_norm": 0.2816491723060608, "learning_rate": 6.222251820805344e-05, "loss": 0.02, "step": 1690 }, { "epoch": 4.533333333333333, "grad_norm": 0.3002357482910156, "learning_rate": 6.179443994960451e-05, "loss": 0.0204, "step": 1700 }, { "epoch": 4.5600000000000005, "grad_norm": 0.34583476185798645, "learning_rate": 6.136544423266651e-05, "loss": 0.0208, "step": 1710 }, { "epoch": 4.586666666666667, "grad_norm": 0.3059987723827362, "learning_rate": 6.093556442768896e-05, "loss": 0.0182, "step": 1720 }, { "epoch": 4.613333333333333, "grad_norm": 0.2656406760215759, "learning_rate": 6.050483397389219e-05, "loss": 0.0172, "step": 1730 }, { "epoch": 4.64, "grad_norm": 0.3967006504535675, "learning_rate": 6.007328637666628e-05, "loss": 0.0256, "step": 1740 }, { "epoch": 4.666666666666667, "grad_norm": 0.28485578298568726, "learning_rate": 5.964095520496475e-05, "loss": 0.0233, "step": 1750 }, { "epoch": 4.693333333333333, "grad_norm": 0.25265899300575256, "learning_rate": 5.920787408869335e-05, "loss": 0.0218, "step": 1760 }, { "epoch": 4.72, "grad_norm": 0.34368574619293213, "learning_rate": 5.8774076716093964e-05, "loss": 0.0228, "step": 1770 }, { "epoch": 4.746666666666667, "grad_norm": 0.4099526107311249, "learning_rate": 5.8339596831124275e-05, "loss": 0.0234, "step": 1780 }, { "epoch": 4.773333333333333, "grad_norm": 0.41571536660194397, "learning_rate": 5.7904468230832755e-05, "loss": 0.0219, "step": 1790 }, { "epoch": 4.8, "grad_norm": 0.3317515552043915, "learning_rate": 5.746872476272973e-05, "loss": 0.018, "step": 1800 }, { "epoch": 4.826666666666666, "grad_norm": 0.32738763093948364, "learning_rate": 5.7032400322154514e-05, "loss": 0.0189, "step": 1810 }, { "epoch": 4.8533333333333335, "grad_norm": 0.31754159927368164, "learning_rate": 5.659552884963868e-05, "loss": 0.0199, "step": 1820 }, { "epoch": 4.88, "grad_norm": 0.337977796792984, "learning_rate": 5.615814432826606e-05, "loss": 0.0194, "step": 1830 }, { "epoch": 4.906666666666666, "grad_norm": 0.4795459806919098, "learning_rate": 5.5720280781029166e-05, "loss": 0.0179, "step": 1840 }, { "epoch": 4.933333333333334, "grad_norm": 0.25115707516670227, "learning_rate": 5.528197226818266e-05, "loss": 0.0209, "step": 1850 }, { "epoch": 4.96, "grad_norm": 0.25031355023384094, "learning_rate": 5.484325288459391e-05, "loss": 0.0215, "step": 1860 }, { "epoch": 4.986666666666666, "grad_norm": 0.23906421661376953, "learning_rate": 5.4404156757090885e-05, "loss": 0.0194, "step": 1870 }, { "epoch": 5.013333333333334, "grad_norm": 0.2627911865711212, "learning_rate": 5.3964718041807416e-05, "loss": 0.0203, "step": 1880 }, { "epoch": 5.04, "grad_norm": 0.22912806272506714, "learning_rate": 5.352497092152636e-05, "loss": 0.0184, "step": 1890 }, { "epoch": 5.066666666666666, "grad_norm": 0.25324174761772156, "learning_rate": 5.308494960302063e-05, "loss": 0.0224, "step": 1900 }, { "epoch": 5.093333333333334, "grad_norm": 0.28795111179351807, "learning_rate": 5.264468831439221e-05, "loss": 0.0177, "step": 1910 }, { "epoch": 5.12, "grad_norm": 0.3356883227825165, "learning_rate": 5.2204221302409805e-05, "loss": 0.0187, "step": 1920 }, { "epoch": 5.1466666666666665, "grad_norm": 0.301176518201828, "learning_rate": 5.176358282984477e-05, "loss": 0.0224, "step": 1930 }, { "epoch": 5.173333333333334, "grad_norm": 0.5905810594558716, "learning_rate": 5.132280717280593e-05, "loss": 0.0231, "step": 1940 }, { "epoch": 5.2, "grad_norm": 0.2921988368034363, "learning_rate": 5.088192861807333e-05, "loss": 0.0221, "step": 1950 }, { "epoch": 5.226666666666667, "grad_norm": 0.281489759683609, "learning_rate": 5.0440981460431133e-05, "loss": 0.0161, "step": 1960 }, { "epoch": 5.253333333333333, "grad_norm": 0.22516664862632751, "learning_rate": 5e-05, "loss": 0.0163, "step": 1970 }, { "epoch": 5.28, "grad_norm": 0.3664727807044983, "learning_rate": 4.955901853956888e-05, "loss": 0.0181, "step": 1980 }, { "epoch": 5.306666666666667, "grad_norm": 0.22837233543395996, "learning_rate": 4.911807138192669e-05, "loss": 0.0182, "step": 1990 }, { "epoch": 5.333333333333333, "grad_norm": 0.2796027362346649, "learning_rate": 4.867719282719407e-05, "loss": 0.0191, "step": 2000 }, { "epoch": 5.36, "grad_norm": 1.0566439628601074, "learning_rate": 4.8236417170155235e-05, "loss": 0.021, "step": 2010 }, { "epoch": 5.386666666666667, "grad_norm": 0.14496007561683655, "learning_rate": 4.7795778697590207e-05, "loss": 0.0188, "step": 2020 }, { "epoch": 5.413333333333333, "grad_norm": 0.2603357434272766, "learning_rate": 4.7355311685607794e-05, "loss": 0.0196, "step": 2030 }, { "epoch": 5.44, "grad_norm": 0.36451077461242676, "learning_rate": 4.6915050396979396e-05, "loss": 0.0186, "step": 2040 }, { "epoch": 5.466666666666667, "grad_norm": 0.21710661053657532, "learning_rate": 4.6475029078473656e-05, "loss": 0.0208, "step": 2050 }, { "epoch": 5.493333333333333, "grad_norm": 0.23740637302398682, "learning_rate": 4.60352819581926e-05, "loss": 0.016, "step": 2060 }, { "epoch": 5.52, "grad_norm": 0.25349128246307373, "learning_rate": 4.559584324290913e-05, "loss": 0.017, "step": 2070 }, { "epoch": 5.546666666666667, "grad_norm": 0.4207654893398285, "learning_rate": 4.515674711540611e-05, "loss": 0.0184, "step": 2080 }, { "epoch": 5.573333333333333, "grad_norm": 0.3106256425380707, "learning_rate": 4.471802773181736e-05, "loss": 0.0187, "step": 2090 }, { "epoch": 5.6, "grad_norm": 0.4016057848930359, "learning_rate": 4.427971921897085e-05, "loss": 0.0191, "step": 2100 }, { "epoch": 5.626666666666667, "grad_norm": 0.22821687161922455, "learning_rate": 4.384185567173393e-05, "loss": 0.017, "step": 2110 }, { "epoch": 5.653333333333333, "grad_norm": 0.36751899123191833, "learning_rate": 4.3404471150361326e-05, "loss": 0.0143, "step": 2120 }, { "epoch": 5.68, "grad_norm": 0.31468039751052856, "learning_rate": 4.2967599677845505e-05, "loss": 0.0212, "step": 2130 }, { "epoch": 5.706666666666667, "grad_norm": 0.48517411947250366, "learning_rate": 4.253127523727028e-05, "loss": 0.0172, "step": 2140 }, { "epoch": 5.733333333333333, "grad_norm": 0.29950961470603943, "learning_rate": 4.209553176916727e-05, "loss": 0.017, "step": 2150 }, { "epoch": 5.76, "grad_norm": 0.3100822865962982, "learning_rate": 4.166040316887573e-05, "loss": 0.0135, "step": 2160 }, { "epoch": 5.786666666666667, "grad_norm": 0.15671317279338837, "learning_rate": 4.1225923283906034e-05, "loss": 0.0166, "step": 2170 }, { "epoch": 5.8133333333333335, "grad_norm": 0.28965723514556885, "learning_rate": 4.079212591130667e-05, "loss": 0.017, "step": 2180 }, { "epoch": 5.84, "grad_norm": 0.2955416738986969, "learning_rate": 4.035904479503525e-05, "loss": 0.019, "step": 2190 }, { "epoch": 5.866666666666667, "grad_norm": 0.29491519927978516, "learning_rate": 3.992671362333373e-05, "loss": 0.0198, "step": 2200 }, { "epoch": 5.8933333333333335, "grad_norm": 0.6319124102592468, "learning_rate": 3.949516602610782e-05, "loss": 0.0188, "step": 2210 }, { "epoch": 5.92, "grad_norm": 0.46864351630210876, "learning_rate": 3.906443557231104e-05, "loss": 0.0145, "step": 2220 }, { "epoch": 5.946666666666666, "grad_norm": 0.3091537058353424, "learning_rate": 3.863455576733349e-05, "loss": 0.0196, "step": 2230 }, { "epoch": 5.973333333333334, "grad_norm": 0.5546876788139343, "learning_rate": 3.820556005039551e-05, "loss": 0.0166, "step": 2240 }, { "epoch": 6.0, "grad_norm": 0.30054500699043274, "learning_rate": 3.7777481791946556e-05, "loss": 0.0182, "step": 2250 }, { "epoch": 6.026666666666666, "grad_norm": 0.2903730869293213, "learning_rate": 3.735035429106941e-05, "loss": 0.016, "step": 2260 }, { "epoch": 6.053333333333334, "grad_norm": 0.2920666038990021, "learning_rate": 3.69242107728899e-05, "loss": 0.0153, "step": 2270 }, { "epoch": 6.08, "grad_norm": 0.28852754831314087, "learning_rate": 3.6499084385992454e-05, "loss": 0.0154, "step": 2280 }, { "epoch": 6.1066666666666665, "grad_norm": 0.1733703762292862, "learning_rate": 3.607500819984153e-05, "loss": 0.0196, "step": 2290 }, { "epoch": 6.133333333333334, "grad_norm": 0.27073776721954346, "learning_rate": 3.565201520220921e-05, "loss": 0.0158, "step": 2300 }, { "epoch": 6.16, "grad_norm": 0.9252752065658569, "learning_rate": 3.523013829660917e-05, "loss": 0.0165, "step": 2310 }, { "epoch": 6.1866666666666665, "grad_norm": 0.34465450048446655, "learning_rate": 3.480941029973728e-05, "loss": 0.02, "step": 2320 }, { "epoch": 6.213333333333333, "grad_norm": 0.30150312185287476, "learning_rate": 3.438986393891874e-05, "loss": 0.0183, "step": 2330 }, { "epoch": 6.24, "grad_norm": 0.30278730392456055, "learning_rate": 3.397153184956249e-05, "loss": 0.0189, "step": 2340 }, { "epoch": 6.266666666666667, "grad_norm": 0.45057374238967896, "learning_rate": 3.355444657262238e-05, "loss": 0.0158, "step": 2350 }, { "epoch": 6.293333333333333, "grad_norm": 0.34358343482017517, "learning_rate": 3.313864055206607e-05, "loss": 0.0184, "step": 2360 }, { "epoch": 6.32, "grad_norm": 0.18208268284797668, "learning_rate": 3.272414613235117e-05, "loss": 0.0167, "step": 2370 }, { "epoch": 6.346666666666667, "grad_norm": 0.28517913818359375, "learning_rate": 3.231099555590936e-05, "loss": 0.0158, "step": 2380 }, { "epoch": 6.373333333333333, "grad_norm": 0.5143048167228699, "learning_rate": 3.1899220960638256e-05, "loss": 0.0156, "step": 2390 }, { "epoch": 6.4, "grad_norm": 0.19243063032627106, "learning_rate": 3.148885437740153e-05, "loss": 0.0145, "step": 2400 }, { "epoch": 6.426666666666667, "grad_norm": 0.24666863679885864, "learning_rate": 3.1079927727537274e-05, "loss": 0.0175, "step": 2410 }, { "epoch": 6.453333333333333, "grad_norm": 0.2386755794286728, "learning_rate": 3.0672472820374975e-05, "loss": 0.0149, "step": 2420 }, { "epoch": 6.48, "grad_norm": 0.23145747184753418, "learning_rate": 3.02665213507611e-05, "loss": 0.019, "step": 2430 }, { "epoch": 6.506666666666667, "grad_norm": 0.18063053488731384, "learning_rate": 2.9862104896593652e-05, "loss": 0.0146, "step": 2440 }, { "epoch": 6.533333333333333, "grad_norm": 0.22217141091823578, "learning_rate": 2.945925491636586e-05, "loss": 0.0157, "step": 2450 }, { "epoch": 6.5600000000000005, "grad_norm": 0.39595821499824524, "learning_rate": 2.9058002746719043e-05, "loss": 0.0188, "step": 2460 }, { "epoch": 6.586666666666667, "grad_norm": 1.589547872543335, "learning_rate": 2.8658379600004993e-05, "loss": 0.0159, "step": 2470 }, { "epoch": 6.613333333333333, "grad_norm": 0.20257297158241272, "learning_rate": 2.826041656185814e-05, "loss": 0.0139, "step": 2480 }, { "epoch": 6.64, "grad_norm": 0.23995600640773773, "learning_rate": 2.7864144588777403e-05, "loss": 0.018, "step": 2490 }, { "epoch": 6.666666666666667, "grad_norm": 0.24944670498371124, "learning_rate": 2.746959450571821e-05, "loss": 0.0212, "step": 2500 }, { "epoch": 6.693333333333333, "grad_norm": 0.1432095617055893, "learning_rate": 2.7076797003694693e-05, "loss": 0.016, "step": 2510 }, { "epoch": 6.72, "grad_norm": 0.24092675745487213, "learning_rate": 2.668578263739231e-05, "loss": 0.0139, "step": 2520 }, { "epoch": 6.746666666666667, "grad_norm": 0.23482179641723633, "learning_rate": 2.6296581822791023e-05, "loss": 0.0188, "step": 2530 }, { "epoch": 6.773333333333333, "grad_norm": 0.1631268560886383, "learning_rate": 2.590922483479942e-05, "loss": 0.0143, "step": 2540 }, { "epoch": 6.8, "grad_norm": 0.36992397904396057, "learning_rate": 2.5523741804899732e-05, "loss": 0.0151, "step": 2550 }, { "epoch": 6.826666666666666, "grad_norm": 0.2547363042831421, "learning_rate": 2.5140162718803773e-05, "loss": 0.0163, "step": 2560 }, { "epoch": 6.8533333333333335, "grad_norm": 0.3222854733467102, "learning_rate": 2.475851741412066e-05, "loss": 0.0141, "step": 2570 }, { "epoch": 6.88, "grad_norm": 0.3557837903499603, "learning_rate": 2.4378835578035734e-05, "loss": 0.0179, "step": 2580 }, { "epoch": 6.906666666666666, "grad_norm": 0.23876546323299408, "learning_rate": 2.400114674500123e-05, "loss": 0.0148, "step": 2590 }, { "epoch": 6.933333333333334, "grad_norm": 0.2606431841850281, "learning_rate": 2.362548029443895e-05, "loss": 0.0156, "step": 2600 }, { "epoch": 6.96, "grad_norm": 0.1874527633190155, "learning_rate": 2.3251865448454873e-05, "loss": 0.0157, "step": 2610 }, { "epoch": 6.986666666666666, "grad_norm": 0.4137421250343323, "learning_rate": 2.288033126956604e-05, "loss": 0.016, "step": 2620 }, { "epoch": 7.013333333333334, "grad_norm": 0.3309444785118103, "learning_rate": 2.251090665843989e-05, "loss": 0.0142, "step": 2630 }, { "epoch": 7.04, "grad_norm": 0.44641542434692383, "learning_rate": 2.2143620351646078e-05, "loss": 0.0188, "step": 2640 }, { "epoch": 7.066666666666666, "grad_norm": 0.19609734416007996, "learning_rate": 2.1778500919421208e-05, "loss": 0.0137, "step": 2650 }, { "epoch": 7.093333333333334, "grad_norm": 0.1826336830854416, "learning_rate": 2.1415576763446475e-05, "loss": 0.0167, "step": 2660 }, { "epoch": 7.12, "grad_norm": 0.22315213084220886, "learning_rate": 2.105487611463819e-05, "loss": 0.0136, "step": 2670 }, { "epoch": 7.1466666666666665, "grad_norm": 0.3135482668876648, "learning_rate": 2.0696427030951947e-05, "loss": 0.0148, "step": 2680 }, { "epoch": 7.173333333333334, "grad_norm": 0.8951736092567444, "learning_rate": 2.0340257395200025e-05, "loss": 0.0162, "step": 2690 }, { "epoch": 7.2, "grad_norm": 0.44322967529296875, "learning_rate": 1.998639491288237e-05, "loss": 0.0137, "step": 2700 }, { "epoch": 7.226666666666667, "grad_norm": 0.3973085880279541, "learning_rate": 1.9634867110031572e-05, "loss": 0.0144, "step": 2710 }, { "epoch": 7.253333333333333, "grad_norm": 0.22846999764442444, "learning_rate": 1.9285701331071647e-05, "loss": 0.0119, "step": 2720 }, { "epoch": 7.28, "grad_norm": 0.22059471905231476, "learning_rate": 1.893892473669096e-05, "loss": 0.0144, "step": 2730 }, { "epoch": 7.306666666666667, "grad_norm": 0.18718336522579193, "learning_rate": 1.85945643017295e-05, "loss": 0.0161, "step": 2740 }, { "epoch": 7.333333333333333, "grad_norm": 0.14434228837490082, "learning_rate": 1.8252646813080565e-05, "loss": 0.0126, "step": 2750 }, { "epoch": 7.36, "grad_norm": 0.5674965977668762, "learning_rate": 1.7913198867607023e-05, "loss": 0.0159, "step": 2760 }, { "epoch": 7.386666666666667, "grad_norm": 0.21247774362564087, "learning_rate": 1.757624687007258e-05, "loss": 0.0113, "step": 2770 }, { "epoch": 7.413333333333333, "grad_norm": 0.2162749022245407, "learning_rate": 1.7241817031087608e-05, "loss": 0.0177, "step": 2780 }, { "epoch": 7.44, "grad_norm": 0.27021104097366333, "learning_rate": 1.690993536507044e-05, "loss": 0.0108, "step": 2790 }, { "epoch": 7.466666666666667, "grad_norm": 0.2426254153251648, "learning_rate": 1.658062768822373e-05, "loss": 0.0127, "step": 2800 }, { "epoch": 7.493333333333333, "grad_norm": 0.2940005958080292, "learning_rate": 1.625391961652624e-05, "loss": 0.0125, "step": 2810 }, { "epoch": 7.52, "grad_norm": 0.2713163495063782, "learning_rate": 1.5929836563740352e-05, "loss": 0.0161, "step": 2820 }, { "epoch": 7.546666666666667, "grad_norm": 0.19391457736492157, "learning_rate": 1.560840373943508e-05, "loss": 0.01, "step": 2830 }, { "epoch": 7.573333333333333, "grad_norm": 0.3639756143093109, "learning_rate": 1.52896461470251e-05, "loss": 0.014, "step": 2840 }, { "epoch": 7.6, "grad_norm": 0.2319239228963852, "learning_rate": 1.4973588581825877e-05, "loss": 0.013, "step": 2850 }, { "epoch": 7.626666666666667, "grad_norm": 0.3218618631362915, "learning_rate": 1.4660255629124858e-05, "loss": 0.0119, "step": 2860 }, { "epoch": 7.653333333333333, "grad_norm": 0.264695405960083, "learning_rate": 1.4349671662268981e-05, "loss": 0.0157, "step": 2870 }, { "epoch": 7.68, "grad_norm": 0.26743194460868835, "learning_rate": 1.40418608407689e-05, "loss": 0.0148, "step": 2880 }, { "epoch": 7.706666666666667, "grad_norm": 0.6950193047523499, "learning_rate": 1.373684710841947e-05, "loss": 0.0145, "step": 2890 }, { "epoch": 7.733333333333333, "grad_norm": 0.5026668906211853, "learning_rate": 1.3434654191437413e-05, "loss": 0.0142, "step": 2900 }, { "epoch": 7.76, "grad_norm": 0.2440236657857895, "learning_rate": 1.3135305596615617e-05, "loss": 0.0128, "step": 2910 }, { "epoch": 7.786666666666667, "grad_norm": 0.20711852610111237, "learning_rate": 1.2838824609494565e-05, "loss": 0.0131, "step": 2920 }, { "epoch": 7.8133333333333335, "grad_norm": 0.1792020946741104, "learning_rate": 1.2545234292551166e-05, "loss": 0.0117, "step": 2930 }, { "epoch": 7.84, "grad_norm": 0.2315606325864792, "learning_rate": 1.2254557483404654e-05, "loss": 0.0119, "step": 2940 }, { "epoch": 7.866666666666667, "grad_norm": 0.6721768975257874, "learning_rate": 1.1966816793040108e-05, "loss": 0.015, "step": 2950 }, { "epoch": 7.8933333333333335, "grad_norm": 0.2009035348892212, "learning_rate": 1.1682034604049697e-05, "loss": 0.0122, "step": 2960 }, { "epoch": 7.92, "grad_norm": 0.1944214105606079, "learning_rate": 1.1400233068891526e-05, "loss": 0.0125, "step": 2970 }, { "epoch": 7.946666666666666, "grad_norm": 0.22680865228176117, "learning_rate": 1.1121434108166434e-05, "loss": 0.0106, "step": 2980 }, { "epoch": 7.973333333333334, "grad_norm": 0.2163856327533722, "learning_rate": 1.0845659408912973e-05, "loss": 0.0127, "step": 2990 }, { "epoch": 8.0, "grad_norm": 0.3456061780452728, "learning_rate": 1.0572930422920246e-05, "loss": 0.014, "step": 3000 }, { "epoch": 8.026666666666667, "grad_norm": 1.6869971752166748, "learning_rate": 1.0303268365059382e-05, "loss": 0.0135, "step": 3010 }, { "epoch": 8.053333333333333, "grad_norm": 0.17631177604198456, "learning_rate": 1.0036694211633213e-05, "loss": 0.0149, "step": 3020 }, { "epoch": 8.08, "grad_norm": 0.16881969571113586, "learning_rate": 9.773228698744607e-06, "loss": 0.0108, "step": 3030 }, { "epoch": 8.106666666666667, "grad_norm": 0.25679171085357666, "learning_rate": 9.512892320683453e-06, "loss": 0.0135, "step": 3040 }, { "epoch": 8.133333333333333, "grad_norm": 0.20068266987800598, "learning_rate": 9.25570532833247e-06, "loss": 0.0153, "step": 3050 }, { "epoch": 8.16, "grad_norm": 0.46532443165779114, "learning_rate": 9.001687727591901e-06, "loss": 0.0105, "step": 3060 }, { "epoch": 8.186666666666667, "grad_norm": 0.47740980982780457, "learning_rate": 8.750859277823392e-06, "loss": 0.0154, "step": 3070 }, { "epoch": 8.213333333333333, "grad_norm": 0.28794583678245544, "learning_rate": 8.503239490312897e-06, "loss": 0.013, "step": 3080 }, { "epoch": 8.24, "grad_norm": 0.31682199239730835, "learning_rate": 8.258847626752964e-06, "loss": 0.0132, "step": 3090 }, { "epoch": 8.266666666666667, "grad_norm": 0.19596821069717407, "learning_rate": 8.017702697744422e-06, "loss": 0.0114, "step": 3100 }, { "epoch": 8.293333333333333, "grad_norm": 0.28711143136024475, "learning_rate": 7.779823461317603e-06, "loss": 0.0121, "step": 3110 }, { "epoch": 8.32, "grad_norm": 0.3026581108570099, "learning_rate": 7.545228421473161e-06, "loss": 0.0133, "step": 3120 }, { "epoch": 8.346666666666668, "grad_norm": 0.49945569038391113, "learning_rate": 7.313935826742768e-06, "loss": 0.0101, "step": 3130 }, { "epoch": 8.373333333333333, "grad_norm": 0.2090335339307785, "learning_rate": 7.085963668769552e-06, "loss": 0.0124, "step": 3140 }, { "epoch": 8.4, "grad_norm": 0.24320606887340546, "learning_rate": 6.86132968090859e-06, "loss": 0.0116, "step": 3150 }, { "epoch": 8.426666666666666, "grad_norm": 0.34604114294052124, "learning_rate": 6.640051336847497e-06, "loss": 0.018, "step": 3160 }, { "epoch": 8.453333333333333, "grad_norm": 0.6855707168579102, "learning_rate": 6.42214584924713e-06, "loss": 0.0129, "step": 3170 }, { "epoch": 8.48, "grad_norm": 0.15700982511043549, "learning_rate": 6.207630168402756e-06, "loss": 0.0113, "step": 3180 }, { "epoch": 8.506666666666666, "grad_norm": 0.20397727191448212, "learning_rate": 5.996520980925452e-06, "loss": 0.0117, "step": 3190 }, { "epoch": 8.533333333333333, "grad_norm": 0.17552337050437927, "learning_rate": 5.7888347084441405e-06, "loss": 0.0104, "step": 3200 }, { "epoch": 8.56, "grad_norm": 0.2551206648349762, "learning_rate": 5.584587506328181e-06, "loss": 0.0104, "step": 3210 }, { "epoch": 8.586666666666666, "grad_norm": 0.22777213156223297, "learning_rate": 5.383795262430697e-06, "loss": 0.0116, "step": 3220 }, { "epoch": 8.613333333333333, "grad_norm": 0.26492106914520264, "learning_rate": 5.186473595852648e-06, "loss": 0.0112, "step": 3230 }, { "epoch": 8.64, "grad_norm": 0.20667727291584015, "learning_rate": 4.9926378557279495e-06, "loss": 0.0115, "step": 3240 }, { "epoch": 8.666666666666666, "grad_norm": 0.15487900376319885, "learning_rate": 4.802303120029445e-06, "loss": 0.0135, "step": 3250 }, { "epoch": 8.693333333333333, "grad_norm": 0.19691292941570282, "learning_rate": 4.615484194396047e-06, "loss": 0.0113, "step": 3260 }, { "epoch": 8.72, "grad_norm": 0.1470327228307724, "learning_rate": 4.432195610981032e-06, "loss": 0.011, "step": 3270 }, { "epoch": 8.746666666666666, "grad_norm": 0.24083487689495087, "learning_rate": 4.252451627321652e-06, "loss": 0.0132, "step": 3280 }, { "epoch": 8.773333333333333, "grad_norm": 0.20057982206344604, "learning_rate": 4.0762662252300245e-06, "loss": 0.0107, "step": 3290 }, { "epoch": 8.8, "grad_norm": 0.20273777842521667, "learning_rate": 3.903653109705596e-06, "loss": 0.0107, "step": 3300 }, { "epoch": 8.826666666666666, "grad_norm": 0.10932189971208572, "learning_rate": 3.734625707869005e-06, "loss": 0.0103, "step": 3310 }, { "epoch": 8.853333333333333, "grad_norm": 0.4029151201248169, "learning_rate": 3.569197167917654e-06, "loss": 0.0136, "step": 3320 }, { "epoch": 8.88, "grad_norm": 0.1944645643234253, "learning_rate": 3.407380358102946e-06, "loss": 0.0143, "step": 3330 }, { "epoch": 8.906666666666666, "grad_norm": 0.24247722327709198, "learning_rate": 3.249187865729264e-06, "loss": 0.0103, "step": 3340 }, { "epoch": 8.933333333333334, "grad_norm": 0.2054254561662674, "learning_rate": 3.0946319961748738e-06, "loss": 0.013, "step": 3350 }, { "epoch": 8.96, "grad_norm": 0.17757552862167358, "learning_rate": 2.9437247719347195e-06, "loss": 0.0116, "step": 3360 }, { "epoch": 8.986666666666666, "grad_norm": 0.17303858697414398, "learning_rate": 2.7964779316852043e-06, "loss": 0.0115, "step": 3370 }, { "epoch": 9.013333333333334, "grad_norm": 1.2873965501785278, "learning_rate": 2.6529029293710707e-06, "loss": 0.0092, "step": 3380 }, { "epoch": 9.04, "grad_norm": 0.17478534579277039, "learning_rate": 2.513010933314469e-06, "loss": 0.0144, "step": 3390 }, { "epoch": 9.066666666666666, "grad_norm": 0.4625030755996704, "learning_rate": 2.3768128253461253e-06, "loss": 0.0118, "step": 3400 }, { "epoch": 9.093333333333334, "grad_norm": 0.46634355187416077, "learning_rate": 2.24431919995895e-06, "loss": 0.0115, "step": 3410 }, { "epoch": 9.12, "grad_norm": 0.8421985507011414, "learning_rate": 2.115540363483892e-06, "loss": 0.0115, "step": 3420 }, { "epoch": 9.146666666666667, "grad_norm": 0.19002880156040192, "learning_rate": 1.9904863332882107e-06, "loss": 0.0096, "step": 3430 }, { "epoch": 9.173333333333334, "grad_norm": 0.5010620355606079, "learning_rate": 1.8691668369962946e-06, "loss": 0.0111, "step": 3440 }, { "epoch": 9.2, "grad_norm": 0.8734561204910278, "learning_rate": 1.7515913117329309e-06, "loss": 0.0128, "step": 3450 }, { "epoch": 9.226666666666667, "grad_norm": 0.23361846804618835, "learning_rate": 1.6377689033892584e-06, "loss": 0.0123, "step": 3460 }, { "epoch": 9.253333333333334, "grad_norm": 0.22967030107975006, "learning_rate": 1.5277084659113205e-06, "loss": 0.011, "step": 3470 }, { "epoch": 9.28, "grad_norm": 0.13524295389652252, "learning_rate": 1.4214185606113094e-06, "loss": 0.0105, "step": 3480 }, { "epoch": 9.306666666666667, "grad_norm": 0.1666213572025299, "learning_rate": 1.3189074555016335e-06, "loss": 0.0114, "step": 3490 }, { "epoch": 9.333333333333334, "grad_norm": 0.309508353471756, "learning_rate": 1.2201831246517859e-06, "loss": 0.0127, "step": 3500 }, { "epoch": 9.36, "grad_norm": 0.397417813539505, "learning_rate": 1.1252532475680033e-06, "loss": 0.0124, "step": 3510 }, { "epoch": 9.386666666666667, "grad_norm": 0.22996526956558228, "learning_rate": 1.0341252085959763e-06, "loss": 0.0111, "step": 3520 }, { "epoch": 9.413333333333334, "grad_norm": 0.174721822142601, "learning_rate": 9.468060963463755e-07, "loss": 0.0107, "step": 3530 }, { "epoch": 9.44, "grad_norm": 0.18079371750354767, "learning_rate": 8.633027031434704e-07, "loss": 0.0102, "step": 3540 }, { "epoch": 9.466666666666667, "grad_norm": 0.2010296881198883, "learning_rate": 7.836215244967859e-07, "loss": 0.0118, "step": 3550 }, { "epoch": 9.493333333333334, "grad_norm": 0.10778863728046417, "learning_rate": 7.07768758595817e-07, "loss": 0.0127, "step": 3560 }, { "epoch": 9.52, "grad_norm": 1.1452125310897827, "learning_rate": 6.357503058278758e-07, "loss": 0.0096, "step": 3570 }, { "epoch": 9.546666666666667, "grad_norm": 0.11938397586345673, "learning_rate": 5.67571768319164e-07, "loss": 0.0084, "step": 3580 }, { "epoch": 9.573333333333334, "grad_norm": 0.14177143573760986, "learning_rate": 5.032384494989328e-07, "loss": 0.0115, "step": 3590 }, { "epoch": 9.6, "grad_norm": 0.142969012260437, "learning_rate": 4.4275535368700217e-07, "loss": 0.0088, "step": 3600 }, { "epoch": 9.626666666666667, "grad_norm": 0.17232391238212585, "learning_rate": 3.8612718570444907e-07, "loss": 0.0108, "step": 3610 }, { "epoch": 9.653333333333332, "grad_norm": 0.9320671558380127, "learning_rate": 3.333583505076399e-07, "loss": 0.014, "step": 3620 }, { "epoch": 9.68, "grad_norm": 0.1709759682416916, "learning_rate": 2.844529528455986e-07, "loss": 0.0089, "step": 3630 }, { "epoch": 9.706666666666667, "grad_norm": 0.23908892273902893, "learning_rate": 2.3941479694069015e-07, "loss": 0.0103, "step": 3640 }, { "epoch": 9.733333333333333, "grad_norm": 0.21722915768623352, "learning_rate": 1.9824738619271255e-07, "loss": 0.0124, "step": 3650 }, { "epoch": 9.76, "grad_norm": 0.44119831919670105, "learning_rate": 1.6095392290635393e-07, "loss": 0.0121, "step": 3660 }, { "epoch": 9.786666666666667, "grad_norm": 0.3291417956352234, "learning_rate": 1.2753730804212493e-07, "loss": 0.0114, "step": 3670 }, { "epoch": 9.813333333333333, "grad_norm": 0.23049457371234894, "learning_rate": 9.800014099067834e-08, "loss": 0.009, "step": 3680 }, { "epoch": 9.84, "grad_norm": 0.2444339245557785, "learning_rate": 7.234471937062059e-08, "loss": 0.012, "step": 3690 }, { "epoch": 9.866666666666667, "grad_norm": 0.10793609917163849, "learning_rate": 5.057303884977715e-08, "loss": 0.0104, "step": 3700 }, { "epoch": 9.893333333333333, "grad_norm": 0.19704671204090118, "learning_rate": 3.268679298996102e-08, "loss": 0.012, "step": 3710 }, { "epoch": 9.92, "grad_norm": 0.16177935898303986, "learning_rate": 1.868737311523927e-08, "loss": 0.0126, "step": 3720 }, { "epoch": 9.946666666666667, "grad_norm": 0.22092270851135254, "learning_rate": 8.575868203691827e-09, "loss": 0.0119, "step": 3730 }, { "epoch": 9.973333333333333, "grad_norm": 0.17701409757137299, "learning_rate": 2.353064802712579e-09, "loss": 0.0126, "step": 3740 }, { "epoch": 10.0, "grad_norm": 0.12744911015033722, "learning_rate": 1.9446967824965357e-11, "loss": 0.0119, "step": 3750 }, { "epoch": 10.0, "step": 3750, "total_flos": 0.0, "train_loss": 0.028817259804407757, "train_runtime": 3882.3077, "train_samples_per_second": 47.286, "train_steps_per_second": 0.966 } ], "logging_steps": 10, "max_steps": 3750, "num_input_tokens_seen": 0, "num_train_epochs": 10, "save_steps": 20000, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 0.0, "train_batch_size": 49, "trial_name": null, "trial_params": null }