{ "best_metric": null, "best_model_checkpoint": null, "epoch": 1.0, "eval_steps": 500, "global_step": 3750, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.0002666666666666667, "grad_norm": 16.664779387467302, "learning_rate": 8.771929824561404e-08, "loss": 1.1585, "step": 1 }, { "epoch": 0.0005333333333333334, "grad_norm": 21.259110828252272, "learning_rate": 1.7543859649122808e-07, "loss": 1.3009, "step": 2 }, { "epoch": 0.0008, "grad_norm": 17.732992884609583, "learning_rate": 2.6315789473684213e-07, "loss": 1.2139, "step": 3 }, { "epoch": 0.0010666666666666667, "grad_norm": 27.211841293013986, "learning_rate": 3.5087719298245616e-07, "loss": 1.3633, "step": 4 }, { "epoch": 0.0013333333333333333, "grad_norm": 19.90230320000923, "learning_rate": 4.385964912280702e-07, "loss": 1.3111, "step": 5 }, { "epoch": 0.0016, "grad_norm": 25.128699876059585, "learning_rate": 5.263157894736843e-07, "loss": 1.4258, "step": 6 }, { "epoch": 0.0018666666666666666, "grad_norm": 20.211274918364534, "learning_rate": 6.140350877192982e-07, "loss": 1.2316, "step": 7 }, { "epoch": 0.0021333333333333334, "grad_norm": 18.945852675414784, "learning_rate": 7.017543859649123e-07, "loss": 1.2081, "step": 8 }, { "epoch": 0.0024, "grad_norm": 17.04455353569353, "learning_rate": 7.894736842105263e-07, "loss": 1.2149, "step": 9 }, { "epoch": 0.0026666666666666666, "grad_norm": 16.899842737423874, "learning_rate": 8.771929824561404e-07, "loss": 1.1125, "step": 10 }, { "epoch": 0.0029333333333333334, "grad_norm": 18.08762146117638, "learning_rate": 9.649122807017545e-07, "loss": 1.1811, "step": 11 }, { "epoch": 0.0032, "grad_norm": 16.2832700777289, "learning_rate": 1.0526315789473685e-06, "loss": 1.0205, "step": 12 }, { "epoch": 0.0034666666666666665, "grad_norm": 13.790617795284318, "learning_rate": 1.1403508771929824e-06, "loss": 1.0519, "step": 13 }, { "epoch": 0.0037333333333333333, "grad_norm": 16.306849589321732, "learning_rate": 1.2280701754385965e-06, "loss": 1.0359, "step": 14 }, { "epoch": 0.004, "grad_norm": 7.942837650824751, "learning_rate": 1.3157894736842106e-06, "loss": 0.8823, "step": 15 }, { "epoch": 0.004266666666666667, "grad_norm": 8.474295367631033, "learning_rate": 1.4035087719298246e-06, "loss": 0.8862, "step": 16 }, { "epoch": 0.004533333333333334, "grad_norm": 6.83826623068806, "learning_rate": 1.4912280701754387e-06, "loss": 0.8772, "step": 17 }, { "epoch": 0.0048, "grad_norm": 6.13212128531144, "learning_rate": 1.5789473684210526e-06, "loss": 0.7811, "step": 18 }, { "epoch": 0.005066666666666666, "grad_norm": 6.214004650213308, "learning_rate": 1.6666666666666667e-06, "loss": 0.8042, "step": 19 }, { "epoch": 0.005333333333333333, "grad_norm": 5.643022914757044, "learning_rate": 1.7543859649122807e-06, "loss": 0.806, "step": 20 }, { "epoch": 0.0056, "grad_norm": 6.375424282038437, "learning_rate": 1.8421052631578948e-06, "loss": 0.7365, "step": 21 }, { "epoch": 0.005866666666666667, "grad_norm": 5.90062047649027, "learning_rate": 1.929824561403509e-06, "loss": 0.7356, "step": 22 }, { "epoch": 0.0061333333333333335, "grad_norm": 5.735589010403914, "learning_rate": 2.017543859649123e-06, "loss": 0.7852, "step": 23 }, { "epoch": 0.0064, "grad_norm": 4.729703875740328, "learning_rate": 2.105263157894737e-06, "loss": 0.6797, "step": 24 }, { "epoch": 0.006666666666666667, "grad_norm": 4.821504315991865, "learning_rate": 2.192982456140351e-06, "loss": 0.7002, "step": 25 }, { "epoch": 0.006933333333333333, "grad_norm": 4.927851683299393, "learning_rate": 2.280701754385965e-06, "loss": 0.6842, "step": 26 }, { "epoch": 0.0072, "grad_norm": 5.137324317569162, "learning_rate": 2.368421052631579e-06, "loss": 0.7083, "step": 27 }, { "epoch": 0.007466666666666667, "grad_norm": 5.268760209424453, "learning_rate": 2.456140350877193e-06, "loss": 0.7123, "step": 28 }, { "epoch": 0.007733333333333333, "grad_norm": 4.591521035546915, "learning_rate": 2.5438596491228075e-06, "loss": 0.6304, "step": 29 }, { "epoch": 0.008, "grad_norm": 4.207797136242618, "learning_rate": 2.631578947368421e-06, "loss": 0.6349, "step": 30 }, { "epoch": 0.008266666666666667, "grad_norm": 4.62097317018694, "learning_rate": 2.7192982456140356e-06, "loss": 0.6225, "step": 31 }, { "epoch": 0.008533333333333334, "grad_norm": 4.66399450986635, "learning_rate": 2.8070175438596493e-06, "loss": 0.6018, "step": 32 }, { "epoch": 0.0088, "grad_norm": 4.831310305591146, "learning_rate": 2.8947368421052634e-06, "loss": 0.6107, "step": 33 }, { "epoch": 0.009066666666666667, "grad_norm": 4.891695649176905, "learning_rate": 2.9824561403508774e-06, "loss": 0.6257, "step": 34 }, { "epoch": 0.009333333333333334, "grad_norm": 4.3457536675681325, "learning_rate": 3.0701754385964915e-06, "loss": 0.6031, "step": 35 }, { "epoch": 0.0096, "grad_norm": 5.110868253262536, "learning_rate": 3.157894736842105e-06, "loss": 0.6442, "step": 36 }, { "epoch": 0.009866666666666666, "grad_norm": 4.557330645644073, "learning_rate": 3.2456140350877197e-06, "loss": 0.5805, "step": 37 }, { "epoch": 0.010133333333333333, "grad_norm": 4.773438432021475, "learning_rate": 3.3333333333333333e-06, "loss": 0.6043, "step": 38 }, { "epoch": 0.0104, "grad_norm": 4.4452460683286805, "learning_rate": 3.421052631578948e-06, "loss": 0.5922, "step": 39 }, { "epoch": 0.010666666666666666, "grad_norm": 4.354531332452033, "learning_rate": 3.5087719298245615e-06, "loss": 0.5702, "step": 40 }, { "epoch": 0.010933333333333333, "grad_norm": 4.149325932780086, "learning_rate": 3.596491228070176e-06, "loss": 0.5657, "step": 41 }, { "epoch": 0.0112, "grad_norm": 4.9095519849137395, "learning_rate": 3.6842105263157896e-06, "loss": 0.6041, "step": 42 }, { "epoch": 0.011466666666666667, "grad_norm": 4.335381010732938, "learning_rate": 3.7719298245614037e-06, "loss": 0.6024, "step": 43 }, { "epoch": 0.011733333333333333, "grad_norm": 3.654183525448732, "learning_rate": 3.859649122807018e-06, "loss": 0.5029, "step": 44 }, { "epoch": 0.012, "grad_norm": 3.642659442322371, "learning_rate": 3.947368421052632e-06, "loss": 0.4944, "step": 45 }, { "epoch": 0.012266666666666667, "grad_norm": 4.076536234470417, "learning_rate": 4.035087719298246e-06, "loss": 0.5602, "step": 46 }, { "epoch": 0.012533333333333334, "grad_norm": 4.345904381688737, "learning_rate": 4.12280701754386e-06, "loss": 0.5844, "step": 47 }, { "epoch": 0.0128, "grad_norm": 3.790935881903741, "learning_rate": 4.210526315789474e-06, "loss": 0.5543, "step": 48 }, { "epoch": 0.013066666666666667, "grad_norm": 4.43947747284119, "learning_rate": 4.298245614035088e-06, "loss": 0.6317, "step": 49 }, { "epoch": 0.013333333333333334, "grad_norm": 4.2214032418178835, "learning_rate": 4.385964912280702e-06, "loss": 0.5675, "step": 50 }, { "epoch": 0.0136, "grad_norm": 4.177891117760546, "learning_rate": 4.473684210526316e-06, "loss": 0.539, "step": 51 }, { "epoch": 0.013866666666666666, "grad_norm": 3.8765276391219103, "learning_rate": 4.56140350877193e-06, "loss": 0.5401, "step": 52 }, { "epoch": 0.014133333333333333, "grad_norm": 4.139376801664263, "learning_rate": 4.649122807017544e-06, "loss": 0.5683, "step": 53 }, { "epoch": 0.0144, "grad_norm": 4.386406428056687, "learning_rate": 4.736842105263158e-06, "loss": 0.6051, "step": 54 }, { "epoch": 0.014666666666666666, "grad_norm": 4.064778648215169, "learning_rate": 4.824561403508772e-06, "loss": 0.5759, "step": 55 }, { "epoch": 0.014933333333333333, "grad_norm": 4.219162510613236, "learning_rate": 4.912280701754386e-06, "loss": 0.5704, "step": 56 }, { "epoch": 0.0152, "grad_norm": 3.831974081926601, "learning_rate": 5e-06, "loss": 0.5397, "step": 57 }, { "epoch": 0.015466666666666667, "grad_norm": 4.6183346531644744, "learning_rate": 4.999999095411386e-06, "loss": 0.6138, "step": 58 }, { "epoch": 0.015733333333333332, "grad_norm": 3.7387169752428195, "learning_rate": 4.9999963816462e-06, "loss": 0.5323, "step": 59 }, { "epoch": 0.016, "grad_norm": 4.239229425480186, "learning_rate": 4.999991858706405e-06, "loss": 0.4789, "step": 60 }, { "epoch": 0.016266666666666665, "grad_norm": 3.7689009798083024, "learning_rate": 4.9999855265952725e-06, "loss": 0.5465, "step": 61 }, { "epoch": 0.016533333333333334, "grad_norm": 4.05183646162081, "learning_rate": 4.9999773853173875e-06, "loss": 0.5761, "step": 62 }, { "epoch": 0.0168, "grad_norm": 3.931061351868771, "learning_rate": 4.99996743487864e-06, "loss": 0.54, "step": 63 }, { "epoch": 0.017066666666666667, "grad_norm": 3.6573129700054587, "learning_rate": 4.999955675286231e-06, "loss": 0.5477, "step": 64 }, { "epoch": 0.017333333333333333, "grad_norm": 4.074275033874058, "learning_rate": 4.999942106548672e-06, "loss": 0.5834, "step": 65 }, { "epoch": 0.0176, "grad_norm": 3.494548303290731, "learning_rate": 4.99992672867578e-06, "loss": 0.5213, "step": 66 }, { "epoch": 0.017866666666666666, "grad_norm": 4.03353340840384, "learning_rate": 4.999909541678686e-06, "loss": 0.5532, "step": 67 }, { "epoch": 0.018133333333333335, "grad_norm": 3.8866233851405685, "learning_rate": 4.999890545569825e-06, "loss": 0.5791, "step": 68 }, { "epoch": 0.0184, "grad_norm": 3.9571742348999366, "learning_rate": 4.999869740362947e-06, "loss": 0.5193, "step": 69 }, { "epoch": 0.018666666666666668, "grad_norm": 4.275313986435107, "learning_rate": 4.999847126073107e-06, "loss": 0.5868, "step": 70 }, { "epoch": 0.018933333333333333, "grad_norm": 4.715217195538646, "learning_rate": 4.999822702716668e-06, "loss": 0.636, "step": 71 }, { "epoch": 0.0192, "grad_norm": 3.6899622703893504, "learning_rate": 4.999796470311307e-06, "loss": 0.5449, "step": 72 }, { "epoch": 0.019466666666666667, "grad_norm": 3.741914785422942, "learning_rate": 4.999768428876007e-06, "loss": 0.5359, "step": 73 }, { "epoch": 0.019733333333333332, "grad_norm": 4.294176117244813, "learning_rate": 4.999738578431061e-06, "loss": 0.6106, "step": 74 }, { "epoch": 0.02, "grad_norm": 3.832398928514838, "learning_rate": 4.99970691899807e-06, "loss": 0.5616, "step": 75 }, { "epoch": 0.020266666666666665, "grad_norm": 3.6813352011445586, "learning_rate": 4.999673450599946e-06, "loss": 0.4993, "step": 76 }, { "epoch": 0.020533333333333334, "grad_norm": 3.6417212739231264, "learning_rate": 4.999638173260908e-06, "loss": 0.5886, "step": 77 }, { "epoch": 0.0208, "grad_norm": 3.912060920032368, "learning_rate": 4.999601087006487e-06, "loss": 0.5709, "step": 78 }, { "epoch": 0.021066666666666668, "grad_norm": 3.580747505651906, "learning_rate": 4.99956219186352e-06, "loss": 0.5004, "step": 79 }, { "epoch": 0.021333333333333333, "grad_norm": 2.944029948159031, "learning_rate": 4.999521487860154e-06, "loss": 0.4468, "step": 80 }, { "epoch": 0.0216, "grad_norm": 3.601419453991183, "learning_rate": 4.999478975025845e-06, "loss": 0.5409, "step": 81 }, { "epoch": 0.021866666666666666, "grad_norm": 3.797133488665564, "learning_rate": 4.999434653391361e-06, "loss": 0.56, "step": 82 }, { "epoch": 0.022133333333333335, "grad_norm": 3.7270657577804203, "learning_rate": 4.9993885229887725e-06, "loss": 0.5323, "step": 83 }, { "epoch": 0.0224, "grad_norm": 3.5578036473131047, "learning_rate": 4.9993405838514656e-06, "loss": 0.4826, "step": 84 }, { "epoch": 0.02266666666666667, "grad_norm": 3.6576120898756255, "learning_rate": 4.999290836014131e-06, "loss": 0.5021, "step": 85 }, { "epoch": 0.022933333333333333, "grad_norm": 3.9216063758679063, "learning_rate": 4.99923927951277e-06, "loss": 0.5341, "step": 86 }, { "epoch": 0.0232, "grad_norm": 3.9928924345830814, "learning_rate": 4.9991859143846934e-06, "loss": 0.5782, "step": 87 }, { "epoch": 0.023466666666666667, "grad_norm": 3.812922190094923, "learning_rate": 4.9991307406685185e-06, "loss": 0.5558, "step": 88 }, { "epoch": 0.023733333333333332, "grad_norm": 4.326274624009955, "learning_rate": 4.999073758404174e-06, "loss": 0.6184, "step": 89 }, { "epoch": 0.024, "grad_norm": 3.8419338354451167, "learning_rate": 4.999014967632896e-06, "loss": 0.5223, "step": 90 }, { "epoch": 0.024266666666666666, "grad_norm": 3.5058696550240933, "learning_rate": 4.99895436839723e-06, "loss": 0.4855, "step": 91 }, { "epoch": 0.024533333333333334, "grad_norm": 3.8292763418802283, "learning_rate": 4.9988919607410295e-06, "loss": 0.5978, "step": 92 }, { "epoch": 0.0248, "grad_norm": 3.6789483112868817, "learning_rate": 4.998827744709457e-06, "loss": 0.5151, "step": 93 }, { "epoch": 0.025066666666666668, "grad_norm": 3.6727854869156733, "learning_rate": 4.998761720348984e-06, "loss": 0.5391, "step": 94 }, { "epoch": 0.025333333333333333, "grad_norm": 3.6735755581735043, "learning_rate": 4.99869388770739e-06, "loss": 0.5439, "step": 95 }, { "epoch": 0.0256, "grad_norm": 3.8225889183763493, "learning_rate": 4.998624246833764e-06, "loss": 0.5479, "step": 96 }, { "epoch": 0.025866666666666666, "grad_norm": 4.541475336968338, "learning_rate": 4.998552797778503e-06, "loss": 0.5631, "step": 97 }, { "epoch": 0.026133333333333335, "grad_norm": 3.716982842811319, "learning_rate": 4.998479540593313e-06, "loss": 0.5359, "step": 98 }, { "epoch": 0.0264, "grad_norm": 3.87105906410667, "learning_rate": 4.998404475331207e-06, "loss": 0.5079, "step": 99 }, { "epoch": 0.02666666666666667, "grad_norm": 4.640660694203583, "learning_rate": 4.998327602046509e-06, "loss": 0.5931, "step": 100 }, { "epoch": 0.026933333333333333, "grad_norm": 3.931945796970524, "learning_rate": 4.998248920794848e-06, "loss": 0.6112, "step": 101 }, { "epoch": 0.0272, "grad_norm": 3.6011115802109357, "learning_rate": 4.998168431633166e-06, "loss": 0.5479, "step": 102 }, { "epoch": 0.027466666666666667, "grad_norm": 3.7922912213009674, "learning_rate": 4.998086134619708e-06, "loss": 0.5408, "step": 103 }, { "epoch": 0.027733333333333332, "grad_norm": 5.230073812133869, "learning_rate": 4.998002029814032e-06, "loss": 0.5253, "step": 104 }, { "epoch": 0.028, "grad_norm": 3.3549558199957987, "learning_rate": 4.997916117277e-06, "loss": 0.4897, "step": 105 }, { "epoch": 0.028266666666666666, "grad_norm": 3.2546829730647167, "learning_rate": 4.997828397070787e-06, "loss": 0.4921, "step": 106 }, { "epoch": 0.028533333333333334, "grad_norm": 3.5467011504565726, "learning_rate": 4.997738869258871e-06, "loss": 0.5343, "step": 107 }, { "epoch": 0.0288, "grad_norm": 3.299989078332568, "learning_rate": 4.997647533906043e-06, "loss": 0.5215, "step": 108 }, { "epoch": 0.029066666666666668, "grad_norm": 3.377007248269215, "learning_rate": 4.997554391078398e-06, "loss": 0.5329, "step": 109 }, { "epoch": 0.029333333333333333, "grad_norm": 3.2141221604903945, "learning_rate": 4.997459440843342e-06, "loss": 0.4558, "step": 110 }, { "epoch": 0.0296, "grad_norm": 3.3463765683517708, "learning_rate": 4.997362683269587e-06, "loss": 0.5167, "step": 111 }, { "epoch": 0.029866666666666666, "grad_norm": 3.5339087474526027, "learning_rate": 4.997264118427153e-06, "loss": 0.5159, "step": 112 }, { "epoch": 0.030133333333333335, "grad_norm": 3.8098671461388793, "learning_rate": 4.99716374638737e-06, "loss": 0.5734, "step": 113 }, { "epoch": 0.0304, "grad_norm": 3.2757471712055244, "learning_rate": 4.997061567222873e-06, "loss": 0.486, "step": 114 }, { "epoch": 0.030666666666666665, "grad_norm": 3.286678784675395, "learning_rate": 4.996957581007608e-06, "loss": 0.5165, "step": 115 }, { "epoch": 0.030933333333333334, "grad_norm": 3.6434219044744136, "learning_rate": 4.9968517878168245e-06, "loss": 0.5237, "step": 116 }, { "epoch": 0.0312, "grad_norm": 3.627938615615135, "learning_rate": 4.996744187727083e-06, "loss": 0.5142, "step": 117 }, { "epoch": 0.031466666666666664, "grad_norm": 3.320853097575591, "learning_rate": 4.99663478081625e-06, "loss": 0.5195, "step": 118 }, { "epoch": 0.031733333333333336, "grad_norm": 3.6391771571423654, "learning_rate": 4.996523567163502e-06, "loss": 0.5618, "step": 119 }, { "epoch": 0.032, "grad_norm": 3.4863362691510322, "learning_rate": 4.996410546849318e-06, "loss": 0.5404, "step": 120 }, { "epoch": 0.032266666666666666, "grad_norm": 4.017840443053972, "learning_rate": 4.996295719955491e-06, "loss": 0.5362, "step": 121 }, { "epoch": 0.03253333333333333, "grad_norm": 3.2984055568221984, "learning_rate": 4.996179086565114e-06, "loss": 0.4817, "step": 122 }, { "epoch": 0.0328, "grad_norm": 3.035660532380442, "learning_rate": 4.996060646762595e-06, "loss": 0.4517, "step": 123 }, { "epoch": 0.03306666666666667, "grad_norm": 3.539994686736976, "learning_rate": 4.995940400633643e-06, "loss": 0.528, "step": 124 }, { "epoch": 0.03333333333333333, "grad_norm": 3.334218903660853, "learning_rate": 4.995818348265278e-06, "loss": 0.4999, "step": 125 }, { "epoch": 0.0336, "grad_norm": 3.964059548314963, "learning_rate": 4.995694489745824e-06, "loss": 0.5518, "step": 126 }, { "epoch": 0.03386666666666667, "grad_norm": 3.3899972345657137, "learning_rate": 4.995568825164915e-06, "loss": 0.5279, "step": 127 }, { "epoch": 0.034133333333333335, "grad_norm": 3.5709219668983643, "learning_rate": 4.995441354613491e-06, "loss": 0.5486, "step": 128 }, { "epoch": 0.0344, "grad_norm": 4.98908649883216, "learning_rate": 4.995312078183798e-06, "loss": 0.5248, "step": 129 }, { "epoch": 0.034666666666666665, "grad_norm": 3.4693372789893764, "learning_rate": 4.995180995969391e-06, "loss": 0.5555, "step": 130 }, { "epoch": 0.03493333333333333, "grad_norm": 3.1631371509927786, "learning_rate": 4.995048108065129e-06, "loss": 0.4766, "step": 131 }, { "epoch": 0.0352, "grad_norm": 3.6587619499659767, "learning_rate": 4.994913414567179e-06, "loss": 0.5211, "step": 132 }, { "epoch": 0.03546666666666667, "grad_norm": 3.3219752454058558, "learning_rate": 4.9947769155730155e-06, "loss": 0.5275, "step": 133 }, { "epoch": 0.03573333333333333, "grad_norm": 3.413632369325516, "learning_rate": 4.994638611181418e-06, "loss": 0.5289, "step": 134 }, { "epoch": 0.036, "grad_norm": 3.6136773511380684, "learning_rate": 4.994498501492475e-06, "loss": 0.5283, "step": 135 }, { "epoch": 0.03626666666666667, "grad_norm": 4.026084256616267, "learning_rate": 4.994356586607578e-06, "loss": 0.5208, "step": 136 }, { "epoch": 0.036533333333333334, "grad_norm": 3.722023910761381, "learning_rate": 4.994212866629428e-06, "loss": 0.5414, "step": 137 }, { "epoch": 0.0368, "grad_norm": 3.5528597040724392, "learning_rate": 4.99406734166203e-06, "loss": 0.5266, "step": 138 }, { "epoch": 0.037066666666666664, "grad_norm": 3.1590905669047276, "learning_rate": 4.9939200118106965e-06, "loss": 0.4458, "step": 139 }, { "epoch": 0.037333333333333336, "grad_norm": 3.246167195189022, "learning_rate": 4.9937708771820465e-06, "loss": 0.5281, "step": 140 }, { "epoch": 0.0376, "grad_norm": 3.336184435055362, "learning_rate": 4.993619937884003e-06, "loss": 0.5229, "step": 141 }, { "epoch": 0.037866666666666667, "grad_norm": 4.121329975887411, "learning_rate": 4.993467194025798e-06, "loss": 0.6044, "step": 142 }, { "epoch": 0.03813333333333333, "grad_norm": 3.5145940681973973, "learning_rate": 4.9933126457179664e-06, "loss": 0.5135, "step": 143 }, { "epoch": 0.0384, "grad_norm": 3.826425100945296, "learning_rate": 4.993156293072351e-06, "loss": 0.5524, "step": 144 }, { "epoch": 0.03866666666666667, "grad_norm": 3.2350581179193956, "learning_rate": 4.9929981362021e-06, "loss": 0.4861, "step": 145 }, { "epoch": 0.038933333333333334, "grad_norm": 3.5244201937931736, "learning_rate": 4.992838175221665e-06, "loss": 0.4949, "step": 146 }, { "epoch": 0.0392, "grad_norm": 3.345002474222351, "learning_rate": 4.992676410246808e-06, "loss": 0.4843, "step": 147 }, { "epoch": 0.039466666666666664, "grad_norm": 3.982107262081199, "learning_rate": 4.9925128413945915e-06, "loss": 0.5169, "step": 148 }, { "epoch": 0.039733333333333336, "grad_norm": 4.420206156116031, "learning_rate": 4.992347468783386e-06, "loss": 0.519, "step": 149 }, { "epoch": 0.04, "grad_norm": 3.5986824396586155, "learning_rate": 4.992180292532868e-06, "loss": 0.4976, "step": 150 }, { "epoch": 0.040266666666666666, "grad_norm": 3.4658534857792276, "learning_rate": 4.9920113127640154e-06, "loss": 0.5241, "step": 151 }, { "epoch": 0.04053333333333333, "grad_norm": 3.2345602463007004, "learning_rate": 4.991840529599117e-06, "loss": 0.5189, "step": 152 }, { "epoch": 0.0408, "grad_norm": 3.016814163613408, "learning_rate": 4.991667943161762e-06, "loss": 0.4747, "step": 153 }, { "epoch": 0.04106666666666667, "grad_norm": 3.307813360099244, "learning_rate": 4.991493553576846e-06, "loss": 0.5055, "step": 154 }, { "epoch": 0.04133333333333333, "grad_norm": 3.312645878921915, "learning_rate": 4.99131736097057e-06, "loss": 0.5269, "step": 155 }, { "epoch": 0.0416, "grad_norm": 3.376637583630637, "learning_rate": 4.991139365470441e-06, "loss": 0.5312, "step": 156 }, { "epoch": 0.04186666666666667, "grad_norm": 3.1609600696998936, "learning_rate": 4.990959567205266e-06, "loss": 0.5342, "step": 157 }, { "epoch": 0.042133333333333335, "grad_norm": 3.187100198932855, "learning_rate": 4.990777966305163e-06, "loss": 0.493, "step": 158 }, { "epoch": 0.0424, "grad_norm": 3.185942977276951, "learning_rate": 4.9905945629015485e-06, "loss": 0.507, "step": 159 }, { "epoch": 0.042666666666666665, "grad_norm": 2.832730109420205, "learning_rate": 4.990409357127148e-06, "loss": 0.4496, "step": 160 }, { "epoch": 0.04293333333333333, "grad_norm": 3.5486910780160223, "learning_rate": 4.990222349115988e-06, "loss": 0.5449, "step": 161 }, { "epoch": 0.0432, "grad_norm": 3.3570318486359856, "learning_rate": 4.990033539003404e-06, "loss": 0.5021, "step": 162 }, { "epoch": 0.04346666666666667, "grad_norm": 3.2864368490605322, "learning_rate": 4.989842926926028e-06, "loss": 0.5108, "step": 163 }, { "epoch": 0.04373333333333333, "grad_norm": 3.8078930431509477, "learning_rate": 4.989650513021803e-06, "loss": 0.5953, "step": 164 }, { "epoch": 0.044, "grad_norm": 3.8458072867492015, "learning_rate": 4.989456297429974e-06, "loss": 0.5775, "step": 165 }, { "epoch": 0.04426666666666667, "grad_norm": 3.5151007100059233, "learning_rate": 4.989260280291087e-06, "loss": 0.5063, "step": 166 }, { "epoch": 0.044533333333333334, "grad_norm": 3.4882619459535666, "learning_rate": 4.989062461746995e-06, "loss": 0.5249, "step": 167 }, { "epoch": 0.0448, "grad_norm": 3.295879769050429, "learning_rate": 4.9888628419408545e-06, "loss": 0.512, "step": 168 }, { "epoch": 0.045066666666666665, "grad_norm": 3.3337316655894855, "learning_rate": 4.988661421017123e-06, "loss": 0.4908, "step": 169 }, { "epoch": 0.04533333333333334, "grad_norm": 3.211645501056716, "learning_rate": 4.988458199121562e-06, "loss": 0.4842, "step": 170 }, { "epoch": 0.0456, "grad_norm": 3.0876353420668377, "learning_rate": 4.988253176401241e-06, "loss": 0.4813, "step": 171 }, { "epoch": 0.04586666666666667, "grad_norm": 3.0913792444791204, "learning_rate": 4.988046353004525e-06, "loss": 0.4923, "step": 172 }, { "epoch": 0.04613333333333333, "grad_norm": 3.5551205990787027, "learning_rate": 4.987837729081089e-06, "loss": 0.4992, "step": 173 }, { "epoch": 0.0464, "grad_norm": 3.4399895908034623, "learning_rate": 4.9876273047819065e-06, "loss": 0.5462, "step": 174 }, { "epoch": 0.04666666666666667, "grad_norm": 3.2640876711512834, "learning_rate": 4.987415080259256e-06, "loss": 0.5499, "step": 175 }, { "epoch": 0.046933333333333334, "grad_norm": 3.7173026805349965, "learning_rate": 4.987201055666717e-06, "loss": 0.5707, "step": 176 }, { "epoch": 0.0472, "grad_norm": 3.5354598511524404, "learning_rate": 4.986985231159175e-06, "loss": 0.5446, "step": 177 }, { "epoch": 0.047466666666666664, "grad_norm": 3.663928727125482, "learning_rate": 4.986767606892814e-06, "loss": 0.6136, "step": 178 }, { "epoch": 0.047733333333333336, "grad_norm": 3.081817993285177, "learning_rate": 4.986548183025124e-06, "loss": 0.502, "step": 179 }, { "epoch": 0.048, "grad_norm": 3.3567444350330904, "learning_rate": 4.986326959714894e-06, "loss": 0.5155, "step": 180 }, { "epoch": 0.048266666666666666, "grad_norm": 3.522848483596829, "learning_rate": 4.986103937122218e-06, "loss": 0.5469, "step": 181 }, { "epoch": 0.04853333333333333, "grad_norm": 3.076570282124742, "learning_rate": 4.985879115408491e-06, "loss": 0.493, "step": 182 }, { "epoch": 0.0488, "grad_norm": 3.246018535433531, "learning_rate": 4.985652494736409e-06, "loss": 0.5336, "step": 183 }, { "epoch": 0.04906666666666667, "grad_norm": 3.4873058597226234, "learning_rate": 4.985424075269971e-06, "loss": 0.5816, "step": 184 }, { "epoch": 0.04933333333333333, "grad_norm": 3.396574458152799, "learning_rate": 4.985193857174479e-06, "loss": 0.5447, "step": 185 }, { "epoch": 0.0496, "grad_norm": 4.565469725849569, "learning_rate": 4.9849618406165335e-06, "loss": 0.5715, "step": 186 }, { "epoch": 0.04986666666666666, "grad_norm": 3.5035500712230276, "learning_rate": 4.984728025764038e-06, "loss": 0.5658, "step": 187 }, { "epoch": 0.050133333333333335, "grad_norm": 3.561498119385834, "learning_rate": 4.984492412786199e-06, "loss": 0.4894, "step": 188 }, { "epoch": 0.0504, "grad_norm": 3.0436725898311074, "learning_rate": 4.984255001853522e-06, "loss": 0.5433, "step": 189 }, { "epoch": 0.050666666666666665, "grad_norm": 3.1382958166692156, "learning_rate": 4.984015793137813e-06, "loss": 0.492, "step": 190 }, { "epoch": 0.05093333333333333, "grad_norm": 4.235309482041514, "learning_rate": 4.983774786812183e-06, "loss": 0.5318, "step": 191 }, { "epoch": 0.0512, "grad_norm": 2.9330887653974647, "learning_rate": 4.98353198305104e-06, "loss": 0.4835, "step": 192 }, { "epoch": 0.05146666666666667, "grad_norm": 5.016620741657026, "learning_rate": 4.983287382030093e-06, "loss": 0.4793, "step": 193 }, { "epoch": 0.05173333333333333, "grad_norm": 3.136151048883616, "learning_rate": 4.983040983926354e-06, "loss": 0.4776, "step": 194 }, { "epoch": 0.052, "grad_norm": 3.189686296710991, "learning_rate": 4.982792788918133e-06, "loss": 0.515, "step": 195 }, { "epoch": 0.05226666666666667, "grad_norm": 3.059085616414067, "learning_rate": 4.982542797185043e-06, "loss": 0.4702, "step": 196 }, { "epoch": 0.052533333333333335, "grad_norm": 3.3213544062570883, "learning_rate": 4.982291008907995e-06, "loss": 0.547, "step": 197 }, { "epoch": 0.0528, "grad_norm": 3.4227005646532227, "learning_rate": 4.982037424269201e-06, "loss": 0.4895, "step": 198 }, { "epoch": 0.053066666666666665, "grad_norm": 3.3236057852775867, "learning_rate": 4.981782043452171e-06, "loss": 0.5303, "step": 199 }, { "epoch": 0.05333333333333334, "grad_norm": 3.486664543933442, "learning_rate": 4.9815248666417205e-06, "loss": 0.5269, "step": 200 }, { "epoch": 0.0536, "grad_norm": 4.332963857319183, "learning_rate": 4.981265894023957e-06, "loss": 0.5649, "step": 201 }, { "epoch": 0.05386666666666667, "grad_norm": 3.1022291834137907, "learning_rate": 4.981005125786293e-06, "loss": 0.4833, "step": 202 }, { "epoch": 0.05413333333333333, "grad_norm": 3.2711645634738056, "learning_rate": 4.980742562117441e-06, "loss": 0.5431, "step": 203 }, { "epoch": 0.0544, "grad_norm": 3.4015751797130473, "learning_rate": 4.980478203207407e-06, "loss": 0.5611, "step": 204 }, { "epoch": 0.05466666666666667, "grad_norm": 3.1927520965535288, "learning_rate": 4.9802120492475015e-06, "loss": 0.5106, "step": 205 }, { "epoch": 0.054933333333333334, "grad_norm": 3.1946773961545247, "learning_rate": 4.979944100430333e-06, "loss": 0.4582, "step": 206 }, { "epoch": 0.0552, "grad_norm": 3.148182228958422, "learning_rate": 4.979674356949807e-06, "loss": 0.4843, "step": 207 }, { "epoch": 0.055466666666666664, "grad_norm": 3.8754028003825254, "learning_rate": 4.97940281900113e-06, "loss": 0.5448, "step": 208 }, { "epoch": 0.055733333333333336, "grad_norm": 3.1047793562904693, "learning_rate": 4.979129486780806e-06, "loss": 0.4934, "step": 209 }, { "epoch": 0.056, "grad_norm": 3.3620139633336437, "learning_rate": 4.978854360486637e-06, "loss": 0.4717, "step": 210 }, { "epoch": 0.056266666666666666, "grad_norm": 3.5251150225827534, "learning_rate": 4.978577440317724e-06, "loss": 0.5377, "step": 211 }, { "epoch": 0.05653333333333333, "grad_norm": 3.0739987143745617, "learning_rate": 4.978298726474467e-06, "loss": 0.4884, "step": 212 }, { "epoch": 0.0568, "grad_norm": 3.5204582854821234, "learning_rate": 4.978018219158562e-06, "loss": 0.5303, "step": 213 }, { "epoch": 0.05706666666666667, "grad_norm": 3.3814681802707907, "learning_rate": 4.977735918573005e-06, "loss": 0.5058, "step": 214 }, { "epoch": 0.05733333333333333, "grad_norm": 3.104430749225578, "learning_rate": 4.977451824922087e-06, "loss": 0.496, "step": 215 }, { "epoch": 0.0576, "grad_norm": 3.2829930934640417, "learning_rate": 4.977165938411399e-06, "loss": 0.5096, "step": 216 }, { "epoch": 0.057866666666666663, "grad_norm": 3.664283813470016, "learning_rate": 4.9768782592478306e-06, "loss": 0.5316, "step": 217 }, { "epoch": 0.058133333333333335, "grad_norm": 3.056204172084974, "learning_rate": 4.976588787639565e-06, "loss": 0.4942, "step": 218 }, { "epoch": 0.0584, "grad_norm": 3.5701306872309657, "learning_rate": 4.9762975237960845e-06, "loss": 0.5205, "step": 219 }, { "epoch": 0.058666666666666666, "grad_norm": 3.067161195753053, "learning_rate": 4.976004467928167e-06, "loss": 0.4717, "step": 220 }, { "epoch": 0.05893333333333333, "grad_norm": 3.2754891029241406, "learning_rate": 4.975709620247892e-06, "loss": 0.4363, "step": 221 }, { "epoch": 0.0592, "grad_norm": 3.280975123781493, "learning_rate": 4.9754129809686295e-06, "loss": 0.5078, "step": 222 }, { "epoch": 0.05946666666666667, "grad_norm": 4.6404012909163725, "learning_rate": 4.975114550305049e-06, "loss": 0.5093, "step": 223 }, { "epoch": 0.05973333333333333, "grad_norm": 3.3186040152109593, "learning_rate": 4.9748143284731175e-06, "loss": 0.5364, "step": 224 }, { "epoch": 0.06, "grad_norm": 2.937376527701268, "learning_rate": 4.974512315690096e-06, "loss": 0.4826, "step": 225 }, { "epoch": 0.06026666666666667, "grad_norm": 3.254641274419012, "learning_rate": 4.974208512174541e-06, "loss": 0.5104, "step": 226 }, { "epoch": 0.060533333333333335, "grad_norm": 3.6088946260925177, "learning_rate": 4.973902918146308e-06, "loss": 0.5738, "step": 227 }, { "epoch": 0.0608, "grad_norm": 3.729124099935541, "learning_rate": 4.973595533826545e-06, "loss": 0.5655, "step": 228 }, { "epoch": 0.061066666666666665, "grad_norm": 3.1315940399195794, "learning_rate": 4.973286359437699e-06, "loss": 0.5506, "step": 229 }, { "epoch": 0.06133333333333333, "grad_norm": 3.682497819886356, "learning_rate": 4.972975395203509e-06, "loss": 0.5055, "step": 230 }, { "epoch": 0.0616, "grad_norm": 3.1545061287940848, "learning_rate": 4.972662641349012e-06, "loss": 0.4924, "step": 231 }, { "epoch": 0.06186666666666667, "grad_norm": 3.763625472437068, "learning_rate": 4.972348098100537e-06, "loss": 0.5222, "step": 232 }, { "epoch": 0.06213333333333333, "grad_norm": 3.0281751446094516, "learning_rate": 4.972031765685712e-06, "loss": 0.5141, "step": 233 }, { "epoch": 0.0624, "grad_norm": 3.455763493296629, "learning_rate": 4.971713644333456e-06, "loss": 0.5127, "step": 234 }, { "epoch": 0.06266666666666666, "grad_norm": 2.8541532859174823, "learning_rate": 4.9713937342739845e-06, "loss": 0.4203, "step": 235 }, { "epoch": 0.06293333333333333, "grad_norm": 2.9908237851704187, "learning_rate": 4.9710720357388076e-06, "loss": 0.4563, "step": 236 }, { "epoch": 0.0632, "grad_norm": 3.602774863246798, "learning_rate": 4.9707485489607285e-06, "loss": 0.4919, "step": 237 }, { "epoch": 0.06346666666666667, "grad_norm": 3.1779524726831787, "learning_rate": 4.970423274173845e-06, "loss": 0.4912, "step": 238 }, { "epoch": 0.06373333333333334, "grad_norm": 3.4015075885465573, "learning_rate": 4.97009621161355e-06, "loss": 0.5219, "step": 239 }, { "epoch": 0.064, "grad_norm": 3.332450655998677, "learning_rate": 4.969767361516529e-06, "loss": 0.5433, "step": 240 }, { "epoch": 0.06426666666666667, "grad_norm": 3.259291883649026, "learning_rate": 4.969436724120761e-06, "loss": 0.5344, "step": 241 }, { "epoch": 0.06453333333333333, "grad_norm": 3.4133033935843358, "learning_rate": 4.969104299665517e-06, "loss": 0.506, "step": 242 }, { "epoch": 0.0648, "grad_norm": 3.50586708733024, "learning_rate": 4.968770088391366e-06, "loss": 0.5296, "step": 243 }, { "epoch": 0.06506666666666666, "grad_norm": 3.3747741323442155, "learning_rate": 4.968434090540165e-06, "loss": 0.535, "step": 244 }, { "epoch": 0.06533333333333333, "grad_norm": 3.6575919074486816, "learning_rate": 4.968096306355066e-06, "loss": 0.5698, "step": 245 }, { "epoch": 0.0656, "grad_norm": 4.170142084339481, "learning_rate": 4.967756736080514e-06, "loss": 0.6019, "step": 246 }, { "epoch": 0.06586666666666667, "grad_norm": 3.203204961842512, "learning_rate": 4.967415379962246e-06, "loss": 0.4977, "step": 247 }, { "epoch": 0.06613333333333334, "grad_norm": 3.3205074228970326, "learning_rate": 4.967072238247291e-06, "loss": 0.51, "step": 248 }, { "epoch": 0.0664, "grad_norm": 2.988259466863908, "learning_rate": 4.966727311183971e-06, "loss": 0.4508, "step": 249 }, { "epoch": 0.06666666666666667, "grad_norm": 3.138002031798859, "learning_rate": 4.966380599021901e-06, "loss": 0.5175, "step": 250 }, { "epoch": 0.06693333333333333, "grad_norm": 3.2906120137705006, "learning_rate": 4.966032102011984e-06, "loss": 0.502, "step": 251 }, { "epoch": 0.0672, "grad_norm": 3.609166949916554, "learning_rate": 4.9656818204064185e-06, "loss": 0.5466, "step": 252 }, { "epoch": 0.06746666666666666, "grad_norm": 3.066079905140308, "learning_rate": 4.9653297544586945e-06, "loss": 0.5128, "step": 253 }, { "epoch": 0.06773333333333334, "grad_norm": 3.119169052181802, "learning_rate": 4.964975904423589e-06, "loss": 0.4989, "step": 254 }, { "epoch": 0.068, "grad_norm": 3.753147368129673, "learning_rate": 4.964620270557175e-06, "loss": 0.5763, "step": 255 }, { "epoch": 0.06826666666666667, "grad_norm": 2.959157022454219, "learning_rate": 4.964262853116813e-06, "loss": 0.4902, "step": 256 }, { "epoch": 0.06853333333333333, "grad_norm": 3.0209969259082956, "learning_rate": 4.963903652361157e-06, "loss": 0.4947, "step": 257 }, { "epoch": 0.0688, "grad_norm": 4.072573433131865, "learning_rate": 4.963542668550149e-06, "loss": 0.6255, "step": 258 }, { "epoch": 0.06906666666666667, "grad_norm": 2.95427106736962, "learning_rate": 4.963179901945024e-06, "loss": 0.461, "step": 259 }, { "epoch": 0.06933333333333333, "grad_norm": 3.4814213837495194, "learning_rate": 4.962815352808303e-06, "loss": 0.6273, "step": 260 }, { "epoch": 0.0696, "grad_norm": 3.1554426358956245, "learning_rate": 4.962449021403803e-06, "loss": 0.5164, "step": 261 }, { "epoch": 0.06986666666666666, "grad_norm": 2.8900787912158985, "learning_rate": 4.962080907996625e-06, "loss": 0.4476, "step": 262 }, { "epoch": 0.07013333333333334, "grad_norm": 2.7762042175274466, "learning_rate": 4.961711012853161e-06, "loss": 0.4884, "step": 263 }, { "epoch": 0.0704, "grad_norm": 3.0855121371309977, "learning_rate": 4.961339336241097e-06, "loss": 0.5087, "step": 264 }, { "epoch": 0.07066666666666667, "grad_norm": 3.003609553271574, "learning_rate": 4.960965878429401e-06, "loss": 0.4643, "step": 265 }, { "epoch": 0.07093333333333333, "grad_norm": 3.2000172051603832, "learning_rate": 4.960590639688335e-06, "loss": 0.579, "step": 266 }, { "epoch": 0.0712, "grad_norm": 3.4002117777790044, "learning_rate": 4.960213620289449e-06, "loss": 0.5512, "step": 267 }, { "epoch": 0.07146666666666666, "grad_norm": 2.7426088172462615, "learning_rate": 4.9598348205055804e-06, "loss": 0.4477, "step": 268 }, { "epoch": 0.07173333333333333, "grad_norm": 3.217406633017094, "learning_rate": 4.959454240610855e-06, "loss": 0.4665, "step": 269 }, { "epoch": 0.072, "grad_norm": 2.7424242503019234, "learning_rate": 4.959071880880688e-06, "loss": 0.4864, "step": 270 }, { "epoch": 0.07226666666666667, "grad_norm": 3.2383925542719267, "learning_rate": 4.958687741591782e-06, "loss": 0.5033, "step": 271 }, { "epoch": 0.07253333333333334, "grad_norm": 2.944759935358767, "learning_rate": 4.958301823022128e-06, "loss": 0.4653, "step": 272 }, { "epoch": 0.0728, "grad_norm": 3.306727132636148, "learning_rate": 4.957914125451002e-06, "loss": 0.5216, "step": 273 }, { "epoch": 0.07306666666666667, "grad_norm": 3.3226087721172775, "learning_rate": 4.9575246491589715e-06, "loss": 0.5207, "step": 274 }, { "epoch": 0.07333333333333333, "grad_norm": 2.9530470731607306, "learning_rate": 4.957133394427887e-06, "loss": 0.4839, "step": 275 }, { "epoch": 0.0736, "grad_norm": 3.2167650259477387, "learning_rate": 4.956740361540891e-06, "loss": 0.5313, "step": 276 }, { "epoch": 0.07386666666666666, "grad_norm": 2.9421123565434786, "learning_rate": 4.956345550782409e-06, "loss": 0.4669, "step": 277 }, { "epoch": 0.07413333333333333, "grad_norm": 2.90077015588377, "learning_rate": 4.955948962438153e-06, "loss": 0.482, "step": 278 }, { "epoch": 0.0744, "grad_norm": 3.375056174651594, "learning_rate": 4.955550596795122e-06, "loss": 0.5441, "step": 279 }, { "epoch": 0.07466666666666667, "grad_norm": 3.3311086840158013, "learning_rate": 4.955150454141604e-06, "loss": 0.5077, "step": 280 }, { "epoch": 0.07493333333333334, "grad_norm": 4.277471771214726, "learning_rate": 4.954748534767169e-06, "loss": 0.5704, "step": 281 }, { "epoch": 0.0752, "grad_norm": 3.2120790845261227, "learning_rate": 4.9543448389626745e-06, "loss": 0.5212, "step": 282 }, { "epoch": 0.07546666666666667, "grad_norm": 3.332656408177282, "learning_rate": 4.953939367020263e-06, "loss": 0.5488, "step": 283 }, { "epoch": 0.07573333333333333, "grad_norm": 3.29732222076447, "learning_rate": 4.953532119233364e-06, "loss": 0.5125, "step": 284 }, { "epoch": 0.076, "grad_norm": 3.1493202901722803, "learning_rate": 4.953123095896689e-06, "loss": 0.5554, "step": 285 }, { "epoch": 0.07626666666666666, "grad_norm": 3.1553700940745775, "learning_rate": 4.952712297306239e-06, "loss": 0.5378, "step": 286 }, { "epoch": 0.07653333333333333, "grad_norm": 3.0805402101789903, "learning_rate": 4.952299723759294e-06, "loss": 0.43, "step": 287 }, { "epoch": 0.0768, "grad_norm": 3.24388342131281, "learning_rate": 4.951885375554424e-06, "loss": 0.4979, "step": 288 }, { "epoch": 0.07706666666666667, "grad_norm": 3.1925633374167557, "learning_rate": 4.951469252991478e-06, "loss": 0.5286, "step": 289 }, { "epoch": 0.07733333333333334, "grad_norm": 2.763637076972043, "learning_rate": 4.951051356371594e-06, "loss": 0.4595, "step": 290 }, { "epoch": 0.0776, "grad_norm": 3.1697385452434363, "learning_rate": 4.950631685997192e-06, "loss": 0.495, "step": 291 }, { "epoch": 0.07786666666666667, "grad_norm": 2.974169891477938, "learning_rate": 4.950210242171973e-06, "loss": 0.4376, "step": 292 }, { "epoch": 0.07813333333333333, "grad_norm": 3.1528177407208404, "learning_rate": 4.949787025200926e-06, "loss": 0.481, "step": 293 }, { "epoch": 0.0784, "grad_norm": 3.4694867948212536, "learning_rate": 4.949362035390318e-06, "loss": 0.496, "step": 294 }, { "epoch": 0.07866666666666666, "grad_norm": 2.7648421648720993, "learning_rate": 4.948935273047705e-06, "loss": 0.4466, "step": 295 }, { "epoch": 0.07893333333333333, "grad_norm": 2.8480008205339336, "learning_rate": 4.94850673848192e-06, "loss": 0.4392, "step": 296 }, { "epoch": 0.0792, "grad_norm": 3.1089410004305154, "learning_rate": 4.9480764320030825e-06, "loss": 0.4888, "step": 297 }, { "epoch": 0.07946666666666667, "grad_norm": 2.920424246406726, "learning_rate": 4.947644353922592e-06, "loss": 0.4675, "step": 298 }, { "epoch": 0.07973333333333334, "grad_norm": 3.9239992000533688, "learning_rate": 4.94721050455313e-06, "loss": 0.5262, "step": 299 }, { "epoch": 0.08, "grad_norm": 2.7249612126263703, "learning_rate": 4.946774884208663e-06, "loss": 0.4854, "step": 300 }, { "epoch": 0.08026666666666667, "grad_norm": 2.913710951568275, "learning_rate": 4.946337493204434e-06, "loss": 0.4897, "step": 301 }, { "epoch": 0.08053333333333333, "grad_norm": 3.8780073639147505, "learning_rate": 4.945898331856972e-06, "loss": 0.5383, "step": 302 }, { "epoch": 0.0808, "grad_norm": 3.7168575961295063, "learning_rate": 4.945457400484085e-06, "loss": 0.5151, "step": 303 }, { "epoch": 0.08106666666666666, "grad_norm": 3.086008175995829, "learning_rate": 4.945014699404863e-06, "loss": 0.5007, "step": 304 }, { "epoch": 0.08133333333333333, "grad_norm": 2.935597632906862, "learning_rate": 4.944570228939674e-06, "loss": 0.5013, "step": 305 }, { "epoch": 0.0816, "grad_norm": 3.1192465780900087, "learning_rate": 4.944123989410169e-06, "loss": 0.5349, "step": 306 }, { "epoch": 0.08186666666666667, "grad_norm": 2.7212838937296224, "learning_rate": 4.943675981139279e-06, "loss": 0.4492, "step": 307 }, { "epoch": 0.08213333333333334, "grad_norm": 2.8852966078389635, "learning_rate": 4.943226204451215e-06, "loss": 0.4626, "step": 308 }, { "epoch": 0.0824, "grad_norm": 3.1976276452909786, "learning_rate": 4.942774659671465e-06, "loss": 0.477, "step": 309 }, { "epoch": 0.08266666666666667, "grad_norm": 3.0355743200374357, "learning_rate": 4.942321347126802e-06, "loss": 0.4618, "step": 310 }, { "epoch": 0.08293333333333333, "grad_norm": 3.1595967023987774, "learning_rate": 4.9418662671452736e-06, "loss": 0.5328, "step": 311 }, { "epoch": 0.0832, "grad_norm": 3.011641266496546, "learning_rate": 4.941409420056207e-06, "loss": 0.5088, "step": 312 }, { "epoch": 0.08346666666666666, "grad_norm": 2.8109443382570536, "learning_rate": 4.94095080619021e-06, "loss": 0.4815, "step": 313 }, { "epoch": 0.08373333333333334, "grad_norm": 3.312145642896201, "learning_rate": 4.940490425879168e-06, "loss": 0.5343, "step": 314 }, { "epoch": 0.084, "grad_norm": 3.6576634648839197, "learning_rate": 4.940028279456246e-06, "loss": 0.5732, "step": 315 }, { "epoch": 0.08426666666666667, "grad_norm": 2.808422566167049, "learning_rate": 4.9395643672558845e-06, "loss": 0.4823, "step": 316 }, { "epoch": 0.08453333333333334, "grad_norm": 2.724521312049742, "learning_rate": 4.939098689613804e-06, "loss": 0.4624, "step": 317 }, { "epoch": 0.0848, "grad_norm": 3.030635451165199, "learning_rate": 4.9386312468670006e-06, "loss": 0.5154, "step": 318 }, { "epoch": 0.08506666666666667, "grad_norm": 2.8108276056900032, "learning_rate": 4.93816203935375e-06, "loss": 0.4705, "step": 319 }, { "epoch": 0.08533333333333333, "grad_norm": 2.8513589272695143, "learning_rate": 4.9376910674136046e-06, "loss": 0.5032, "step": 320 }, { "epoch": 0.0856, "grad_norm": 3.402981171265507, "learning_rate": 4.937218331387392e-06, "loss": 0.4863, "step": 321 }, { "epoch": 0.08586666666666666, "grad_norm": 3.5090343774067003, "learning_rate": 4.936743831617218e-06, "loss": 0.5298, "step": 322 }, { "epoch": 0.08613333333333334, "grad_norm": 2.6701587968149108, "learning_rate": 4.936267568446463e-06, "loss": 0.5137, "step": 323 }, { "epoch": 0.0864, "grad_norm": 3.1171642510530946, "learning_rate": 4.935789542219788e-06, "loss": 0.4956, "step": 324 }, { "epoch": 0.08666666666666667, "grad_norm": 3.1611791458015803, "learning_rate": 4.9353097532831226e-06, "loss": 0.4873, "step": 325 }, { "epoch": 0.08693333333333333, "grad_norm": 2.720638425878405, "learning_rate": 4.9348282019836796e-06, "loss": 0.4655, "step": 326 }, { "epoch": 0.0872, "grad_norm": 3.004024325408925, "learning_rate": 4.934344888669942e-06, "loss": 0.4572, "step": 327 }, { "epoch": 0.08746666666666666, "grad_norm": 3.0694214207986996, "learning_rate": 4.9338598136916694e-06, "loss": 0.4989, "step": 328 }, { "epoch": 0.08773333333333333, "grad_norm": 2.739290030976085, "learning_rate": 4.933372977399896e-06, "loss": 0.4644, "step": 329 }, { "epoch": 0.088, "grad_norm": 3.3151124369065887, "learning_rate": 4.932884380146933e-06, "loss": 0.5423, "step": 330 }, { "epoch": 0.08826666666666666, "grad_norm": 3.0388416301956696, "learning_rate": 4.9323940222863625e-06, "loss": 0.511, "step": 331 }, { "epoch": 0.08853333333333334, "grad_norm": 3.179707068073131, "learning_rate": 4.931901904173042e-06, "loss": 0.4713, "step": 332 }, { "epoch": 0.0888, "grad_norm": 3.3132953078234064, "learning_rate": 4.931408026163105e-06, "loss": 0.5462, "step": 333 }, { "epoch": 0.08906666666666667, "grad_norm": 2.919234805416029, "learning_rate": 4.930912388613954e-06, "loss": 0.5045, "step": 334 }, { "epoch": 0.08933333333333333, "grad_norm": 2.9419114356605354, "learning_rate": 4.9304149918842695e-06, "loss": 0.4426, "step": 335 }, { "epoch": 0.0896, "grad_norm": 3.16121644185501, "learning_rate": 4.9299158363340015e-06, "loss": 0.5156, "step": 336 }, { "epoch": 0.08986666666666666, "grad_norm": 2.962139892680703, "learning_rate": 4.929414922324376e-06, "loss": 0.4817, "step": 337 }, { "epoch": 0.09013333333333333, "grad_norm": 3.2256930354654845, "learning_rate": 4.928912250217888e-06, "loss": 0.5948, "step": 338 }, { "epoch": 0.0904, "grad_norm": 3.1466216063370784, "learning_rate": 4.928407820378308e-06, "loss": 0.498, "step": 339 }, { "epoch": 0.09066666666666667, "grad_norm": 3.108236615455063, "learning_rate": 4.927901633170677e-06, "loss": 0.4611, "step": 340 }, { "epoch": 0.09093333333333334, "grad_norm": 3.262199070845579, "learning_rate": 4.927393688961308e-06, "loss": 0.5408, "step": 341 }, { "epoch": 0.0912, "grad_norm": 3.0694839188686553, "learning_rate": 4.926883988117785e-06, "loss": 0.4861, "step": 342 }, { "epoch": 0.09146666666666667, "grad_norm": 3.026280630386309, "learning_rate": 4.926372531008964e-06, "loss": 0.5218, "step": 343 }, { "epoch": 0.09173333333333333, "grad_norm": 4.407937590329267, "learning_rate": 4.925859318004972e-06, "loss": 0.5192, "step": 344 }, { "epoch": 0.092, "grad_norm": 2.818860842895589, "learning_rate": 4.925344349477205e-06, "loss": 0.4972, "step": 345 }, { "epoch": 0.09226666666666666, "grad_norm": 3.0746595540089756, "learning_rate": 4.9248276257983315e-06, "loss": 0.5268, "step": 346 }, { "epoch": 0.09253333333333333, "grad_norm": 3.3727169764530087, "learning_rate": 4.92430914734229e-06, "loss": 0.5312, "step": 347 }, { "epoch": 0.0928, "grad_norm": 2.8550881543639877, "learning_rate": 4.923788914484287e-06, "loss": 0.4883, "step": 348 }, { "epoch": 0.09306666666666667, "grad_norm": 3.262846403947202, "learning_rate": 4.923266927600801e-06, "loss": 0.53, "step": 349 }, { "epoch": 0.09333333333333334, "grad_norm": 2.6311527715366316, "learning_rate": 4.922743187069578e-06, "loss": 0.472, "step": 350 }, { "epoch": 0.0936, "grad_norm": 3.381033483040296, "learning_rate": 4.922217693269635e-06, "loss": 0.5478, "step": 351 }, { "epoch": 0.09386666666666667, "grad_norm": 3.229569485797337, "learning_rate": 4.921690446581255e-06, "loss": 0.5589, "step": 352 }, { "epoch": 0.09413333333333333, "grad_norm": 3.091201562934836, "learning_rate": 4.921161447385992e-06, "loss": 0.5212, "step": 353 }, { "epoch": 0.0944, "grad_norm": 2.744790600218243, "learning_rate": 4.920630696066667e-06, "loss": 0.4702, "step": 354 }, { "epoch": 0.09466666666666666, "grad_norm": 3.3246192960402188, "learning_rate": 4.920098193007369e-06, "loss": 0.459, "step": 355 }, { "epoch": 0.09493333333333333, "grad_norm": 3.1339536987539836, "learning_rate": 4.9195639385934556e-06, "loss": 0.524, "step": 356 }, { "epoch": 0.0952, "grad_norm": 2.999945509241653, "learning_rate": 4.919027933211551e-06, "loss": 0.5191, "step": 357 }, { "epoch": 0.09546666666666667, "grad_norm": 3.3799388095862155, "learning_rate": 4.918490177249547e-06, "loss": 0.5298, "step": 358 }, { "epoch": 0.09573333333333334, "grad_norm": 2.6138988906833274, "learning_rate": 4.9179506710965995e-06, "loss": 0.4565, "step": 359 }, { "epoch": 0.096, "grad_norm": 2.853805176557546, "learning_rate": 4.917409415143137e-06, "loss": 0.5128, "step": 360 }, { "epoch": 0.09626666666666667, "grad_norm": 3.1241848732598516, "learning_rate": 4.916866409780849e-06, "loss": 0.4799, "step": 361 }, { "epoch": 0.09653333333333333, "grad_norm": 2.753093363628809, "learning_rate": 4.916321655402692e-06, "loss": 0.489, "step": 362 }, { "epoch": 0.0968, "grad_norm": 3.2624091629715326, "learning_rate": 4.9157751524028905e-06, "loss": 0.5127, "step": 363 }, { "epoch": 0.09706666666666666, "grad_norm": 2.9680696797231074, "learning_rate": 4.915226901176932e-06, "loss": 0.5124, "step": 364 }, { "epoch": 0.09733333333333333, "grad_norm": 3.6357904904909057, "learning_rate": 4.914676902121569e-06, "loss": 0.6026, "step": 365 }, { "epoch": 0.0976, "grad_norm": 3.3303267757356845, "learning_rate": 4.9141251556348215e-06, "loss": 0.5, "step": 366 }, { "epoch": 0.09786666666666667, "grad_norm": 2.9653464942464614, "learning_rate": 4.91357166211597e-06, "loss": 0.4915, "step": 367 }, { "epoch": 0.09813333333333334, "grad_norm": 3.1874251403385183, "learning_rate": 4.9130164219655654e-06, "loss": 0.5277, "step": 368 }, { "epoch": 0.0984, "grad_norm": 3.2415875563776013, "learning_rate": 4.912459435585415e-06, "loss": 0.5092, "step": 369 }, { "epoch": 0.09866666666666667, "grad_norm": 3.215381382489877, "learning_rate": 4.911900703378597e-06, "loss": 0.5038, "step": 370 }, { "epoch": 0.09893333333333333, "grad_norm": 5.645158354591967, "learning_rate": 4.911340225749447e-06, "loss": 0.5293, "step": 371 }, { "epoch": 0.0992, "grad_norm": 3.317542244190038, "learning_rate": 4.910778003103566e-06, "loss": 0.5025, "step": 372 }, { "epoch": 0.09946666666666666, "grad_norm": 2.9171755124846164, "learning_rate": 4.910214035847821e-06, "loss": 0.461, "step": 373 }, { "epoch": 0.09973333333333333, "grad_norm": 3.120656259634475, "learning_rate": 4.9096483243903364e-06, "loss": 0.5098, "step": 374 }, { "epoch": 0.1, "grad_norm": 2.868997798033122, "learning_rate": 4.9090808691405025e-06, "loss": 0.4632, "step": 375 }, { "epoch": 0.10026666666666667, "grad_norm": 3.1496937273277292, "learning_rate": 4.908511670508968e-06, "loss": 0.4767, "step": 376 }, { "epoch": 0.10053333333333334, "grad_norm": 3.2283506733525917, "learning_rate": 4.907940728907649e-06, "loss": 0.4778, "step": 377 }, { "epoch": 0.1008, "grad_norm": 2.7223287474444122, "learning_rate": 4.907368044749716e-06, "loss": 0.4867, "step": 378 }, { "epoch": 0.10106666666666667, "grad_norm": 3.0145465900422375, "learning_rate": 4.906793618449605e-06, "loss": 0.5181, "step": 379 }, { "epoch": 0.10133333333333333, "grad_norm": 2.6386563820011193, "learning_rate": 4.906217450423012e-06, "loss": 0.481, "step": 380 }, { "epoch": 0.1016, "grad_norm": 2.970053166471675, "learning_rate": 4.9056395410868915e-06, "loss": 0.4693, "step": 381 }, { "epoch": 0.10186666666666666, "grad_norm": 2.937980980134853, "learning_rate": 4.905059890859462e-06, "loss": 0.4862, "step": 382 }, { "epoch": 0.10213333333333334, "grad_norm": 3.02505998233706, "learning_rate": 4.904478500160198e-06, "loss": 0.5399, "step": 383 }, { "epoch": 0.1024, "grad_norm": 2.851713068287608, "learning_rate": 4.903895369409835e-06, "loss": 0.5111, "step": 384 }, { "epoch": 0.10266666666666667, "grad_norm": 3.0963574903432427, "learning_rate": 4.903310499030369e-06, "loss": 0.511, "step": 385 }, { "epoch": 0.10293333333333334, "grad_norm": 3.1597728872046575, "learning_rate": 4.902723889445052e-06, "loss": 0.5296, "step": 386 }, { "epoch": 0.1032, "grad_norm": 2.7040156639951807, "learning_rate": 4.902135541078396e-06, "loss": 0.4639, "step": 387 }, { "epoch": 0.10346666666666667, "grad_norm": 3.2042223336426825, "learning_rate": 4.901545454356174e-06, "loss": 0.497, "step": 388 }, { "epoch": 0.10373333333333333, "grad_norm": 3.0731517510202275, "learning_rate": 4.900953629705414e-06, "loss": 0.5225, "step": 389 }, { "epoch": 0.104, "grad_norm": 3.302447668329569, "learning_rate": 4.9003600675544e-06, "loss": 0.5074, "step": 390 }, { "epoch": 0.10426666666666666, "grad_norm": 2.8779745871438247, "learning_rate": 4.8997647683326775e-06, "loss": 0.4754, "step": 391 }, { "epoch": 0.10453333333333334, "grad_norm": 2.8775918623591044, "learning_rate": 4.899167732471048e-06, "loss": 0.4516, "step": 392 }, { "epoch": 0.1048, "grad_norm": 2.9674452890990737, "learning_rate": 4.898568960401566e-06, "loss": 0.4844, "step": 393 }, { "epoch": 0.10506666666666667, "grad_norm": 3.1036159456344743, "learning_rate": 4.8979684525575474e-06, "loss": 0.5022, "step": 394 }, { "epoch": 0.10533333333333333, "grad_norm": 3.112109647330544, "learning_rate": 4.897366209373563e-06, "loss": 0.4981, "step": 395 }, { "epoch": 0.1056, "grad_norm": 3.2249598263750605, "learning_rate": 4.8967622312854376e-06, "loss": 0.4996, "step": 396 }, { "epoch": 0.10586666666666666, "grad_norm": 3.3112709628390156, "learning_rate": 4.896156518730252e-06, "loss": 0.5224, "step": 397 }, { "epoch": 0.10613333333333333, "grad_norm": 3.04693312359589, "learning_rate": 4.895549072146344e-06, "loss": 0.4798, "step": 398 }, { "epoch": 0.1064, "grad_norm": 2.8602550823466864, "learning_rate": 4.894939891973305e-06, "loss": 0.4771, "step": 399 }, { "epoch": 0.10666666666666667, "grad_norm": 3.698321994728775, "learning_rate": 4.89432897865198e-06, "loss": 0.5793, "step": 400 }, { "epoch": 0.10693333333333334, "grad_norm": 3.8333366585933897, "learning_rate": 4.893716332624469e-06, "loss": 0.5672, "step": 401 }, { "epoch": 0.1072, "grad_norm": 2.9406293825751586, "learning_rate": 4.893101954334127e-06, "loss": 0.4901, "step": 402 }, { "epoch": 0.10746666666666667, "grad_norm": 3.5203198736373524, "learning_rate": 4.8924858442255615e-06, "loss": 0.54, "step": 403 }, { "epoch": 0.10773333333333333, "grad_norm": 3.1281616852956238, "learning_rate": 4.891868002744633e-06, "loss": 0.5225, "step": 404 }, { "epoch": 0.108, "grad_norm": 3.297341251190933, "learning_rate": 4.891248430338457e-06, "loss": 0.4812, "step": 405 }, { "epoch": 0.10826666666666666, "grad_norm": 3.353807330048863, "learning_rate": 4.890627127455397e-06, "loss": 0.522, "step": 406 }, { "epoch": 0.10853333333333333, "grad_norm": 2.861726317426934, "learning_rate": 4.890004094545075e-06, "loss": 0.4689, "step": 407 }, { "epoch": 0.1088, "grad_norm": 3.1495257938133623, "learning_rate": 4.889379332058359e-06, "loss": 0.5241, "step": 408 }, { "epoch": 0.10906666666666667, "grad_norm": 2.915751370035489, "learning_rate": 4.888752840447374e-06, "loss": 0.4791, "step": 409 }, { "epoch": 0.10933333333333334, "grad_norm": 2.8419388085523813, "learning_rate": 4.888124620165492e-06, "loss": 0.4942, "step": 410 }, { "epoch": 0.1096, "grad_norm": 3.1284780825234932, "learning_rate": 4.8874946716673375e-06, "loss": 0.4982, "step": 411 }, { "epoch": 0.10986666666666667, "grad_norm": 2.8405321673101778, "learning_rate": 4.886862995408788e-06, "loss": 0.4337, "step": 412 }, { "epoch": 0.11013333333333333, "grad_norm": 2.990511864911168, "learning_rate": 4.886229591846967e-06, "loss": 0.5031, "step": 413 }, { "epoch": 0.1104, "grad_norm": 2.7895715253648863, "learning_rate": 4.885594461440252e-06, "loss": 0.455, "step": 414 }, { "epoch": 0.11066666666666666, "grad_norm": 2.931767974218236, "learning_rate": 4.884957604648266e-06, "loss": 0.4794, "step": 415 }, { "epoch": 0.11093333333333333, "grad_norm": 3.4853683423753905, "learning_rate": 4.884319021931886e-06, "loss": 0.5029, "step": 416 }, { "epoch": 0.1112, "grad_norm": 3.026136086183054, "learning_rate": 4.883678713753235e-06, "loss": 0.4805, "step": 417 }, { "epoch": 0.11146666666666667, "grad_norm": 3.1530054046573763, "learning_rate": 4.883036680575685e-06, "loss": 0.4718, "step": 418 }, { "epoch": 0.11173333333333334, "grad_norm": 3.3088832616025914, "learning_rate": 4.882392922863856e-06, "loss": 0.5216, "step": 419 }, { "epoch": 0.112, "grad_norm": 2.772151400431416, "learning_rate": 4.88174744108362e-06, "loss": 0.4269, "step": 420 }, { "epoch": 0.11226666666666667, "grad_norm": 3.1178777132043685, "learning_rate": 4.88110023570209e-06, "loss": 0.4698, "step": 421 }, { "epoch": 0.11253333333333333, "grad_norm": 2.9903595379690646, "learning_rate": 4.88045130718763e-06, "loss": 0.4605, "step": 422 }, { "epoch": 0.1128, "grad_norm": 2.994213064127848, "learning_rate": 4.879800656009853e-06, "loss": 0.4975, "step": 423 }, { "epoch": 0.11306666666666666, "grad_norm": 3.091257013321392, "learning_rate": 4.879148282639614e-06, "loss": 0.4742, "step": 424 }, { "epoch": 0.11333333333333333, "grad_norm": 2.946263723936702, "learning_rate": 4.878494187549018e-06, "loss": 0.5222, "step": 425 }, { "epoch": 0.1136, "grad_norm": 3.276627977423596, "learning_rate": 4.877838371211413e-06, "loss": 0.5454, "step": 426 }, { "epoch": 0.11386666666666667, "grad_norm": 3.3684209606408198, "learning_rate": 4.877180834101395e-06, "loss": 0.4871, "step": 427 }, { "epoch": 0.11413333333333334, "grad_norm": 3.0094207121443413, "learning_rate": 4.876521576694806e-06, "loss": 0.523, "step": 428 }, { "epoch": 0.1144, "grad_norm": 3.010244423729644, "learning_rate": 4.8758605994687295e-06, "loss": 0.4224, "step": 429 }, { "epoch": 0.11466666666666667, "grad_norm": 2.8233277815663644, "learning_rate": 4.875197902901495e-06, "loss": 0.5128, "step": 430 }, { "epoch": 0.11493333333333333, "grad_norm": 2.8578662613055386, "learning_rate": 4.874533487472679e-06, "loss": 0.466, "step": 431 }, { "epoch": 0.1152, "grad_norm": 2.700480435740188, "learning_rate": 4.873867353663098e-06, "loss": 0.5196, "step": 432 }, { "epoch": 0.11546666666666666, "grad_norm": 3.543781803939445, "learning_rate": 4.873199501954814e-06, "loss": 0.5362, "step": 433 }, { "epoch": 0.11573333333333333, "grad_norm": 3.366677361819025, "learning_rate": 4.872529932831132e-06, "loss": 0.501, "step": 434 }, { "epoch": 0.116, "grad_norm": 2.9384631271370965, "learning_rate": 4.871858646776599e-06, "loss": 0.5062, "step": 435 }, { "epoch": 0.11626666666666667, "grad_norm": 2.9127267007328053, "learning_rate": 4.871185644277005e-06, "loss": 0.5178, "step": 436 }, { "epoch": 0.11653333333333334, "grad_norm": 4.164019147639745, "learning_rate": 4.870510925819385e-06, "loss": 0.534, "step": 437 }, { "epoch": 0.1168, "grad_norm": 2.961935028990143, "learning_rate": 4.869834491892011e-06, "loss": 0.4861, "step": 438 }, { "epoch": 0.11706666666666667, "grad_norm": 2.869553874674874, "learning_rate": 4.869156342984397e-06, "loss": 0.4544, "step": 439 }, { "epoch": 0.11733333333333333, "grad_norm": 2.7953075598866763, "learning_rate": 4.868476479587302e-06, "loss": 0.4621, "step": 440 }, { "epoch": 0.1176, "grad_norm": 3.0374291638767414, "learning_rate": 4.867794902192723e-06, "loss": 0.4739, "step": 441 }, { "epoch": 0.11786666666666666, "grad_norm": 3.1309202713688364, "learning_rate": 4.867111611293896e-06, "loss": 0.5111, "step": 442 }, { "epoch": 0.11813333333333334, "grad_norm": 3.3019873740657117, "learning_rate": 4.866426607385302e-06, "loss": 0.4791, "step": 443 }, { "epoch": 0.1184, "grad_norm": 2.794459562062388, "learning_rate": 4.865739890962655e-06, "loss": 0.4596, "step": 444 }, { "epoch": 0.11866666666666667, "grad_norm": 3.3676912397128183, "learning_rate": 4.865051462522914e-06, "loss": 0.5333, "step": 445 }, { "epoch": 0.11893333333333334, "grad_norm": 3.242571121578889, "learning_rate": 4.8643613225642735e-06, "loss": 0.515, "step": 446 }, { "epoch": 0.1192, "grad_norm": 2.9453054804585057, "learning_rate": 4.863669471586168e-06, "loss": 0.4663, "step": 447 }, { "epoch": 0.11946666666666667, "grad_norm": 3.046243043778784, "learning_rate": 4.86297591008927e-06, "loss": 0.5427, "step": 448 }, { "epoch": 0.11973333333333333, "grad_norm": 2.9324637794254294, "learning_rate": 4.86228063857549e-06, "loss": 0.4452, "step": 449 }, { "epoch": 0.12, "grad_norm": 3.077142989508375, "learning_rate": 4.861583657547975e-06, "loss": 0.4833, "step": 450 }, { "epoch": 0.12026666666666666, "grad_norm": 2.9934574511072523, "learning_rate": 4.86088496751111e-06, "loss": 0.5141, "step": 451 }, { "epoch": 0.12053333333333334, "grad_norm": 3.4490006663684585, "learning_rate": 4.860184568970517e-06, "loss": 0.5813, "step": 452 }, { "epoch": 0.1208, "grad_norm": 3.102932813764256, "learning_rate": 4.859482462433055e-06, "loss": 0.5159, "step": 453 }, { "epoch": 0.12106666666666667, "grad_norm": 2.913041580468247, "learning_rate": 4.858778648406817e-06, "loss": 0.5046, "step": 454 }, { "epoch": 0.12133333333333333, "grad_norm": 2.9280260320596803, "learning_rate": 4.858073127401132e-06, "loss": 0.4595, "step": 455 }, { "epoch": 0.1216, "grad_norm": 2.841200641573223, "learning_rate": 4.857365899926565e-06, "loss": 0.4623, "step": 456 }, { "epoch": 0.12186666666666666, "grad_norm": 3.5421272971588285, "learning_rate": 4.856656966494918e-06, "loss": 0.5251, "step": 457 }, { "epoch": 0.12213333333333333, "grad_norm": 3.2105323278592772, "learning_rate": 4.855946327619224e-06, "loss": 0.4988, "step": 458 }, { "epoch": 0.1224, "grad_norm": 2.9787626073080973, "learning_rate": 4.855233983813751e-06, "loss": 0.4846, "step": 459 }, { "epoch": 0.12266666666666666, "grad_norm": 2.7271018135217355, "learning_rate": 4.854519935594003e-06, "loss": 0.4805, "step": 460 }, { "epoch": 0.12293333333333334, "grad_norm": 2.9586610640854216, "learning_rate": 4.853804183476716e-06, "loss": 0.495, "step": 461 }, { "epoch": 0.1232, "grad_norm": 2.9914896761193575, "learning_rate": 4.853086727979858e-06, "loss": 0.4615, "step": 462 }, { "epoch": 0.12346666666666667, "grad_norm": 3.9793633581380097, "learning_rate": 4.85236756962263e-06, "loss": 0.5133, "step": 463 }, { "epoch": 0.12373333333333333, "grad_norm": 3.003933766630654, "learning_rate": 4.851646708925467e-06, "loss": 0.4841, "step": 464 }, { "epoch": 0.124, "grad_norm": 2.8713620602486083, "learning_rate": 4.850924146410036e-06, "loss": 0.5103, "step": 465 }, { "epoch": 0.12426666666666666, "grad_norm": 3.077982536219979, "learning_rate": 4.850199882599232e-06, "loss": 0.5045, "step": 466 }, { "epoch": 0.12453333333333333, "grad_norm": 2.6789550931450483, "learning_rate": 4.849473918017185e-06, "loss": 0.454, "step": 467 }, { "epoch": 0.1248, "grad_norm": 2.5529000884370627, "learning_rate": 4.848746253189254e-06, "loss": 0.407, "step": 468 }, { "epoch": 0.12506666666666666, "grad_norm": 2.842696945301407, "learning_rate": 4.84801688864203e-06, "loss": 0.4926, "step": 469 }, { "epoch": 0.12533333333333332, "grad_norm": 4.4065421506398845, "learning_rate": 4.847285824903331e-06, "loss": 0.4957, "step": 470 }, { "epoch": 0.1256, "grad_norm": 3.1236179450990753, "learning_rate": 4.846553062502209e-06, "loss": 0.4563, "step": 471 }, { "epoch": 0.12586666666666665, "grad_norm": 4.387292524303422, "learning_rate": 4.84581860196894e-06, "loss": 0.6, "step": 472 }, { "epoch": 0.12613333333333332, "grad_norm": 3.042714896185467, "learning_rate": 4.845082443835034e-06, "loss": 0.4795, "step": 473 }, { "epoch": 0.1264, "grad_norm": 3.219177308580339, "learning_rate": 4.8443445886332265e-06, "loss": 0.5622, "step": 474 }, { "epoch": 0.12666666666666668, "grad_norm": 3.0445126299076093, "learning_rate": 4.843605036897481e-06, "loss": 0.5886, "step": 475 }, { "epoch": 0.12693333333333334, "grad_norm": 2.915128321752097, "learning_rate": 4.84286378916299e-06, "loss": 0.4699, "step": 476 }, { "epoch": 0.1272, "grad_norm": 3.121375031267845, "learning_rate": 4.842120845966175e-06, "loss": 0.4867, "step": 477 }, { "epoch": 0.12746666666666667, "grad_norm": 2.8450052620297095, "learning_rate": 4.841376207844679e-06, "loss": 0.4945, "step": 478 }, { "epoch": 0.12773333333333334, "grad_norm": 2.733081878814494, "learning_rate": 4.840629875337376e-06, "loss": 0.447, "step": 479 }, { "epoch": 0.128, "grad_norm": 3.5635195253555327, "learning_rate": 4.839881848984366e-06, "loss": 0.591, "step": 480 }, { "epoch": 0.12826666666666667, "grad_norm": 2.8282062040807947, "learning_rate": 4.839132129326974e-06, "loss": 0.4619, "step": 481 }, { "epoch": 0.12853333333333333, "grad_norm": 2.779504488197032, "learning_rate": 4.838380716907749e-06, "loss": 0.5146, "step": 482 }, { "epoch": 0.1288, "grad_norm": 3.206711490475913, "learning_rate": 4.837627612270468e-06, "loss": 0.4789, "step": 483 }, { "epoch": 0.12906666666666666, "grad_norm": 2.60659808494029, "learning_rate": 4.836872815960129e-06, "loss": 0.4867, "step": 484 }, { "epoch": 0.12933333333333333, "grad_norm": 2.8990093290058936, "learning_rate": 4.836116328522957e-06, "loss": 0.4636, "step": 485 }, { "epoch": 0.1296, "grad_norm": 2.7791974737692127, "learning_rate": 4.835358150506401e-06, "loss": 0.4396, "step": 486 }, { "epoch": 0.12986666666666666, "grad_norm": 3.020716350227551, "learning_rate": 4.8345982824591306e-06, "loss": 0.5134, "step": 487 }, { "epoch": 0.13013333333333332, "grad_norm": 4.067729122217571, "learning_rate": 4.833836724931042e-06, "loss": 0.5604, "step": 488 }, { "epoch": 0.1304, "grad_norm": 2.68694867969256, "learning_rate": 4.833073478473249e-06, "loss": 0.4769, "step": 489 }, { "epoch": 0.13066666666666665, "grad_norm": 2.8366129632155963, "learning_rate": 4.832308543638094e-06, "loss": 0.477, "step": 490 }, { "epoch": 0.13093333333333335, "grad_norm": 2.8153020458384272, "learning_rate": 4.831541920979138e-06, "loss": 0.4849, "step": 491 }, { "epoch": 0.1312, "grad_norm": 2.697064488942593, "learning_rate": 4.830773611051161e-06, "loss": 0.4364, "step": 492 }, { "epoch": 0.13146666666666668, "grad_norm": 2.694863802617797, "learning_rate": 4.83000361441017e-06, "loss": 0.4544, "step": 493 }, { "epoch": 0.13173333333333334, "grad_norm": 2.7363259579535733, "learning_rate": 4.829231931613386e-06, "loss": 0.5321, "step": 494 }, { "epoch": 0.132, "grad_norm": 3.0846169972643467, "learning_rate": 4.828458563219255e-06, "loss": 0.5339, "step": 495 }, { "epoch": 0.13226666666666667, "grad_norm": 2.9947926390618584, "learning_rate": 4.8276835097874405e-06, "loss": 0.502, "step": 496 }, { "epoch": 0.13253333333333334, "grad_norm": 2.950126944255218, "learning_rate": 4.826906771878827e-06, "loss": 0.4789, "step": 497 }, { "epoch": 0.1328, "grad_norm": 3.287729732943887, "learning_rate": 4.826128350055515e-06, "loss": 0.4361, "step": 498 }, { "epoch": 0.13306666666666667, "grad_norm": 2.794190326093881, "learning_rate": 4.825348244880829e-06, "loss": 0.4391, "step": 499 }, { "epoch": 0.13333333333333333, "grad_norm": 2.9219657406179618, "learning_rate": 4.824566456919306e-06, "loss": 0.4932, "step": 500 }, { "epoch": 0.1336, "grad_norm": 2.8223506072348883, "learning_rate": 4.8237829867367046e-06, "loss": 0.4538, "step": 501 }, { "epoch": 0.13386666666666666, "grad_norm": 2.7025330931334173, "learning_rate": 4.822997834899998e-06, "loss": 0.4184, "step": 502 }, { "epoch": 0.13413333333333333, "grad_norm": 2.7154415719176055, "learning_rate": 4.822211001977378e-06, "loss": 0.4762, "step": 503 }, { "epoch": 0.1344, "grad_norm": 2.9277935919160547, "learning_rate": 4.821422488538253e-06, "loss": 0.5018, "step": 504 }, { "epoch": 0.13466666666666666, "grad_norm": 2.7236833411327894, "learning_rate": 4.820632295153249e-06, "loss": 0.4869, "step": 505 }, { "epoch": 0.13493333333333332, "grad_norm": 3.489833905672247, "learning_rate": 4.819840422394203e-06, "loss": 0.5962, "step": 506 }, { "epoch": 0.1352, "grad_norm": 3.169017134699179, "learning_rate": 4.819046870834171e-06, "loss": 0.5544, "step": 507 }, { "epoch": 0.13546666666666668, "grad_norm": 3.351419992666179, "learning_rate": 4.818251641047424e-06, "loss": 0.5155, "step": 508 }, { "epoch": 0.13573333333333334, "grad_norm": 3.093953749437234, "learning_rate": 4.817454733609446e-06, "loss": 0.477, "step": 509 }, { "epoch": 0.136, "grad_norm": 2.8650633998103374, "learning_rate": 4.816656149096936e-06, "loss": 0.5029, "step": 510 }, { "epoch": 0.13626666666666667, "grad_norm": 3.2530281142273445, "learning_rate": 4.815855888087807e-06, "loss": 0.4721, "step": 511 }, { "epoch": 0.13653333333333334, "grad_norm": 2.828230997007545, "learning_rate": 4.815053951161184e-06, "loss": 0.441, "step": 512 }, { "epoch": 0.1368, "grad_norm": 2.5658332956400542, "learning_rate": 4.814250338897405e-06, "loss": 0.4484, "step": 513 }, { "epoch": 0.13706666666666667, "grad_norm": 3.8650983004077037, "learning_rate": 4.813445051878022e-06, "loss": 0.4903, "step": 514 }, { "epoch": 0.13733333333333334, "grad_norm": 2.8133398340743287, "learning_rate": 4.812638090685796e-06, "loss": 0.4633, "step": 515 }, { "epoch": 0.1376, "grad_norm": 2.639251041070967, "learning_rate": 4.811829455904702e-06, "loss": 0.4933, "step": 516 }, { "epoch": 0.13786666666666667, "grad_norm": 2.67910902376611, "learning_rate": 4.811019148119926e-06, "loss": 0.4624, "step": 517 }, { "epoch": 0.13813333333333333, "grad_norm": 2.8917418810922375, "learning_rate": 4.810207167917865e-06, "loss": 0.5432, "step": 518 }, { "epoch": 0.1384, "grad_norm": 2.740692908985976, "learning_rate": 4.809393515886123e-06, "loss": 0.4773, "step": 519 }, { "epoch": 0.13866666666666666, "grad_norm": 3.0878024620417777, "learning_rate": 4.808578192613519e-06, "loss": 0.5082, "step": 520 }, { "epoch": 0.13893333333333333, "grad_norm": 3.0659007515601986, "learning_rate": 4.807761198690076e-06, "loss": 0.5038, "step": 521 }, { "epoch": 0.1392, "grad_norm": 2.8931619415953715, "learning_rate": 4.806942534707031e-06, "loss": 0.4804, "step": 522 }, { "epoch": 0.13946666666666666, "grad_norm": 3.1212732015675644, "learning_rate": 4.8061222012568255e-06, "loss": 0.474, "step": 523 }, { "epoch": 0.13973333333333332, "grad_norm": 2.949545983752779, "learning_rate": 4.805300198933112e-06, "loss": 0.4955, "step": 524 }, { "epoch": 0.14, "grad_norm": 3.1031775535405473, "learning_rate": 4.80447652833075e-06, "loss": 0.5013, "step": 525 }, { "epoch": 0.14026666666666668, "grad_norm": 2.8125379634839054, "learning_rate": 4.803651190045805e-06, "loss": 0.4801, "step": 526 }, { "epoch": 0.14053333333333334, "grad_norm": 3.683521037227838, "learning_rate": 4.802824184675551e-06, "loss": 0.5399, "step": 527 }, { "epoch": 0.1408, "grad_norm": 2.808580989487997, "learning_rate": 4.801995512818467e-06, "loss": 0.4793, "step": 528 }, { "epoch": 0.14106666666666667, "grad_norm": 2.685595062474713, "learning_rate": 4.8011651750742385e-06, "loss": 0.4339, "step": 529 }, { "epoch": 0.14133333333333334, "grad_norm": 2.943791476852844, "learning_rate": 4.800333172043759e-06, "loss": 0.4814, "step": 530 }, { "epoch": 0.1416, "grad_norm": 2.793165756409829, "learning_rate": 4.799499504329122e-06, "loss": 0.478, "step": 531 }, { "epoch": 0.14186666666666667, "grad_norm": 2.809708716923085, "learning_rate": 4.7986641725336294e-06, "loss": 0.4856, "step": 532 }, { "epoch": 0.14213333333333333, "grad_norm": 2.9258032632517357, "learning_rate": 4.797827177261788e-06, "loss": 0.478, "step": 533 }, { "epoch": 0.1424, "grad_norm": 2.720326872444766, "learning_rate": 4.796988519119306e-06, "loss": 0.459, "step": 534 }, { "epoch": 0.14266666666666666, "grad_norm": 3.464499070072953, "learning_rate": 4.7961481987130944e-06, "loss": 0.5473, "step": 535 }, { "epoch": 0.14293333333333333, "grad_norm": 3.2266190430851203, "learning_rate": 4.79530621665127e-06, "loss": 0.5311, "step": 536 }, { "epoch": 0.1432, "grad_norm": 2.7771534179492834, "learning_rate": 4.7944625735431515e-06, "loss": 0.5042, "step": 537 }, { "epoch": 0.14346666666666666, "grad_norm": 2.878809579367144, "learning_rate": 4.7936172699992575e-06, "loss": 0.4634, "step": 538 }, { "epoch": 0.14373333333333332, "grad_norm": 2.4835425881958075, "learning_rate": 4.79277030663131e-06, "loss": 0.4221, "step": 539 }, { "epoch": 0.144, "grad_norm": 2.935016058336967, "learning_rate": 4.791921684052232e-06, "loss": 0.4994, "step": 540 }, { "epoch": 0.14426666666666665, "grad_norm": 2.5660059800674655, "learning_rate": 4.791071402876147e-06, "loss": 0.4166, "step": 541 }, { "epoch": 0.14453333333333335, "grad_norm": 2.8501081561417156, "learning_rate": 4.790219463718378e-06, "loss": 0.5244, "step": 542 }, { "epoch": 0.1448, "grad_norm": 2.633786742138543, "learning_rate": 4.78936586719545e-06, "loss": 0.4127, "step": 543 }, { "epoch": 0.14506666666666668, "grad_norm": 2.754547531618363, "learning_rate": 4.788510613925084e-06, "loss": 0.4428, "step": 544 }, { "epoch": 0.14533333333333334, "grad_norm": 4.6158219272896215, "learning_rate": 4.787653704526203e-06, "loss": 0.4934, "step": 545 }, { "epoch": 0.1456, "grad_norm": 2.947212748646922, "learning_rate": 4.786795139618927e-06, "loss": 0.4485, "step": 546 }, { "epoch": 0.14586666666666667, "grad_norm": 2.9471218418382854, "learning_rate": 4.785934919824575e-06, "loss": 0.4841, "step": 547 }, { "epoch": 0.14613333333333334, "grad_norm": 2.754494286211294, "learning_rate": 4.785073045765663e-06, "loss": 0.4321, "step": 548 }, { "epoch": 0.1464, "grad_norm": 2.779842985060256, "learning_rate": 4.784209518065904e-06, "loss": 0.4786, "step": 549 }, { "epoch": 0.14666666666666667, "grad_norm": 2.4721598112888974, "learning_rate": 4.783344337350207e-06, "loss": 0.3851, "step": 550 }, { "epoch": 0.14693333333333333, "grad_norm": 3.6800557596981722, "learning_rate": 4.78247750424468e-06, "loss": 0.4771, "step": 551 }, { "epoch": 0.1472, "grad_norm": 2.9535411289859588, "learning_rate": 4.781609019376623e-06, "loss": 0.5079, "step": 552 }, { "epoch": 0.14746666666666666, "grad_norm": 3.102195936035881, "learning_rate": 4.780738883374534e-06, "loss": 0.4896, "step": 553 }, { "epoch": 0.14773333333333333, "grad_norm": 3.2804916847765218, "learning_rate": 4.779867096868105e-06, "loss": 0.4601, "step": 554 }, { "epoch": 0.148, "grad_norm": 2.649588700063468, "learning_rate": 4.778993660488223e-06, "loss": 0.4154, "step": 555 }, { "epoch": 0.14826666666666666, "grad_norm": 2.798467322198792, "learning_rate": 4.778118574866968e-06, "loss": 0.4615, "step": 556 }, { "epoch": 0.14853333333333332, "grad_norm": 2.602766646801891, "learning_rate": 4.777241840637613e-06, "loss": 0.4542, "step": 557 }, { "epoch": 0.1488, "grad_norm": 2.6575808480260847, "learning_rate": 4.776363458434628e-06, "loss": 0.4125, "step": 558 }, { "epoch": 0.14906666666666665, "grad_norm": 2.6717726067289016, "learning_rate": 4.775483428893669e-06, "loss": 0.4474, "step": 559 }, { "epoch": 0.14933333333333335, "grad_norm": 3.1771674669823717, "learning_rate": 4.774601752651591e-06, "loss": 0.5797, "step": 560 }, { "epoch": 0.1496, "grad_norm": 2.986079257518793, "learning_rate": 4.773718430346435e-06, "loss": 0.4704, "step": 561 }, { "epoch": 0.14986666666666668, "grad_norm": 3.161898380239523, "learning_rate": 4.772833462617437e-06, "loss": 0.5313, "step": 562 }, { "epoch": 0.15013333333333334, "grad_norm": 3.348266286588783, "learning_rate": 4.7719468501050206e-06, "loss": 0.6035, "step": 563 }, { "epoch": 0.1504, "grad_norm": 2.902878603291963, "learning_rate": 4.7710585934508045e-06, "loss": 0.4558, "step": 564 }, { "epoch": 0.15066666666666667, "grad_norm": 3.426702010717282, "learning_rate": 4.770168693297592e-06, "loss": 0.4754, "step": 565 }, { "epoch": 0.15093333333333334, "grad_norm": 2.9581289220400953, "learning_rate": 4.7692771502893775e-06, "loss": 0.501, "step": 566 }, { "epoch": 0.1512, "grad_norm": 2.8115145744069507, "learning_rate": 4.768383965071347e-06, "loss": 0.4725, "step": 567 }, { "epoch": 0.15146666666666667, "grad_norm": 2.9151061193279952, "learning_rate": 4.767489138289871e-06, "loss": 0.498, "step": 568 }, { "epoch": 0.15173333333333333, "grad_norm": 2.857913165380838, "learning_rate": 4.766592670592509e-06, "loss": 0.4654, "step": 569 }, { "epoch": 0.152, "grad_norm": 2.781957666451134, "learning_rate": 4.76569456262801e-06, "loss": 0.4651, "step": 570 }, { "epoch": 0.15226666666666666, "grad_norm": 2.653221562572426, "learning_rate": 4.764794815046308e-06, "loss": 0.4589, "step": 571 }, { "epoch": 0.15253333333333333, "grad_norm": 3.320217588893547, "learning_rate": 4.763893428498525e-06, "loss": 0.5345, "step": 572 }, { "epoch": 0.1528, "grad_norm": 2.798526392123618, "learning_rate": 4.762990403636967e-06, "loss": 0.4811, "step": 573 }, { "epoch": 0.15306666666666666, "grad_norm": 3.07236425270922, "learning_rate": 4.7620857411151266e-06, "loss": 0.5729, "step": 574 }, { "epoch": 0.15333333333333332, "grad_norm": 2.8091000520283376, "learning_rate": 4.761179441587683e-06, "loss": 0.494, "step": 575 }, { "epoch": 0.1536, "grad_norm": 2.600158049290435, "learning_rate": 4.7602715057104974e-06, "loss": 0.4614, "step": 576 }, { "epoch": 0.15386666666666668, "grad_norm": 2.718795975980565, "learning_rate": 4.759361934140618e-06, "loss": 0.4216, "step": 577 }, { "epoch": 0.15413333333333334, "grad_norm": 2.719043344466965, "learning_rate": 4.758450727536274e-06, "loss": 0.4477, "step": 578 }, { "epoch": 0.1544, "grad_norm": 3.1374828562942683, "learning_rate": 4.75753788655688e-06, "loss": 0.4629, "step": 579 }, { "epoch": 0.15466666666666667, "grad_norm": 2.732140832802711, "learning_rate": 4.756623411863032e-06, "loss": 0.4521, "step": 580 }, { "epoch": 0.15493333333333334, "grad_norm": 2.717825155339731, "learning_rate": 4.755707304116509e-06, "loss": 0.4668, "step": 581 }, { "epoch": 0.1552, "grad_norm": 2.9161446341938224, "learning_rate": 4.754789563980271e-06, "loss": 0.4701, "step": 582 }, { "epoch": 0.15546666666666667, "grad_norm": 3.6064827974914158, "learning_rate": 4.753870192118461e-06, "loss": 0.4869, "step": 583 }, { "epoch": 0.15573333333333333, "grad_norm": 3.4181226842184635, "learning_rate": 4.7529491891964e-06, "loss": 0.4961, "step": 584 }, { "epoch": 0.156, "grad_norm": 2.9867910232044537, "learning_rate": 4.752026555880592e-06, "loss": 0.5387, "step": 585 }, { "epoch": 0.15626666666666666, "grad_norm": 2.7959806016824142, "learning_rate": 4.7511022928387206e-06, "loss": 0.495, "step": 586 }, { "epoch": 0.15653333333333333, "grad_norm": 2.387979483330469, "learning_rate": 4.750176400739646e-06, "loss": 0.4366, "step": 587 }, { "epoch": 0.1568, "grad_norm": 2.6434313098183373, "learning_rate": 4.749248880253411e-06, "loss": 0.4271, "step": 588 }, { "epoch": 0.15706666666666666, "grad_norm": 2.814053412581812, "learning_rate": 4.748319732051234e-06, "loss": 0.4483, "step": 589 }, { "epoch": 0.15733333333333333, "grad_norm": 3.299045546630256, "learning_rate": 4.747388956805513e-06, "loss": 0.4879, "step": 590 }, { "epoch": 0.1576, "grad_norm": 2.643560917815565, "learning_rate": 4.746456555189825e-06, "loss": 0.4684, "step": 591 }, { "epoch": 0.15786666666666666, "grad_norm": 2.6577197215696438, "learning_rate": 4.745522527878918e-06, "loss": 0.459, "step": 592 }, { "epoch": 0.15813333333333332, "grad_norm": 2.660368697294052, "learning_rate": 4.744586875548723e-06, "loss": 0.4458, "step": 593 }, { "epoch": 0.1584, "grad_norm": 2.7166978824941914, "learning_rate": 4.743649598876344e-06, "loss": 0.4412, "step": 594 }, { "epoch": 0.15866666666666668, "grad_norm": 2.7809540534352806, "learning_rate": 4.742710698540061e-06, "loss": 0.4546, "step": 595 }, { "epoch": 0.15893333333333334, "grad_norm": 3.1014653285993337, "learning_rate": 4.741770175219328e-06, "loss": 0.5155, "step": 596 }, { "epoch": 0.1592, "grad_norm": 3.0731445644976363, "learning_rate": 4.740828029594775e-06, "loss": 0.5073, "step": 597 }, { "epoch": 0.15946666666666667, "grad_norm": 2.9098855952696456, "learning_rate": 4.739884262348206e-06, "loss": 0.506, "step": 598 }, { "epoch": 0.15973333333333334, "grad_norm": 3.5885127601428306, "learning_rate": 4.7389388741625954e-06, "loss": 0.5344, "step": 599 }, { "epoch": 0.16, "grad_norm": 3.209204691710474, "learning_rate": 4.737991865722095e-06, "loss": 0.4522, "step": 600 }, { "epoch": 0.16026666666666667, "grad_norm": 2.8788923785987803, "learning_rate": 4.737043237712028e-06, "loss": 0.4841, "step": 601 }, { "epoch": 0.16053333333333333, "grad_norm": 2.772274988332571, "learning_rate": 4.736092990818888e-06, "loss": 0.4786, "step": 602 }, { "epoch": 0.1608, "grad_norm": 2.878645078885937, "learning_rate": 4.73514112573034e-06, "loss": 0.5128, "step": 603 }, { "epoch": 0.16106666666666666, "grad_norm": 3.0101075879318313, "learning_rate": 4.7341876431352226e-06, "loss": 0.4626, "step": 604 }, { "epoch": 0.16133333333333333, "grad_norm": 3.12106046591674, "learning_rate": 4.733232543723543e-06, "loss": 0.5082, "step": 605 }, { "epoch": 0.1616, "grad_norm": 2.617228629509633, "learning_rate": 4.732275828186478e-06, "loss": 0.4421, "step": 606 }, { "epoch": 0.16186666666666666, "grad_norm": 3.0959029762180705, "learning_rate": 4.731317497216376e-06, "loss": 0.4956, "step": 607 }, { "epoch": 0.16213333333333332, "grad_norm": 2.9872092944839883, "learning_rate": 4.730357551506751e-06, "loss": 0.5003, "step": 608 }, { "epoch": 0.1624, "grad_norm": 3.2699826215448753, "learning_rate": 4.729395991752291e-06, "loss": 0.5611, "step": 609 }, { "epoch": 0.16266666666666665, "grad_norm": 2.893375322685153, "learning_rate": 4.728432818648847e-06, "loss": 0.4803, "step": 610 }, { "epoch": 0.16293333333333335, "grad_norm": 3.119599509271226, "learning_rate": 4.7274680328934395e-06, "loss": 0.5539, "step": 611 }, { "epoch": 0.1632, "grad_norm": 2.79883561963107, "learning_rate": 4.726501635184256e-06, "loss": 0.4409, "step": 612 }, { "epoch": 0.16346666666666668, "grad_norm": 2.775807461120403, "learning_rate": 4.72553362622065e-06, "loss": 0.4748, "step": 613 }, { "epoch": 0.16373333333333334, "grad_norm": 2.5606790966772106, "learning_rate": 4.72456400670314e-06, "loss": 0.4419, "step": 614 }, { "epoch": 0.164, "grad_norm": 3.0488652197469324, "learning_rate": 4.723592777333415e-06, "loss": 0.5194, "step": 615 }, { "epoch": 0.16426666666666667, "grad_norm": 2.621702716855715, "learning_rate": 4.722619938814324e-06, "loss": 0.4438, "step": 616 }, { "epoch": 0.16453333333333334, "grad_norm": 2.571176626466772, "learning_rate": 4.721645491849881e-06, "loss": 0.4626, "step": 617 }, { "epoch": 0.1648, "grad_norm": 2.3560948898929395, "learning_rate": 4.720669437145266e-06, "loss": 0.4101, "step": 618 }, { "epoch": 0.16506666666666667, "grad_norm": 3.054640751007946, "learning_rate": 4.719691775406819e-06, "loss": 0.4996, "step": 619 }, { "epoch": 0.16533333333333333, "grad_norm": 2.7991280484976757, "learning_rate": 4.718712507342048e-06, "loss": 0.4939, "step": 620 }, { "epoch": 0.1656, "grad_norm": 2.809323328751179, "learning_rate": 4.717731633659621e-06, "loss": 0.5512, "step": 621 }, { "epoch": 0.16586666666666666, "grad_norm": 2.418775909678158, "learning_rate": 4.716749155069364e-06, "loss": 0.4178, "step": 622 }, { "epoch": 0.16613333333333333, "grad_norm": 2.533105736836975, "learning_rate": 4.715765072282272e-06, "loss": 0.4531, "step": 623 }, { "epoch": 0.1664, "grad_norm": 2.9417436668716737, "learning_rate": 4.714779386010497e-06, "loss": 0.4661, "step": 624 }, { "epoch": 0.16666666666666666, "grad_norm": 2.7927585196888716, "learning_rate": 4.713792096967349e-06, "loss": 0.4941, "step": 625 }, { "epoch": 0.16693333333333332, "grad_norm": 2.90685924320954, "learning_rate": 4.712803205867302e-06, "loss": 0.4893, "step": 626 }, { "epoch": 0.1672, "grad_norm": 3.4438772708700576, "learning_rate": 4.7118127134259875e-06, "loss": 0.4751, "step": 627 }, { "epoch": 0.16746666666666668, "grad_norm": 3.3759410814928565, "learning_rate": 4.710820620360196e-06, "loss": 0.545, "step": 628 }, { "epoch": 0.16773333333333335, "grad_norm": 2.9058841556873602, "learning_rate": 4.709826927387875e-06, "loss": 0.4995, "step": 629 }, { "epoch": 0.168, "grad_norm": 2.6899578753879516, "learning_rate": 4.708831635228134e-06, "loss": 0.474, "step": 630 }, { "epoch": 0.16826666666666668, "grad_norm": 2.69375920679913, "learning_rate": 4.707834744601235e-06, "loss": 0.4601, "step": 631 }, { "epoch": 0.16853333333333334, "grad_norm": 2.299815605814072, "learning_rate": 4.706836256228599e-06, "loss": 0.4047, "step": 632 }, { "epoch": 0.1688, "grad_norm": 2.7002560709819745, "learning_rate": 4.705836170832802e-06, "loss": 0.4501, "step": 633 }, { "epoch": 0.16906666666666667, "grad_norm": 3.1529448591929152, "learning_rate": 4.70483448913758e-06, "loss": 0.4928, "step": 634 }, { "epoch": 0.16933333333333334, "grad_norm": 2.6610166996956326, "learning_rate": 4.703831211867818e-06, "loss": 0.4951, "step": 635 }, { "epoch": 0.1696, "grad_norm": 2.7721951698951224, "learning_rate": 4.702826339749558e-06, "loss": 0.5019, "step": 636 }, { "epoch": 0.16986666666666667, "grad_norm": 2.707980733220256, "learning_rate": 4.7018198735099986e-06, "loss": 0.4387, "step": 637 }, { "epoch": 0.17013333333333333, "grad_norm": 3.0449777088826213, "learning_rate": 4.700811813877489e-06, "loss": 0.4893, "step": 638 }, { "epoch": 0.1704, "grad_norm": 2.9778773472517184, "learning_rate": 4.699802161581535e-06, "loss": 0.4957, "step": 639 }, { "epoch": 0.17066666666666666, "grad_norm": 2.698007010653017, "learning_rate": 4.698790917352789e-06, "loss": 0.4798, "step": 640 }, { "epoch": 0.17093333333333333, "grad_norm": 2.8564333180326886, "learning_rate": 4.697778081923061e-06, "loss": 0.4586, "step": 641 }, { "epoch": 0.1712, "grad_norm": 2.6937879335482906, "learning_rate": 4.696763656025309e-06, "loss": 0.4459, "step": 642 }, { "epoch": 0.17146666666666666, "grad_norm": 2.5880716730196505, "learning_rate": 4.6957476403936465e-06, "loss": 0.4432, "step": 643 }, { "epoch": 0.17173333333333332, "grad_norm": 2.5485489527415264, "learning_rate": 4.694730035763332e-06, "loss": 0.4362, "step": 644 }, { "epoch": 0.172, "grad_norm": 3.515622032854306, "learning_rate": 4.693710842870777e-06, "loss": 0.5066, "step": 645 }, { "epoch": 0.17226666666666668, "grad_norm": 2.766807733010568, "learning_rate": 4.692690062453541e-06, "loss": 0.4542, "step": 646 }, { "epoch": 0.17253333333333334, "grad_norm": 2.710663284341496, "learning_rate": 4.691667695250335e-06, "loss": 0.4466, "step": 647 }, { "epoch": 0.1728, "grad_norm": 2.778692732846347, "learning_rate": 4.690643742001014e-06, "loss": 0.4635, "step": 648 }, { "epoch": 0.17306666666666667, "grad_norm": 3.0935312850155814, "learning_rate": 4.689618203446585e-06, "loss": 0.4515, "step": 649 }, { "epoch": 0.17333333333333334, "grad_norm": 2.9531053002602454, "learning_rate": 4.688591080329199e-06, "loss": 0.4895, "step": 650 }, { "epoch": 0.1736, "grad_norm": 2.550236802610135, "learning_rate": 4.687562373392156e-06, "loss": 0.4294, "step": 651 }, { "epoch": 0.17386666666666667, "grad_norm": 2.671321230365299, "learning_rate": 4.6865320833799014e-06, "loss": 0.4601, "step": 652 }, { "epoch": 0.17413333333333333, "grad_norm": 2.6680553152834645, "learning_rate": 4.685500211038025e-06, "loss": 0.4418, "step": 653 }, { "epoch": 0.1744, "grad_norm": 2.664622161012554, "learning_rate": 4.6844667571132655e-06, "loss": 0.4378, "step": 654 }, { "epoch": 0.17466666666666666, "grad_norm": 2.815296017136993, "learning_rate": 4.6834317223534995e-06, "loss": 0.4931, "step": 655 }, { "epoch": 0.17493333333333333, "grad_norm": 4.119111323292945, "learning_rate": 4.682395107507754e-06, "loss": 0.5343, "step": 656 }, { "epoch": 0.1752, "grad_norm": 2.7124657619088546, "learning_rate": 4.681356913326196e-06, "loss": 0.4548, "step": 657 }, { "epoch": 0.17546666666666666, "grad_norm": 2.622089386486628, "learning_rate": 4.680317140560138e-06, "loss": 0.4592, "step": 658 }, { "epoch": 0.17573333333333332, "grad_norm": 2.9083439540434433, "learning_rate": 4.679275789962032e-06, "loss": 0.4838, "step": 659 }, { "epoch": 0.176, "grad_norm": 2.5872279511601075, "learning_rate": 4.6782328622854725e-06, "loss": 0.5008, "step": 660 }, { "epoch": 0.17626666666666665, "grad_norm": 3.104795646602563, "learning_rate": 4.677188358285197e-06, "loss": 0.5104, "step": 661 }, { "epoch": 0.17653333333333332, "grad_norm": 3.1732430399587037, "learning_rate": 4.676142278717083e-06, "loss": 0.5439, "step": 662 }, { "epoch": 0.1768, "grad_norm": 2.67397668954799, "learning_rate": 4.675094624338146e-06, "loss": 0.4549, "step": 663 }, { "epoch": 0.17706666666666668, "grad_norm": 3.1670003626740306, "learning_rate": 4.674045395906545e-06, "loss": 0.5099, "step": 664 }, { "epoch": 0.17733333333333334, "grad_norm": 2.633482303113452, "learning_rate": 4.672994594181575e-06, "loss": 0.4429, "step": 665 }, { "epoch": 0.1776, "grad_norm": 2.913307019772029, "learning_rate": 4.671942219923671e-06, "loss": 0.5039, "step": 666 }, { "epoch": 0.17786666666666667, "grad_norm": 2.464817239265905, "learning_rate": 4.670888273894405e-06, "loss": 0.413, "step": 667 }, { "epoch": 0.17813333333333334, "grad_norm": 2.5485177089532685, "learning_rate": 4.669832756856487e-06, "loss": 0.4445, "step": 668 }, { "epoch": 0.1784, "grad_norm": 3.1133244060598924, "learning_rate": 4.6687756695737655e-06, "loss": 0.5062, "step": 669 }, { "epoch": 0.17866666666666667, "grad_norm": 2.898113137864932, "learning_rate": 4.667717012811223e-06, "loss": 0.4403, "step": 670 }, { "epoch": 0.17893333333333333, "grad_norm": 2.6497770891065877, "learning_rate": 4.666656787334978e-06, "loss": 0.4571, "step": 671 }, { "epoch": 0.1792, "grad_norm": 2.631663182840455, "learning_rate": 4.665594993912285e-06, "loss": 0.4353, "step": 672 }, { "epoch": 0.17946666666666666, "grad_norm": 2.580227535181295, "learning_rate": 4.664531633311532e-06, "loss": 0.4175, "step": 673 }, { "epoch": 0.17973333333333333, "grad_norm": 2.6393478267309325, "learning_rate": 4.663466706302245e-06, "loss": 0.4321, "step": 674 }, { "epoch": 0.18, "grad_norm": 3.236050255275857, "learning_rate": 4.662400213655078e-06, "loss": 0.4824, "step": 675 }, { "epoch": 0.18026666666666666, "grad_norm": 2.4305930708320274, "learning_rate": 4.661332156141822e-06, "loss": 0.4174, "step": 676 }, { "epoch": 0.18053333333333332, "grad_norm": 2.906655233994836, "learning_rate": 4.6602625345353984e-06, "loss": 0.4704, "step": 677 }, { "epoch": 0.1808, "grad_norm": 3.7701424984986094, "learning_rate": 4.659191349609862e-06, "loss": 0.4835, "step": 678 }, { "epoch": 0.18106666666666665, "grad_norm": 2.64714649579891, "learning_rate": 4.658118602140398e-06, "loss": 0.4489, "step": 679 }, { "epoch": 0.18133333333333335, "grad_norm": 3.1084853231800507, "learning_rate": 4.6570442929033215e-06, "loss": 0.5388, "step": 680 }, { "epoch": 0.1816, "grad_norm": 2.75854773149316, "learning_rate": 4.65596842267608e-06, "loss": 0.455, "step": 681 }, { "epoch": 0.18186666666666668, "grad_norm": 2.81897827569183, "learning_rate": 4.6548909922372485e-06, "loss": 0.4721, "step": 682 }, { "epoch": 0.18213333333333334, "grad_norm": 3.0836513453033048, "learning_rate": 4.6538120023665335e-06, "loss": 0.4833, "step": 683 }, { "epoch": 0.1824, "grad_norm": 2.7325903182132185, "learning_rate": 4.652731453844766e-06, "loss": 0.4706, "step": 684 }, { "epoch": 0.18266666666666667, "grad_norm": 2.905053054240319, "learning_rate": 4.651649347453911e-06, "loss": 0.501, "step": 685 }, { "epoch": 0.18293333333333334, "grad_norm": 2.7334950375649374, "learning_rate": 4.650565683977055e-06, "loss": 0.4768, "step": 686 }, { "epoch": 0.1832, "grad_norm": 2.896957253126091, "learning_rate": 4.649480464198414e-06, "loss": 0.4628, "step": 687 }, { "epoch": 0.18346666666666667, "grad_norm": 2.681116030083896, "learning_rate": 4.6483936889033295e-06, "loss": 0.4821, "step": 688 }, { "epoch": 0.18373333333333333, "grad_norm": 2.7349660884891316, "learning_rate": 4.647305358878271e-06, "loss": 0.4666, "step": 689 }, { "epoch": 0.184, "grad_norm": 2.5429351537472424, "learning_rate": 4.64621547491083e-06, "loss": 0.4537, "step": 690 }, { "epoch": 0.18426666666666666, "grad_norm": 2.4205541165750515, "learning_rate": 4.645124037789724e-06, "loss": 0.4228, "step": 691 }, { "epoch": 0.18453333333333333, "grad_norm": 2.6016326804148835, "learning_rate": 4.644031048304794e-06, "loss": 0.4222, "step": 692 }, { "epoch": 0.1848, "grad_norm": 2.7979886365106306, "learning_rate": 4.6429365072470046e-06, "loss": 0.4991, "step": 693 }, { "epoch": 0.18506666666666666, "grad_norm": 2.8275226790475325, "learning_rate": 4.641840415408444e-06, "loss": 0.4502, "step": 694 }, { "epoch": 0.18533333333333332, "grad_norm": 2.6082284698446334, "learning_rate": 4.640742773582321e-06, "loss": 0.4588, "step": 695 }, { "epoch": 0.1856, "grad_norm": 3.599583245740596, "learning_rate": 4.639643582562968e-06, "loss": 0.4984, "step": 696 }, { "epoch": 0.18586666666666668, "grad_norm": 3.144261736360566, "learning_rate": 4.638542843145837e-06, "loss": 0.5379, "step": 697 }, { "epoch": 0.18613333333333335, "grad_norm": 2.707964589958257, "learning_rate": 4.637440556127501e-06, "loss": 0.4635, "step": 698 }, { "epoch": 0.1864, "grad_norm": 2.498149072444361, "learning_rate": 4.636336722305654e-06, "loss": 0.4217, "step": 699 }, { "epoch": 0.18666666666666668, "grad_norm": 2.7559031948211894, "learning_rate": 4.635231342479108e-06, "loss": 0.48, "step": 700 }, { "epoch": 0.18693333333333334, "grad_norm": 2.961670765545406, "learning_rate": 4.634124417447793e-06, "loss": 0.5147, "step": 701 }, { "epoch": 0.1872, "grad_norm": 3.176348553599351, "learning_rate": 4.633015948012758e-06, "loss": 0.5588, "step": 702 }, { "epoch": 0.18746666666666667, "grad_norm": 2.952543778616617, "learning_rate": 4.631905934976173e-06, "loss": 0.5025, "step": 703 }, { "epoch": 0.18773333333333334, "grad_norm": 2.4483570050521117, "learning_rate": 4.6307943791413205e-06, "loss": 0.4458, "step": 704 }, { "epoch": 0.188, "grad_norm": 2.5986118713757516, "learning_rate": 4.6296812813126e-06, "loss": 0.4224, "step": 705 }, { "epoch": 0.18826666666666667, "grad_norm": 2.5704092738469004, "learning_rate": 4.62856664229553e-06, "loss": 0.4451, "step": 706 }, { "epoch": 0.18853333333333333, "grad_norm": 2.6683056930045663, "learning_rate": 4.627450462896741e-06, "loss": 0.4368, "step": 707 }, { "epoch": 0.1888, "grad_norm": 3.566170488478393, "learning_rate": 4.626332743923979e-06, "loss": 0.526, "step": 708 }, { "epoch": 0.18906666666666666, "grad_norm": 2.624175061719108, "learning_rate": 4.625213486186107e-06, "loss": 0.4581, "step": 709 }, { "epoch": 0.18933333333333333, "grad_norm": 3.0047138650301077, "learning_rate": 4.6240926904930976e-06, "loss": 0.4806, "step": 710 }, { "epoch": 0.1896, "grad_norm": 2.6912156881573717, "learning_rate": 4.622970357656038e-06, "loss": 0.4991, "step": 711 }, { "epoch": 0.18986666666666666, "grad_norm": 3.3044478059706814, "learning_rate": 4.621846488487127e-06, "loss": 0.5878, "step": 712 }, { "epoch": 0.19013333333333332, "grad_norm": 2.917568512238252, "learning_rate": 4.620721083799679e-06, "loss": 0.4767, "step": 713 }, { "epoch": 0.1904, "grad_norm": 2.6309844966485914, "learning_rate": 4.619594144408113e-06, "loss": 0.47, "step": 714 }, { "epoch": 0.19066666666666668, "grad_norm": 3.0283918867808155, "learning_rate": 4.618465671127964e-06, "loss": 0.5388, "step": 715 }, { "epoch": 0.19093333333333334, "grad_norm": 2.5402668029126607, "learning_rate": 4.617335664775876e-06, "loss": 0.4765, "step": 716 }, { "epoch": 0.1912, "grad_norm": 2.8381300964708602, "learning_rate": 4.616204126169601e-06, "loss": 0.465, "step": 717 }, { "epoch": 0.19146666666666667, "grad_norm": 2.849911234220085, "learning_rate": 4.6150710561279995e-06, "loss": 0.4765, "step": 718 }, { "epoch": 0.19173333333333334, "grad_norm": 2.902668804832546, "learning_rate": 4.613936455471043e-06, "loss": 0.4725, "step": 719 }, { "epoch": 0.192, "grad_norm": 2.793420432085734, "learning_rate": 4.612800325019808e-06, "loss": 0.4759, "step": 720 }, { "epoch": 0.19226666666666667, "grad_norm": 2.563158064665681, "learning_rate": 4.611662665596479e-06, "loss": 0.441, "step": 721 }, { "epoch": 0.19253333333333333, "grad_norm": 2.8527049234652813, "learning_rate": 4.610523478024348e-06, "loss": 0.4758, "step": 722 }, { "epoch": 0.1928, "grad_norm": 2.736267092600494, "learning_rate": 4.60938276312781e-06, "loss": 0.4955, "step": 723 }, { "epoch": 0.19306666666666666, "grad_norm": 2.903905517319012, "learning_rate": 4.6082405217323685e-06, "loss": 0.5463, "step": 724 }, { "epoch": 0.19333333333333333, "grad_norm": 3.5787258914605666, "learning_rate": 4.6070967546646305e-06, "loss": 0.5487, "step": 725 }, { "epoch": 0.1936, "grad_norm": 3.269632205884786, "learning_rate": 4.6059514627523075e-06, "loss": 0.5249, "step": 726 }, { "epoch": 0.19386666666666666, "grad_norm": 3.563555112204305, "learning_rate": 4.604804646824211e-06, "loss": 0.5428, "step": 727 }, { "epoch": 0.19413333333333332, "grad_norm": 2.829244370399035, "learning_rate": 4.603656307710262e-06, "loss": 0.5116, "step": 728 }, { "epoch": 0.1944, "grad_norm": 2.6589773094396683, "learning_rate": 4.602506446241477e-06, "loss": 0.4661, "step": 729 }, { "epoch": 0.19466666666666665, "grad_norm": 2.9046986065751392, "learning_rate": 4.60135506324998e-06, "loss": 0.4937, "step": 730 }, { "epoch": 0.19493333333333332, "grad_norm": 2.9410346412177506, "learning_rate": 4.600202159568991e-06, "loss": 0.5056, "step": 731 }, { "epoch": 0.1952, "grad_norm": 2.679702405480283, "learning_rate": 4.599047736032834e-06, "loss": 0.468, "step": 732 }, { "epoch": 0.19546666666666668, "grad_norm": 2.7200053722953617, "learning_rate": 4.597891793476932e-06, "loss": 0.4414, "step": 733 }, { "epoch": 0.19573333333333334, "grad_norm": 2.7419162081905255, "learning_rate": 4.596734332737806e-06, "loss": 0.4889, "step": 734 }, { "epoch": 0.196, "grad_norm": 2.6481502849528717, "learning_rate": 4.5955753546530775e-06, "loss": 0.4903, "step": 735 }, { "epoch": 0.19626666666666667, "grad_norm": 2.6372581500736687, "learning_rate": 4.594414860061465e-06, "loss": 0.462, "step": 736 }, { "epoch": 0.19653333333333334, "grad_norm": 2.93497197530768, "learning_rate": 4.593252849802784e-06, "loss": 0.4934, "step": 737 }, { "epoch": 0.1968, "grad_norm": 2.8265602627705584, "learning_rate": 4.592089324717949e-06, "loss": 0.4648, "step": 738 }, { "epoch": 0.19706666666666667, "grad_norm": 2.5015474206189605, "learning_rate": 4.590924285648968e-06, "loss": 0.4468, "step": 739 }, { "epoch": 0.19733333333333333, "grad_norm": 2.7700127372668923, "learning_rate": 4.5897577334389456e-06, "loss": 0.4419, "step": 740 }, { "epoch": 0.1976, "grad_norm": 2.670980413377504, "learning_rate": 4.588589668932082e-06, "loss": 0.4255, "step": 741 }, { "epoch": 0.19786666666666666, "grad_norm": 3.4619460944317306, "learning_rate": 4.587420092973672e-06, "loss": 0.5473, "step": 742 }, { "epoch": 0.19813333333333333, "grad_norm": 2.8637172945060616, "learning_rate": 4.586249006410104e-06, "loss": 0.4436, "step": 743 }, { "epoch": 0.1984, "grad_norm": 2.8580447494282066, "learning_rate": 4.585076410088858e-06, "loss": 0.4531, "step": 744 }, { "epoch": 0.19866666666666666, "grad_norm": 2.741712683273896, "learning_rate": 4.583902304858509e-06, "loss": 0.4901, "step": 745 }, { "epoch": 0.19893333333333332, "grad_norm": 3.1979221707306746, "learning_rate": 4.5827266915687205e-06, "loss": 0.5145, "step": 746 }, { "epoch": 0.1992, "grad_norm": 2.396896084172301, "learning_rate": 4.5815495710702525e-06, "loss": 0.4211, "step": 747 }, { "epoch": 0.19946666666666665, "grad_norm": 2.76531001693003, "learning_rate": 4.580370944214952e-06, "loss": 0.4678, "step": 748 }, { "epoch": 0.19973333333333335, "grad_norm": 2.3165269057856586, "learning_rate": 4.579190811855757e-06, "loss": 0.3728, "step": 749 }, { "epoch": 0.2, "grad_norm": 2.940856327035219, "learning_rate": 4.578009174846694e-06, "loss": 0.5165, "step": 750 }, { "epoch": 0.20026666666666668, "grad_norm": 2.2582348736673095, "learning_rate": 4.5768260340428795e-06, "loss": 0.3798, "step": 751 }, { "epoch": 0.20053333333333334, "grad_norm": 2.472377392973847, "learning_rate": 4.575641390300519e-06, "loss": 0.4611, "step": 752 }, { "epoch": 0.2008, "grad_norm": 3.0423926510933734, "learning_rate": 4.574455244476904e-06, "loss": 0.5219, "step": 753 }, { "epoch": 0.20106666666666667, "grad_norm": 2.7583772849745816, "learning_rate": 4.573267597430414e-06, "loss": 0.4921, "step": 754 }, { "epoch": 0.20133333333333334, "grad_norm": 2.413161223973684, "learning_rate": 4.572078450020514e-06, "loss": 0.4162, "step": 755 }, { "epoch": 0.2016, "grad_norm": 2.4318051218699535, "learning_rate": 4.570887803107757e-06, "loss": 0.4228, "step": 756 }, { "epoch": 0.20186666666666667, "grad_norm": 2.8506559580971325, "learning_rate": 4.569695657553777e-06, "loss": 0.5009, "step": 757 }, { "epoch": 0.20213333333333333, "grad_norm": 2.9605261051845315, "learning_rate": 4.568502014221296e-06, "loss": 0.5072, "step": 758 }, { "epoch": 0.2024, "grad_norm": 2.704638125526413, "learning_rate": 4.56730687397412e-06, "loss": 0.4734, "step": 759 }, { "epoch": 0.20266666666666666, "grad_norm": 2.4504591742898354, "learning_rate": 4.566110237677136e-06, "loss": 0.442, "step": 760 }, { "epoch": 0.20293333333333333, "grad_norm": 2.4682862132472643, "learning_rate": 4.564912106196317e-06, "loss": 0.431, "step": 761 }, { "epoch": 0.2032, "grad_norm": 2.793273797878234, "learning_rate": 4.563712480398712e-06, "loss": 0.4681, "step": 762 }, { "epoch": 0.20346666666666666, "grad_norm": 2.453150762906319, "learning_rate": 4.562511361152458e-06, "loss": 0.4129, "step": 763 }, { "epoch": 0.20373333333333332, "grad_norm": 2.607900075053996, "learning_rate": 4.56130874932677e-06, "loss": 0.4547, "step": 764 }, { "epoch": 0.204, "grad_norm": 3.1694019617186697, "learning_rate": 4.560104645791943e-06, "loss": 0.4981, "step": 765 }, { "epoch": 0.20426666666666668, "grad_norm": 3.119288203464753, "learning_rate": 4.558899051419351e-06, "loss": 0.5328, "step": 766 }, { "epoch": 0.20453333333333334, "grad_norm": 2.6512993461985803, "learning_rate": 4.557691967081448e-06, "loss": 0.4614, "step": 767 }, { "epoch": 0.2048, "grad_norm": 2.6660743574629207, "learning_rate": 4.556483393651765e-06, "loss": 0.4255, "step": 768 }, { "epoch": 0.20506666666666667, "grad_norm": 2.894053793006528, "learning_rate": 4.555273332004913e-06, "loss": 0.4634, "step": 769 }, { "epoch": 0.20533333333333334, "grad_norm": 3.6128177066789573, "learning_rate": 4.554061783016578e-06, "loss": 0.5835, "step": 770 }, { "epoch": 0.2056, "grad_norm": 2.693024510953251, "learning_rate": 4.552848747563521e-06, "loss": 0.4565, "step": 771 }, { "epoch": 0.20586666666666667, "grad_norm": 2.7055525117258457, "learning_rate": 4.5516342265235824e-06, "loss": 0.459, "step": 772 }, { "epoch": 0.20613333333333334, "grad_norm": 2.8423291339617887, "learning_rate": 4.550418220775676e-06, "loss": 0.5206, "step": 773 }, { "epoch": 0.2064, "grad_norm": 2.654567630081089, "learning_rate": 4.549200731199787e-06, "loss": 0.4515, "step": 774 }, { "epoch": 0.20666666666666667, "grad_norm": 3.1388672852337027, "learning_rate": 4.547981758676979e-06, "loss": 0.4927, "step": 775 }, { "epoch": 0.20693333333333333, "grad_norm": 2.7993005366824675, "learning_rate": 4.546761304089388e-06, "loss": 0.4592, "step": 776 }, { "epoch": 0.2072, "grad_norm": 2.651832248245361, "learning_rate": 4.5455393683202195e-06, "loss": 0.4756, "step": 777 }, { "epoch": 0.20746666666666666, "grad_norm": 3.0202612818582377, "learning_rate": 4.544315952253754e-06, "loss": 0.5027, "step": 778 }, { "epoch": 0.20773333333333333, "grad_norm": 2.548947644761938, "learning_rate": 4.543091056775341e-06, "loss": 0.4504, "step": 779 }, { "epoch": 0.208, "grad_norm": 2.5214320225611524, "learning_rate": 4.541864682771404e-06, "loss": 0.4463, "step": 780 }, { "epoch": 0.20826666666666666, "grad_norm": 2.7522797523740152, "learning_rate": 4.540636831129432e-06, "loss": 0.4826, "step": 781 }, { "epoch": 0.20853333333333332, "grad_norm": 2.53318385285558, "learning_rate": 4.539407502737987e-06, "loss": 0.4081, "step": 782 }, { "epoch": 0.2088, "grad_norm": 2.7475292526336363, "learning_rate": 4.538176698486696e-06, "loss": 0.4561, "step": 783 }, { "epoch": 0.20906666666666668, "grad_norm": 2.4625933602326477, "learning_rate": 4.536944419266258e-06, "loss": 0.4031, "step": 784 }, { "epoch": 0.20933333333333334, "grad_norm": 2.515874940789969, "learning_rate": 4.535710665968437e-06, "loss": 0.4385, "step": 785 }, { "epoch": 0.2096, "grad_norm": 2.5773365528459826, "learning_rate": 4.534475439486065e-06, "loss": 0.4692, "step": 786 }, { "epoch": 0.20986666666666667, "grad_norm": 2.7594609625339306, "learning_rate": 4.533238740713039e-06, "loss": 0.4876, "step": 787 }, { "epoch": 0.21013333333333334, "grad_norm": 2.6870294595549393, "learning_rate": 4.532000570544321e-06, "loss": 0.516, "step": 788 }, { "epoch": 0.2104, "grad_norm": 2.672824089111284, "learning_rate": 4.53076092987594e-06, "loss": 0.4934, "step": 789 }, { "epoch": 0.21066666666666667, "grad_norm": 2.695845987859465, "learning_rate": 4.529519819604987e-06, "loss": 0.4746, "step": 790 }, { "epoch": 0.21093333333333333, "grad_norm": 3.1571137392984325, "learning_rate": 4.528277240629618e-06, "loss": 0.5357, "step": 791 }, { "epoch": 0.2112, "grad_norm": 3.2517903763700464, "learning_rate": 4.527033193849052e-06, "loss": 0.5729, "step": 792 }, { "epoch": 0.21146666666666666, "grad_norm": 2.545697554041401, "learning_rate": 4.525787680163567e-06, "loss": 0.4809, "step": 793 }, { "epoch": 0.21173333333333333, "grad_norm": 2.9271031411954875, "learning_rate": 4.524540700474507e-06, "loss": 0.4806, "step": 794 }, { "epoch": 0.212, "grad_norm": 2.842619480036809, "learning_rate": 4.5232922556842755e-06, "loss": 0.462, "step": 795 }, { "epoch": 0.21226666666666666, "grad_norm": 2.4726610580867607, "learning_rate": 4.522042346696332e-06, "loss": 0.4093, "step": 796 }, { "epoch": 0.21253333333333332, "grad_norm": 2.8907370962293966, "learning_rate": 4.520790974415204e-06, "loss": 0.471, "step": 797 }, { "epoch": 0.2128, "grad_norm": 2.3589815338796973, "learning_rate": 4.51953813974647e-06, "loss": 0.4325, "step": 798 }, { "epoch": 0.21306666666666665, "grad_norm": 3.1101505234115225, "learning_rate": 4.5182838435967715e-06, "loss": 0.5173, "step": 799 }, { "epoch": 0.21333333333333335, "grad_norm": 2.3835354929760144, "learning_rate": 4.517028086873805e-06, "loss": 0.4291, "step": 800 }, { "epoch": 0.2136, "grad_norm": 2.3578430334390013, "learning_rate": 4.515770870486325e-06, "loss": 0.4524, "step": 801 }, { "epoch": 0.21386666666666668, "grad_norm": 2.6029355623232, "learning_rate": 4.514512195344145e-06, "loss": 0.425, "step": 802 }, { "epoch": 0.21413333333333334, "grad_norm": 2.6235175534207493, "learning_rate": 4.5132520623581285e-06, "loss": 0.5181, "step": 803 }, { "epoch": 0.2144, "grad_norm": 2.521633260186649, "learning_rate": 4.511990472440198e-06, "loss": 0.4354, "step": 804 }, { "epoch": 0.21466666666666667, "grad_norm": 2.5420431080756076, "learning_rate": 4.51072742650333e-06, "loss": 0.4333, "step": 805 }, { "epoch": 0.21493333333333334, "grad_norm": 2.723551190310324, "learning_rate": 4.509462925461553e-06, "loss": 0.4308, "step": 806 }, { "epoch": 0.2152, "grad_norm": 3.554423428330265, "learning_rate": 4.508196970229951e-06, "loss": 0.5213, "step": 807 }, { "epoch": 0.21546666666666667, "grad_norm": 2.5109141507404447, "learning_rate": 4.506929561724658e-06, "loss": 0.4523, "step": 808 }, { "epoch": 0.21573333333333333, "grad_norm": 2.305440149517117, "learning_rate": 4.505660700862861e-06, "loss": 0.3981, "step": 809 }, { "epoch": 0.216, "grad_norm": 2.5800393111571225, "learning_rate": 4.5043903885627965e-06, "loss": 0.475, "step": 810 }, { "epoch": 0.21626666666666666, "grad_norm": 2.6342424915375253, "learning_rate": 4.5031186257437545e-06, "loss": 0.4625, "step": 811 }, { "epoch": 0.21653333333333333, "grad_norm": 2.6615453825807034, "learning_rate": 4.501845413326071e-06, "loss": 0.4775, "step": 812 }, { "epoch": 0.2168, "grad_norm": 2.589783497470515, "learning_rate": 4.5005707522311345e-06, "loss": 0.4328, "step": 813 }, { "epoch": 0.21706666666666666, "grad_norm": 2.6129526205530076, "learning_rate": 4.499294643381379e-06, "loss": 0.4704, "step": 814 }, { "epoch": 0.21733333333333332, "grad_norm": 2.9598985677149408, "learning_rate": 4.498017087700287e-06, "loss": 0.5159, "step": 815 }, { "epoch": 0.2176, "grad_norm": 2.6503067845703536, "learning_rate": 4.4967380861123885e-06, "loss": 0.445, "step": 816 }, { "epoch": 0.21786666666666665, "grad_norm": 2.3564211471744447, "learning_rate": 4.495457639543261e-06, "loss": 0.4133, "step": 817 }, { "epoch": 0.21813333333333335, "grad_norm": 3.2293296805649643, "learning_rate": 4.494175748919525e-06, "loss": 0.5079, "step": 818 }, { "epoch": 0.2184, "grad_norm": 2.979810592391472, "learning_rate": 4.492892415168848e-06, "loss": 0.5276, "step": 819 }, { "epoch": 0.21866666666666668, "grad_norm": 2.459344082056493, "learning_rate": 4.491607639219941e-06, "loss": 0.4073, "step": 820 }, { "epoch": 0.21893333333333334, "grad_norm": 2.880512716184811, "learning_rate": 4.490321422002559e-06, "loss": 0.431, "step": 821 }, { "epoch": 0.2192, "grad_norm": 2.832415501114807, "learning_rate": 4.489033764447501e-06, "loss": 0.4787, "step": 822 }, { "epoch": 0.21946666666666667, "grad_norm": 6.631908894350528, "learning_rate": 4.487744667486606e-06, "loss": 0.511, "step": 823 }, { "epoch": 0.21973333333333334, "grad_norm": 2.6762104852364033, "learning_rate": 4.486454132052756e-06, "loss": 0.4658, "step": 824 }, { "epoch": 0.22, "grad_norm": 2.675527037193902, "learning_rate": 4.485162159079875e-06, "loss": 0.5105, "step": 825 }, { "epoch": 0.22026666666666667, "grad_norm": 2.5127694111438323, "learning_rate": 4.4838687495029245e-06, "loss": 0.4433, "step": 826 }, { "epoch": 0.22053333333333333, "grad_norm": 2.6570766577680622, "learning_rate": 4.482573904257908e-06, "loss": 0.453, "step": 827 }, { "epoch": 0.2208, "grad_norm": 4.462669607088079, "learning_rate": 4.481277624281869e-06, "loss": 0.4814, "step": 828 }, { "epoch": 0.22106666666666666, "grad_norm": 2.499323374168046, "learning_rate": 4.479979910512886e-06, "loss": 0.4482, "step": 829 }, { "epoch": 0.22133333333333333, "grad_norm": 2.6227678065193065, "learning_rate": 4.478680763890077e-06, "loss": 0.4125, "step": 830 }, { "epoch": 0.2216, "grad_norm": 3.3567175397361257, "learning_rate": 4.477380185353596e-06, "loss": 0.5667, "step": 831 }, { "epoch": 0.22186666666666666, "grad_norm": 2.849201610847363, "learning_rate": 4.4760781758446345e-06, "loss": 0.509, "step": 832 }, { "epoch": 0.22213333333333332, "grad_norm": 3.330602703475536, "learning_rate": 4.4747747363054195e-06, "loss": 0.5615, "step": 833 }, { "epoch": 0.2224, "grad_norm": 2.530040229167174, "learning_rate": 4.473469867679211e-06, "loss": 0.4261, "step": 834 }, { "epoch": 0.22266666666666668, "grad_norm": 2.697831438416143, "learning_rate": 4.472163570910304e-06, "loss": 0.4376, "step": 835 }, { "epoch": 0.22293333333333334, "grad_norm": 2.6797582430740623, "learning_rate": 4.470855846944029e-06, "loss": 0.4315, "step": 836 }, { "epoch": 0.2232, "grad_norm": 2.6733167492278582, "learning_rate": 4.469546696726748e-06, "loss": 0.4417, "step": 837 }, { "epoch": 0.22346666666666667, "grad_norm": 2.7623445500468815, "learning_rate": 4.4682361212058535e-06, "loss": 0.4814, "step": 838 }, { "epoch": 0.22373333333333334, "grad_norm": 3.7849834784306347, "learning_rate": 4.466924121329771e-06, "loss": 0.4635, "step": 839 }, { "epoch": 0.224, "grad_norm": 3.0534496567624045, "learning_rate": 4.465610698047958e-06, "loss": 0.5233, "step": 840 }, { "epoch": 0.22426666666666667, "grad_norm": 2.7511252957585537, "learning_rate": 4.464295852310898e-06, "loss": 0.483, "step": 841 }, { "epoch": 0.22453333333333333, "grad_norm": 2.8950872969519925, "learning_rate": 4.46297958507011e-06, "loss": 0.4927, "step": 842 }, { "epoch": 0.2248, "grad_norm": 2.760804626301903, "learning_rate": 4.461661897278135e-06, "loss": 0.4575, "step": 843 }, { "epoch": 0.22506666666666666, "grad_norm": 2.5397016019503966, "learning_rate": 4.460342789888549e-06, "loss": 0.4718, "step": 844 }, { "epoch": 0.22533333333333333, "grad_norm": 2.8565058155175, "learning_rate": 4.459022263855948e-06, "loss": 0.4897, "step": 845 }, { "epoch": 0.2256, "grad_norm": 2.5286944088850016, "learning_rate": 4.457700320135961e-06, "loss": 0.406, "step": 846 }, { "epoch": 0.22586666666666666, "grad_norm": 2.7685862769924507, "learning_rate": 4.456376959685237e-06, "loss": 0.4687, "step": 847 }, { "epoch": 0.22613333333333333, "grad_norm": 3.1155197266474364, "learning_rate": 4.4550521834614566e-06, "loss": 0.4772, "step": 848 }, { "epoch": 0.2264, "grad_norm": 2.974163229499802, "learning_rate": 4.453725992423321e-06, "loss": 0.4821, "step": 849 }, { "epoch": 0.22666666666666666, "grad_norm": 2.778491340184208, "learning_rate": 4.4523983875305544e-06, "loss": 0.5001, "step": 850 }, { "epoch": 0.22693333333333332, "grad_norm": 2.56560373143486, "learning_rate": 4.451069369743909e-06, "loss": 0.4587, "step": 851 }, { "epoch": 0.2272, "grad_norm": 2.8221370015885956, "learning_rate": 4.449738940025153e-06, "loss": 0.5022, "step": 852 }, { "epoch": 0.22746666666666668, "grad_norm": 2.6324790903972213, "learning_rate": 4.448407099337081e-06, "loss": 0.4687, "step": 853 }, { "epoch": 0.22773333333333334, "grad_norm": 3.3403945013975975, "learning_rate": 4.447073848643507e-06, "loss": 0.4525, "step": 854 }, { "epoch": 0.228, "grad_norm": 2.7327664608445983, "learning_rate": 4.445739188909267e-06, "loss": 0.4846, "step": 855 }, { "epoch": 0.22826666666666667, "grad_norm": 3.0539250629487484, "learning_rate": 4.444403121100213e-06, "loss": 0.4538, "step": 856 }, { "epoch": 0.22853333333333334, "grad_norm": 2.8761640373407924, "learning_rate": 4.4430656461832225e-06, "loss": 0.4841, "step": 857 }, { "epoch": 0.2288, "grad_norm": 2.5325853700356733, "learning_rate": 4.441726765126182e-06, "loss": 0.4435, "step": 858 }, { "epoch": 0.22906666666666667, "grad_norm": 2.6277135639247473, "learning_rate": 4.440386478898004e-06, "loss": 0.4487, "step": 859 }, { "epoch": 0.22933333333333333, "grad_norm": 2.6860775686708855, "learning_rate": 4.439044788468614e-06, "loss": 0.4616, "step": 860 }, { "epoch": 0.2296, "grad_norm": 2.4522310395448823, "learning_rate": 4.437701694808955e-06, "loss": 0.4477, "step": 861 }, { "epoch": 0.22986666666666666, "grad_norm": 2.5998020857016484, "learning_rate": 4.4363571988909825e-06, "loss": 0.4097, "step": 862 }, { "epoch": 0.23013333333333333, "grad_norm": 2.5164384635992585, "learning_rate": 4.4350113016876714e-06, "loss": 0.4735, "step": 863 }, { "epoch": 0.2304, "grad_norm": 2.7475765787212656, "learning_rate": 4.433664004173006e-06, "loss": 0.4632, "step": 864 }, { "epoch": 0.23066666666666666, "grad_norm": 2.839546820057335, "learning_rate": 4.43231530732199e-06, "loss": 0.4537, "step": 865 }, { "epoch": 0.23093333333333332, "grad_norm": 2.9759923279455096, "learning_rate": 4.430965212110633e-06, "loss": 0.467, "step": 866 }, { "epoch": 0.2312, "grad_norm": 3.1545452114615062, "learning_rate": 4.429613719515959e-06, "loss": 0.5046, "step": 867 }, { "epoch": 0.23146666666666665, "grad_norm": 2.805452692166308, "learning_rate": 4.4282608305160066e-06, "loss": 0.4439, "step": 868 }, { "epoch": 0.23173333333333335, "grad_norm": 2.5921383910106353, "learning_rate": 4.426906546089822e-06, "loss": 0.4763, "step": 869 }, { "epoch": 0.232, "grad_norm": 3.1442611681022443, "learning_rate": 4.425550867217458e-06, "loss": 0.5104, "step": 870 }, { "epoch": 0.23226666666666668, "grad_norm": 2.616053915885445, "learning_rate": 4.4241937948799834e-06, "loss": 0.4739, "step": 871 }, { "epoch": 0.23253333333333334, "grad_norm": 2.7378608068837873, "learning_rate": 4.4228353300594705e-06, "loss": 0.5219, "step": 872 }, { "epoch": 0.2328, "grad_norm": 2.576585784629098, "learning_rate": 4.421475473739001e-06, "loss": 0.4251, "step": 873 }, { "epoch": 0.23306666666666667, "grad_norm": 2.6863185335570217, "learning_rate": 4.4201142269026635e-06, "loss": 0.4318, "step": 874 }, { "epoch": 0.23333333333333334, "grad_norm": 2.570186790566047, "learning_rate": 4.4187515905355526e-06, "loss": 0.4834, "step": 875 }, { "epoch": 0.2336, "grad_norm": 2.705002372843143, "learning_rate": 4.417387565623768e-06, "loss": 0.466, "step": 876 }, { "epoch": 0.23386666666666667, "grad_norm": 2.596673718743218, "learning_rate": 4.416022153154416e-06, "loss": 0.4227, "step": 877 }, { "epoch": 0.23413333333333333, "grad_norm": 2.4868767409516677, "learning_rate": 4.414655354115605e-06, "loss": 0.4572, "step": 878 }, { "epoch": 0.2344, "grad_norm": 2.550101200283714, "learning_rate": 4.413287169496447e-06, "loss": 0.4303, "step": 879 }, { "epoch": 0.23466666666666666, "grad_norm": 2.535730745677696, "learning_rate": 4.411917600287059e-06, "loss": 0.4316, "step": 880 }, { "epoch": 0.23493333333333333, "grad_norm": 2.9024115887510646, "learning_rate": 4.410546647478557e-06, "loss": 0.4744, "step": 881 }, { "epoch": 0.2352, "grad_norm": 2.4755758053645156, "learning_rate": 4.409174312063062e-06, "loss": 0.4193, "step": 882 }, { "epoch": 0.23546666666666666, "grad_norm": 2.7894466211657125, "learning_rate": 4.40780059503369e-06, "loss": 0.4558, "step": 883 }, { "epoch": 0.23573333333333332, "grad_norm": 3.1312574362097787, "learning_rate": 4.406425497384561e-06, "loss": 0.5244, "step": 884 }, { "epoch": 0.236, "grad_norm": 3.048499851655153, "learning_rate": 4.405049020110795e-06, "loss": 0.4953, "step": 885 }, { "epoch": 0.23626666666666668, "grad_norm": 2.9977518005009003, "learning_rate": 4.403671164208506e-06, "loss": 0.5033, "step": 886 }, { "epoch": 0.23653333333333335, "grad_norm": 2.6825708759199904, "learning_rate": 4.40229193067481e-06, "loss": 0.4253, "step": 887 }, { "epoch": 0.2368, "grad_norm": 2.8546691119598764, "learning_rate": 4.400911320507818e-06, "loss": 0.4707, "step": 888 }, { "epoch": 0.23706666666666668, "grad_norm": 2.9957963133640497, "learning_rate": 4.399529334706636e-06, "loss": 0.4979, "step": 889 }, { "epoch": 0.23733333333333334, "grad_norm": 2.280496406616078, "learning_rate": 4.398145974271369e-06, "loss": 0.3861, "step": 890 }, { "epoch": 0.2376, "grad_norm": 2.902077815836922, "learning_rate": 4.3967612402031126e-06, "loss": 0.5292, "step": 891 }, { "epoch": 0.23786666666666667, "grad_norm": 2.4314115823424447, "learning_rate": 4.395375133503959e-06, "loss": 0.4312, "step": 892 }, { "epoch": 0.23813333333333334, "grad_norm": 2.9816158463469087, "learning_rate": 4.393987655176995e-06, "loss": 0.4752, "step": 893 }, { "epoch": 0.2384, "grad_norm": 2.7646354434195417, "learning_rate": 4.392598806226296e-06, "loss": 0.4484, "step": 894 }, { "epoch": 0.23866666666666667, "grad_norm": 3.3036480196576368, "learning_rate": 4.391208587656932e-06, "loss": 0.4662, "step": 895 }, { "epoch": 0.23893333333333333, "grad_norm": 2.499624087633258, "learning_rate": 4.389817000474965e-06, "loss": 0.4188, "step": 896 }, { "epoch": 0.2392, "grad_norm": 3.0423480947528265, "learning_rate": 4.388424045687446e-06, "loss": 0.45, "step": 897 }, { "epoch": 0.23946666666666666, "grad_norm": 2.574216475820042, "learning_rate": 4.387029724302415e-06, "loss": 0.4249, "step": 898 }, { "epoch": 0.23973333333333333, "grad_norm": 2.773293366206489, "learning_rate": 4.385634037328902e-06, "loss": 0.485, "step": 899 }, { "epoch": 0.24, "grad_norm": 3.233267327021568, "learning_rate": 4.384236985776924e-06, "loss": 0.5621, "step": 900 }, { "epoch": 0.24026666666666666, "grad_norm": 2.4315153972273604, "learning_rate": 4.382838570657489e-06, "loss": 0.4607, "step": 901 }, { "epoch": 0.24053333333333332, "grad_norm": 2.9588119938393316, "learning_rate": 4.381438792982586e-06, "loss": 0.502, "step": 902 }, { "epoch": 0.2408, "grad_norm": 2.7822416906964067, "learning_rate": 4.3800376537651965e-06, "loss": 0.5037, "step": 903 }, { "epoch": 0.24106666666666668, "grad_norm": 2.8515182195617483, "learning_rate": 4.378635154019284e-06, "loss": 0.4703, "step": 904 }, { "epoch": 0.24133333333333334, "grad_norm": 2.7599524766929657, "learning_rate": 4.377231294759794e-06, "loss": 0.4769, "step": 905 }, { "epoch": 0.2416, "grad_norm": 2.855631754231124, "learning_rate": 4.375826077002661e-06, "loss": 0.5373, "step": 906 }, { "epoch": 0.24186666666666667, "grad_norm": 2.7063972997110852, "learning_rate": 4.374419501764799e-06, "loss": 0.4875, "step": 907 }, { "epoch": 0.24213333333333334, "grad_norm": 2.2634018989409563, "learning_rate": 4.3730115700641066e-06, "loss": 0.3987, "step": 908 }, { "epoch": 0.2424, "grad_norm": 2.4939091368392305, "learning_rate": 4.371602282919461e-06, "loss": 0.4488, "step": 909 }, { "epoch": 0.24266666666666667, "grad_norm": 2.708585476411608, "learning_rate": 4.370191641350726e-06, "loss": 0.4596, "step": 910 }, { "epoch": 0.24293333333333333, "grad_norm": 2.814934540974494, "learning_rate": 4.368779646378738e-06, "loss": 0.503, "step": 911 }, { "epoch": 0.2432, "grad_norm": 2.7571135039230343, "learning_rate": 4.367366299025318e-06, "loss": 0.4253, "step": 912 }, { "epoch": 0.24346666666666666, "grad_norm": 2.826375776139662, "learning_rate": 4.365951600313265e-06, "loss": 0.4673, "step": 913 }, { "epoch": 0.24373333333333333, "grad_norm": 2.900697491608127, "learning_rate": 4.364535551266355e-06, "loss": 0.4754, "step": 914 }, { "epoch": 0.244, "grad_norm": 2.7842790501227492, "learning_rate": 4.363118152909341e-06, "loss": 0.4383, "step": 915 }, { "epoch": 0.24426666666666666, "grad_norm": 2.5693188534430864, "learning_rate": 4.361699406267953e-06, "loss": 0.4298, "step": 916 }, { "epoch": 0.24453333333333332, "grad_norm": 2.6148417115849774, "learning_rate": 4.360279312368897e-06, "loss": 0.4398, "step": 917 }, { "epoch": 0.2448, "grad_norm": 2.521328940790009, "learning_rate": 4.358857872239853e-06, "loss": 0.4648, "step": 918 }, { "epoch": 0.24506666666666665, "grad_norm": 2.555968518133545, "learning_rate": 4.3574350869094775e-06, "loss": 0.4483, "step": 919 }, { "epoch": 0.24533333333333332, "grad_norm": 2.6680018514587114, "learning_rate": 4.356010957407397e-06, "loss": 0.4745, "step": 920 }, { "epoch": 0.2456, "grad_norm": 2.3383884110236277, "learning_rate": 4.354585484764213e-06, "loss": 0.4338, "step": 921 }, { "epoch": 0.24586666666666668, "grad_norm": 2.634407901765549, "learning_rate": 4.353158670011499e-06, "loss": 0.4363, "step": 922 }, { "epoch": 0.24613333333333334, "grad_norm": 3.0833844638865084, "learning_rate": 4.351730514181798e-06, "loss": 0.4545, "step": 923 }, { "epoch": 0.2464, "grad_norm": 2.5524004012543338, "learning_rate": 4.350301018308627e-06, "loss": 0.4206, "step": 924 }, { "epoch": 0.24666666666666667, "grad_norm": 2.555980182963663, "learning_rate": 4.348870183426469e-06, "loss": 0.4196, "step": 925 }, { "epoch": 0.24693333333333334, "grad_norm": 3.1984782323772154, "learning_rate": 4.347438010570778e-06, "loss": 0.4729, "step": 926 }, { "epoch": 0.2472, "grad_norm": 2.8600757392993996, "learning_rate": 4.346004500777976e-06, "loss": 0.5118, "step": 927 }, { "epoch": 0.24746666666666667, "grad_norm": 2.637814641771247, "learning_rate": 4.3445696550854525e-06, "loss": 0.4388, "step": 928 }, { "epoch": 0.24773333333333333, "grad_norm": 3.2482453019803716, "learning_rate": 4.343133474531562e-06, "loss": 0.5155, "step": 929 }, { "epoch": 0.248, "grad_norm": 2.6638667086596466, "learning_rate": 4.341695960155629e-06, "loss": 0.4781, "step": 930 }, { "epoch": 0.24826666666666666, "grad_norm": 2.4724557869388892, "learning_rate": 4.340257112997939e-06, "loss": 0.4451, "step": 931 }, { "epoch": 0.24853333333333333, "grad_norm": 2.67066415133516, "learning_rate": 4.338816934099744e-06, "loss": 0.4289, "step": 932 }, { "epoch": 0.2488, "grad_norm": 2.6486155924707506, "learning_rate": 4.3373754245032595e-06, "loss": 0.4575, "step": 933 }, { "epoch": 0.24906666666666666, "grad_norm": 2.4722569741145315, "learning_rate": 4.3359325852516656e-06, "loss": 0.446, "step": 934 }, { "epoch": 0.24933333333333332, "grad_norm": 2.577644463965564, "learning_rate": 4.334488417389101e-06, "loss": 0.4754, "step": 935 }, { "epoch": 0.2496, "grad_norm": 2.912003675278579, "learning_rate": 4.333042921960669e-06, "loss": 0.5039, "step": 936 }, { "epoch": 0.24986666666666665, "grad_norm": 2.511863165244405, "learning_rate": 4.331596100012432e-06, "loss": 0.4282, "step": 937 }, { "epoch": 0.2501333333333333, "grad_norm": 2.7120817479772943, "learning_rate": 4.330147952591413e-06, "loss": 0.4874, "step": 938 }, { "epoch": 0.2504, "grad_norm": 2.766695161049127, "learning_rate": 4.328698480745596e-06, "loss": 0.4746, "step": 939 }, { "epoch": 0.25066666666666665, "grad_norm": 2.9656121147035335, "learning_rate": 4.327247685523919e-06, "loss": 0.4443, "step": 940 }, { "epoch": 0.25093333333333334, "grad_norm": 2.576684394726762, "learning_rate": 4.3257955679762816e-06, "loss": 0.4284, "step": 941 }, { "epoch": 0.2512, "grad_norm": 2.683691479759662, "learning_rate": 4.324342129153538e-06, "loss": 0.4628, "step": 942 }, { "epoch": 0.25146666666666667, "grad_norm": 2.6041854181599664, "learning_rate": 4.3228873701075015e-06, "loss": 0.4371, "step": 943 }, { "epoch": 0.2517333333333333, "grad_norm": 2.50865690227681, "learning_rate": 4.321431291890936e-06, "loss": 0.4357, "step": 944 }, { "epoch": 0.252, "grad_norm": 2.761919833411054, "learning_rate": 4.319973895557566e-06, "loss": 0.4864, "step": 945 }, { "epoch": 0.25226666666666664, "grad_norm": 2.963974359627524, "learning_rate": 4.318515182162065e-06, "loss": 0.4679, "step": 946 }, { "epoch": 0.25253333333333333, "grad_norm": 2.5146241607710786, "learning_rate": 4.317055152760061e-06, "loss": 0.4381, "step": 947 }, { "epoch": 0.2528, "grad_norm": 2.554120561332083, "learning_rate": 4.315593808408136e-06, "loss": 0.4209, "step": 948 }, { "epoch": 0.25306666666666666, "grad_norm": 2.736426641291288, "learning_rate": 4.3141311501638226e-06, "loss": 0.4491, "step": 949 }, { "epoch": 0.25333333333333335, "grad_norm": 2.5820370330955753, "learning_rate": 4.312667179085603e-06, "loss": 0.4477, "step": 950 }, { "epoch": 0.2536, "grad_norm": 2.522202004360419, "learning_rate": 4.31120189623291e-06, "loss": 0.4429, "step": 951 }, { "epoch": 0.2538666666666667, "grad_norm": 3.2374645480866655, "learning_rate": 4.309735302666127e-06, "loss": 0.5088, "step": 952 }, { "epoch": 0.2541333333333333, "grad_norm": 2.4927266093760565, "learning_rate": 4.308267399446586e-06, "loss": 0.4574, "step": 953 }, { "epoch": 0.2544, "grad_norm": 2.465602552750565, "learning_rate": 4.306798187636564e-06, "loss": 0.3814, "step": 954 }, { "epoch": 0.25466666666666665, "grad_norm": 2.5074374512763025, "learning_rate": 4.305327668299288e-06, "loss": 0.4662, "step": 955 }, { "epoch": 0.25493333333333335, "grad_norm": 2.596562459999772, "learning_rate": 4.30385584249893e-06, "loss": 0.4773, "step": 956 }, { "epoch": 0.2552, "grad_norm": 2.6880431883405276, "learning_rate": 4.302382711300607e-06, "loss": 0.4524, "step": 957 }, { "epoch": 0.2554666666666667, "grad_norm": 2.4932891920980813, "learning_rate": 4.30090827577038e-06, "loss": 0.4313, "step": 958 }, { "epoch": 0.2557333333333333, "grad_norm": 2.7604833395358823, "learning_rate": 4.299432536975258e-06, "loss": 0.4741, "step": 959 }, { "epoch": 0.256, "grad_norm": 2.787624379256729, "learning_rate": 4.297955495983188e-06, "loss": 0.4658, "step": 960 }, { "epoch": 0.25626666666666664, "grad_norm": 2.448434470715401, "learning_rate": 4.296477153863062e-06, "loss": 0.4436, "step": 961 }, { "epoch": 0.25653333333333334, "grad_norm": 2.776339696364792, "learning_rate": 4.294997511684714e-06, "loss": 0.4939, "step": 962 }, { "epoch": 0.2568, "grad_norm": 2.733706457308447, "learning_rate": 4.293516570518917e-06, "loss": 0.4469, "step": 963 }, { "epoch": 0.25706666666666667, "grad_norm": 3.301986830606188, "learning_rate": 4.292034331437386e-06, "loss": 0.5395, "step": 964 }, { "epoch": 0.25733333333333336, "grad_norm": 3.016939637263675, "learning_rate": 4.290550795512772e-06, "loss": 0.4798, "step": 965 }, { "epoch": 0.2576, "grad_norm": 3.0369796042757167, "learning_rate": 4.28906596381867e-06, "loss": 0.4741, "step": 966 }, { "epoch": 0.2578666666666667, "grad_norm": 2.5982640736127562, "learning_rate": 4.287579837429607e-06, "loss": 0.4427, "step": 967 }, { "epoch": 0.2581333333333333, "grad_norm": 2.332764436812814, "learning_rate": 4.28609241742105e-06, "loss": 0.3969, "step": 968 }, { "epoch": 0.2584, "grad_norm": 2.655102694759896, "learning_rate": 4.2846037048694026e-06, "loss": 0.4435, "step": 969 }, { "epoch": 0.25866666666666666, "grad_norm": 2.4714785882072428, "learning_rate": 4.2831137008520015e-06, "loss": 0.4414, "step": 970 }, { "epoch": 0.25893333333333335, "grad_norm": 2.81174768757126, "learning_rate": 4.28162240644712e-06, "loss": 0.4815, "step": 971 }, { "epoch": 0.2592, "grad_norm": 2.5400308326824783, "learning_rate": 4.280129822733964e-06, "loss": 0.4615, "step": 972 }, { "epoch": 0.2594666666666667, "grad_norm": 2.5570883584042052, "learning_rate": 4.278635950792673e-06, "loss": 0.4574, "step": 973 }, { "epoch": 0.2597333333333333, "grad_norm": 2.6528091937346043, "learning_rate": 4.277140791704319e-06, "loss": 0.447, "step": 974 }, { "epoch": 0.26, "grad_norm": 2.593839434455517, "learning_rate": 4.275644346550904e-06, "loss": 0.4857, "step": 975 }, { "epoch": 0.26026666666666665, "grad_norm": 2.7195563878874176, "learning_rate": 4.274146616415363e-06, "loss": 0.4787, "step": 976 }, { "epoch": 0.26053333333333334, "grad_norm": 2.899615839026573, "learning_rate": 4.27264760238156e-06, "loss": 0.4931, "step": 977 }, { "epoch": 0.2608, "grad_norm": 2.484873914066019, "learning_rate": 4.271147305534287e-06, "loss": 0.4277, "step": 978 }, { "epoch": 0.26106666666666667, "grad_norm": 2.6623394771348945, "learning_rate": 4.269645726959264e-06, "loss": 0.4801, "step": 979 }, { "epoch": 0.2613333333333333, "grad_norm": 2.45199276743744, "learning_rate": 4.268142867743141e-06, "loss": 0.4152, "step": 980 }, { "epoch": 0.2616, "grad_norm": 3.0140623265825144, "learning_rate": 4.266638728973495e-06, "loss": 0.4584, "step": 981 }, { "epoch": 0.2618666666666667, "grad_norm": 3.2567818639334067, "learning_rate": 4.265133311738825e-06, "loss": 0.544, "step": 982 }, { "epoch": 0.26213333333333333, "grad_norm": 2.8077512798097612, "learning_rate": 4.263626617128559e-06, "loss": 0.465, "step": 983 }, { "epoch": 0.2624, "grad_norm": 2.7378206114428174, "learning_rate": 4.262118646233046e-06, "loss": 0.497, "step": 984 }, { "epoch": 0.26266666666666666, "grad_norm": 2.8604303643881197, "learning_rate": 4.260609400143564e-06, "loss": 0.4558, "step": 985 }, { "epoch": 0.26293333333333335, "grad_norm": 2.6483700640820653, "learning_rate": 4.259098879952308e-06, "loss": 0.4697, "step": 986 }, { "epoch": 0.2632, "grad_norm": 4.597634119338494, "learning_rate": 4.257587086752398e-06, "loss": 0.4996, "step": 987 }, { "epoch": 0.2634666666666667, "grad_norm": 2.4917914620566264, "learning_rate": 4.2560740216378746e-06, "loss": 0.4606, "step": 988 }, { "epoch": 0.2637333333333333, "grad_norm": 2.8104916605032515, "learning_rate": 4.2545596857037e-06, "loss": 0.447, "step": 989 }, { "epoch": 0.264, "grad_norm": 3.4125527070624524, "learning_rate": 4.253044080045754e-06, "loss": 0.4471, "step": 990 }, { "epoch": 0.26426666666666665, "grad_norm": 2.6414427340945075, "learning_rate": 4.251527205760836e-06, "loss": 0.4542, "step": 991 }, { "epoch": 0.26453333333333334, "grad_norm": 2.478398439479302, "learning_rate": 4.250009063946665e-06, "loss": 0.448, "step": 992 }, { "epoch": 0.2648, "grad_norm": 2.544320581744289, "learning_rate": 4.248489655701875e-06, "loss": 0.4126, "step": 993 }, { "epoch": 0.2650666666666667, "grad_norm": 2.490400218673271, "learning_rate": 4.246968982126017e-06, "loss": 0.4601, "step": 994 }, { "epoch": 0.2653333333333333, "grad_norm": 3.0857355931389936, "learning_rate": 4.245447044319561e-06, "loss": 0.4993, "step": 995 }, { "epoch": 0.2656, "grad_norm": 2.6658910247064402, "learning_rate": 4.243923843383887e-06, "loss": 0.4725, "step": 996 }, { "epoch": 0.26586666666666664, "grad_norm": 2.707792591427966, "learning_rate": 4.24239938042129e-06, "loss": 0.4922, "step": 997 }, { "epoch": 0.26613333333333333, "grad_norm": 2.541931733131594, "learning_rate": 4.240873656534981e-06, "loss": 0.4111, "step": 998 }, { "epoch": 0.2664, "grad_norm": 2.9661325343867473, "learning_rate": 4.239346672829084e-06, "loss": 0.5079, "step": 999 }, { "epoch": 0.26666666666666666, "grad_norm": 2.9921883925824, "learning_rate": 4.237818430408628e-06, "loss": 0.5194, "step": 1000 }, { "epoch": 0.26693333333333336, "grad_norm": 2.5535075005303502, "learning_rate": 4.23628893037956e-06, "loss": 0.409, "step": 1001 }, { "epoch": 0.2672, "grad_norm": 2.6234039257655137, "learning_rate": 4.234758173848737e-06, "loss": 0.4454, "step": 1002 }, { "epoch": 0.2674666666666667, "grad_norm": 2.532139190268349, "learning_rate": 4.233226161923918e-06, "loss": 0.4376, "step": 1003 }, { "epoch": 0.2677333333333333, "grad_norm": 2.3832332141790653, "learning_rate": 4.23169289571378e-06, "loss": 0.3887, "step": 1004 }, { "epoch": 0.268, "grad_norm": 2.408095404151001, "learning_rate": 4.2301583763278995e-06, "loss": 0.408, "step": 1005 }, { "epoch": 0.26826666666666665, "grad_norm": 2.7264451806416266, "learning_rate": 4.228622604876766e-06, "loss": 0.5043, "step": 1006 }, { "epoch": 0.26853333333333335, "grad_norm": 2.534770770387865, "learning_rate": 4.227085582471772e-06, "loss": 0.4222, "step": 1007 }, { "epoch": 0.2688, "grad_norm": 2.538236534416539, "learning_rate": 4.225547310225216e-06, "loss": 0.3921, "step": 1008 }, { "epoch": 0.2690666666666667, "grad_norm": 3.2383935055077546, "learning_rate": 4.2240077892503e-06, "loss": 0.5465, "step": 1009 }, { "epoch": 0.2693333333333333, "grad_norm": 2.542661592248118, "learning_rate": 4.22246702066113e-06, "loss": 0.4295, "step": 1010 }, { "epoch": 0.2696, "grad_norm": 2.712372034821119, "learning_rate": 4.220925005572718e-06, "loss": 0.4439, "step": 1011 }, { "epoch": 0.26986666666666664, "grad_norm": 2.8979534505958533, "learning_rate": 4.219381745100973e-06, "loss": 0.4865, "step": 1012 }, { "epoch": 0.27013333333333334, "grad_norm": 3.085869502916701, "learning_rate": 4.217837240362709e-06, "loss": 0.5633, "step": 1013 }, { "epoch": 0.2704, "grad_norm": 2.616880990164082, "learning_rate": 4.2162914924756385e-06, "loss": 0.4672, "step": 1014 }, { "epoch": 0.27066666666666667, "grad_norm": 2.982093809063547, "learning_rate": 4.214744502558375e-06, "loss": 0.4787, "step": 1015 }, { "epoch": 0.27093333333333336, "grad_norm": 2.673706818779421, "learning_rate": 4.213196271730427e-06, "loss": 0.4651, "step": 1016 }, { "epoch": 0.2712, "grad_norm": 2.9188899901200553, "learning_rate": 4.211646801112209e-06, "loss": 0.4586, "step": 1017 }, { "epoch": 0.2714666666666667, "grad_norm": 3.029760233324134, "learning_rate": 4.2100960918250245e-06, "loss": 0.497, "step": 1018 }, { "epoch": 0.2717333333333333, "grad_norm": 2.761546657910116, "learning_rate": 4.208544144991078e-06, "loss": 0.5013, "step": 1019 }, { "epoch": 0.272, "grad_norm": 2.7404849553950172, "learning_rate": 4.206990961733467e-06, "loss": 0.4949, "step": 1020 }, { "epoch": 0.27226666666666666, "grad_norm": 2.625339145426552, "learning_rate": 4.205436543176186e-06, "loss": 0.4722, "step": 1021 }, { "epoch": 0.27253333333333335, "grad_norm": 2.6272866904568626, "learning_rate": 4.203880890444122e-06, "loss": 0.4233, "step": 1022 }, { "epoch": 0.2728, "grad_norm": 2.4136476997261207, "learning_rate": 4.2023240046630555e-06, "loss": 0.3723, "step": 1023 }, { "epoch": 0.2730666666666667, "grad_norm": 2.781585374758633, "learning_rate": 4.200765886959661e-06, "loss": 0.4971, "step": 1024 }, { "epoch": 0.2733333333333333, "grad_norm": 2.3620007159069267, "learning_rate": 4.1992065384615e-06, "loss": 0.4297, "step": 1025 }, { "epoch": 0.2736, "grad_norm": 2.5900817982990354, "learning_rate": 4.197645960297031e-06, "loss": 0.4391, "step": 1026 }, { "epoch": 0.27386666666666665, "grad_norm": 2.773540499604345, "learning_rate": 4.196084153595596e-06, "loss": 0.4723, "step": 1027 }, { "epoch": 0.27413333333333334, "grad_norm": 2.5010495250202083, "learning_rate": 4.1945211194874305e-06, "loss": 0.4339, "step": 1028 }, { "epoch": 0.2744, "grad_norm": 2.7025982603054626, "learning_rate": 4.192956859103657e-06, "loss": 0.47, "step": 1029 }, { "epoch": 0.27466666666666667, "grad_norm": 2.81842974640958, "learning_rate": 4.191391373576285e-06, "loss": 0.4479, "step": 1030 }, { "epoch": 0.2749333333333333, "grad_norm": 2.68018384430451, "learning_rate": 4.18982466403821e-06, "loss": 0.4812, "step": 1031 }, { "epoch": 0.2752, "grad_norm": 2.5664876543784834, "learning_rate": 4.188256731623215e-06, "loss": 0.4348, "step": 1032 }, { "epoch": 0.2754666666666667, "grad_norm": 2.5688698875024376, "learning_rate": 4.186687577465967e-06, "loss": 0.4835, "step": 1033 }, { "epoch": 0.27573333333333333, "grad_norm": 2.537019393208647, "learning_rate": 4.185117202702016e-06, "loss": 0.4064, "step": 1034 }, { "epoch": 0.276, "grad_norm": 2.4976472287449956, "learning_rate": 4.183545608467799e-06, "loss": 0.4008, "step": 1035 }, { "epoch": 0.27626666666666666, "grad_norm": 2.4648277176374753, "learning_rate": 4.181972795900629e-06, "loss": 0.3887, "step": 1036 }, { "epoch": 0.27653333333333335, "grad_norm": 2.958634130988921, "learning_rate": 4.180398766138709e-06, "loss": 0.4986, "step": 1037 }, { "epoch": 0.2768, "grad_norm": 2.501060294207987, "learning_rate": 4.178823520321116e-06, "loss": 0.4668, "step": 1038 }, { "epoch": 0.2770666666666667, "grad_norm": 2.950366200433787, "learning_rate": 4.1772470595878105e-06, "loss": 0.5018, "step": 1039 }, { "epoch": 0.2773333333333333, "grad_norm": 3.0764272916785185, "learning_rate": 4.175669385079631e-06, "loss": 0.549, "step": 1040 }, { "epoch": 0.2776, "grad_norm": 2.4528096124056558, "learning_rate": 4.174090497938294e-06, "loss": 0.4175, "step": 1041 }, { "epoch": 0.27786666666666665, "grad_norm": 3.2960793592692137, "learning_rate": 4.172510399306395e-06, "loss": 0.5016, "step": 1042 }, { "epoch": 0.27813333333333334, "grad_norm": 2.8557503319953903, "learning_rate": 4.170929090327405e-06, "loss": 0.4911, "step": 1043 }, { "epoch": 0.2784, "grad_norm": 2.849249813067205, "learning_rate": 4.169346572145672e-06, "loss": 0.4734, "step": 1044 }, { "epoch": 0.2786666666666667, "grad_norm": 2.355969283243579, "learning_rate": 4.167762845906417e-06, "loss": 0.3868, "step": 1045 }, { "epoch": 0.2789333333333333, "grad_norm": 2.657465641688893, "learning_rate": 4.166177912755737e-06, "loss": 0.4619, "step": 1046 }, { "epoch": 0.2792, "grad_norm": 2.5868517235768795, "learning_rate": 4.164591773840603e-06, "loss": 0.4406, "step": 1047 }, { "epoch": 0.27946666666666664, "grad_norm": 2.689210674630458, "learning_rate": 4.163004430308856e-06, "loss": 0.4794, "step": 1048 }, { "epoch": 0.27973333333333333, "grad_norm": 2.5443452597264367, "learning_rate": 4.1614158833092126e-06, "loss": 0.3906, "step": 1049 }, { "epoch": 0.28, "grad_norm": 2.8962859610375036, "learning_rate": 4.159826133991255e-06, "loss": 0.5033, "step": 1050 }, { "epoch": 0.28026666666666666, "grad_norm": 2.654310114371327, "learning_rate": 4.15823518350544e-06, "loss": 0.445, "step": 1051 }, { "epoch": 0.28053333333333336, "grad_norm": 3.028360589613728, "learning_rate": 4.156643033003094e-06, "loss": 0.4919, "step": 1052 }, { "epoch": 0.2808, "grad_norm": 2.6411359371490146, "learning_rate": 4.155049683636407e-06, "loss": 0.4492, "step": 1053 }, { "epoch": 0.2810666666666667, "grad_norm": 2.804624164461598, "learning_rate": 4.15345513655844e-06, "loss": 0.4645, "step": 1054 }, { "epoch": 0.2813333333333333, "grad_norm": 2.614425358486825, "learning_rate": 4.151859392923122e-06, "loss": 0.4509, "step": 1055 }, { "epoch": 0.2816, "grad_norm": 2.702483875723818, "learning_rate": 4.150262453885245e-06, "loss": 0.4598, "step": 1056 }, { "epoch": 0.28186666666666665, "grad_norm": 2.567772090969052, "learning_rate": 4.148664320600468e-06, "loss": 0.4458, "step": 1057 }, { "epoch": 0.28213333333333335, "grad_norm": 2.9457241215654157, "learning_rate": 4.147064994225313e-06, "loss": 0.4826, "step": 1058 }, { "epoch": 0.2824, "grad_norm": 2.5201883322888654, "learning_rate": 4.145464475917166e-06, "loss": 0.4089, "step": 1059 }, { "epoch": 0.2826666666666667, "grad_norm": 2.559702461781963, "learning_rate": 4.143862766834275e-06, "loss": 0.4121, "step": 1060 }, { "epoch": 0.2829333333333333, "grad_norm": 2.62238306271315, "learning_rate": 4.142259868135752e-06, "loss": 0.4618, "step": 1061 }, { "epoch": 0.2832, "grad_norm": 2.900395286374044, "learning_rate": 4.140655780981565e-06, "loss": 0.4832, "step": 1062 }, { "epoch": 0.28346666666666664, "grad_norm": 2.525412594972813, "learning_rate": 4.139050506532549e-06, "loss": 0.492, "step": 1063 }, { "epoch": 0.28373333333333334, "grad_norm": 2.63115791735385, "learning_rate": 4.137444045950391e-06, "loss": 0.4709, "step": 1064 }, { "epoch": 0.284, "grad_norm": 2.652753189747838, "learning_rate": 4.135836400397642e-06, "loss": 0.4448, "step": 1065 }, { "epoch": 0.28426666666666667, "grad_norm": 2.6452331044177417, "learning_rate": 4.134227571037708e-06, "loss": 0.4327, "step": 1066 }, { "epoch": 0.28453333333333336, "grad_norm": 2.514371382005698, "learning_rate": 4.132617559034851e-06, "loss": 0.4552, "step": 1067 }, { "epoch": 0.2848, "grad_norm": 2.8217428924630648, "learning_rate": 4.131006365554191e-06, "loss": 0.4863, "step": 1068 }, { "epoch": 0.2850666666666667, "grad_norm": 2.6555523974338224, "learning_rate": 4.1293939917617e-06, "loss": 0.4583, "step": 1069 }, { "epoch": 0.2853333333333333, "grad_norm": 2.736379203741528, "learning_rate": 4.127780438824208e-06, "loss": 0.4447, "step": 1070 }, { "epoch": 0.2856, "grad_norm": 2.8861544593407795, "learning_rate": 4.126165707909395e-06, "loss": 0.4483, "step": 1071 }, { "epoch": 0.28586666666666666, "grad_norm": 3.1474669832966446, "learning_rate": 4.124549800185795e-06, "loss": 0.4987, "step": 1072 }, { "epoch": 0.28613333333333335, "grad_norm": 2.734767564495015, "learning_rate": 4.122932716822794e-06, "loss": 0.4586, "step": 1073 }, { "epoch": 0.2864, "grad_norm": 2.5875711973643476, "learning_rate": 4.1213144589906274e-06, "loss": 0.4464, "step": 1074 }, { "epoch": 0.2866666666666667, "grad_norm": 2.3229063407674233, "learning_rate": 4.119695027860382e-06, "loss": 0.4275, "step": 1075 }, { "epoch": 0.2869333333333333, "grad_norm": 3.0132655058506455, "learning_rate": 4.118074424603993e-06, "loss": 0.55, "step": 1076 }, { "epoch": 0.2872, "grad_norm": 2.7353900572424212, "learning_rate": 4.1164526503942425e-06, "loss": 0.4707, "step": 1077 }, { "epoch": 0.28746666666666665, "grad_norm": 2.626098593778849, "learning_rate": 4.114829706404762e-06, "loss": 0.4696, "step": 1078 }, { "epoch": 0.28773333333333334, "grad_norm": 2.57041140504189, "learning_rate": 4.1132055938100304e-06, "loss": 0.4486, "step": 1079 }, { "epoch": 0.288, "grad_norm": 2.482122653870951, "learning_rate": 4.111580313785368e-06, "loss": 0.4299, "step": 1080 }, { "epoch": 0.28826666666666667, "grad_norm": 2.3900329334175088, "learning_rate": 4.109953867506945e-06, "loss": 0.4331, "step": 1081 }, { "epoch": 0.2885333333333333, "grad_norm": 2.597484512217419, "learning_rate": 4.108326256151771e-06, "loss": 0.4138, "step": 1082 }, { "epoch": 0.2888, "grad_norm": 2.7614905200035333, "learning_rate": 4.1066974808977035e-06, "loss": 0.5127, "step": 1083 }, { "epoch": 0.2890666666666667, "grad_norm": 2.698559651759748, "learning_rate": 4.105067542923438e-06, "loss": 0.4683, "step": 1084 }, { "epoch": 0.28933333333333333, "grad_norm": 3.0547789174527913, "learning_rate": 4.103436443408513e-06, "loss": 0.4763, "step": 1085 }, { "epoch": 0.2896, "grad_norm": 2.844467192312267, "learning_rate": 4.101804183533308e-06, "loss": 0.4508, "step": 1086 }, { "epoch": 0.28986666666666666, "grad_norm": 2.840493361172846, "learning_rate": 4.100170764479042e-06, "loss": 0.457, "step": 1087 }, { "epoch": 0.29013333333333335, "grad_norm": 2.5801113893738603, "learning_rate": 4.098536187427775e-06, "loss": 0.4586, "step": 1088 }, { "epoch": 0.2904, "grad_norm": 2.542496567182907, "learning_rate": 4.0969004535624e-06, "loss": 0.4222, "step": 1089 }, { "epoch": 0.2906666666666667, "grad_norm": 2.5257059143647718, "learning_rate": 4.0952635640666504e-06, "loss": 0.4309, "step": 1090 }, { "epoch": 0.2909333333333333, "grad_norm": 2.881086447175208, "learning_rate": 4.093625520125096e-06, "loss": 0.5308, "step": 1091 }, { "epoch": 0.2912, "grad_norm": 2.7873075184803247, "learning_rate": 4.0919863229231415e-06, "loss": 0.5115, "step": 1092 }, { "epoch": 0.29146666666666665, "grad_norm": 2.834830438366524, "learning_rate": 4.090345973647027e-06, "loss": 0.46, "step": 1093 }, { "epoch": 0.29173333333333334, "grad_norm": 2.9997129398212037, "learning_rate": 4.0887044734838235e-06, "loss": 0.4597, "step": 1094 }, { "epoch": 0.292, "grad_norm": 2.766215326453682, "learning_rate": 4.087061823621439e-06, "loss": 0.4566, "step": 1095 }, { "epoch": 0.2922666666666667, "grad_norm": 2.525024848805042, "learning_rate": 4.08541802524861e-06, "loss": 0.4149, "step": 1096 }, { "epoch": 0.2925333333333333, "grad_norm": 2.382899826780873, "learning_rate": 4.0837730795549066e-06, "loss": 0.4444, "step": 1097 }, { "epoch": 0.2928, "grad_norm": 2.3865213767496747, "learning_rate": 4.082126987730727e-06, "loss": 0.3975, "step": 1098 }, { "epoch": 0.29306666666666664, "grad_norm": 2.9130788572215307, "learning_rate": 4.0804797509673e-06, "loss": 0.4858, "step": 1099 }, { "epoch": 0.29333333333333333, "grad_norm": 2.531737550264712, "learning_rate": 4.078831370456684e-06, "loss": 0.4149, "step": 1100 }, { "epoch": 0.2936, "grad_norm": 2.6244703941482173, "learning_rate": 4.077181847391763e-06, "loss": 0.4315, "step": 1101 }, { "epoch": 0.29386666666666666, "grad_norm": 2.661530721251123, "learning_rate": 4.07553118296625e-06, "loss": 0.4788, "step": 1102 }, { "epoch": 0.29413333333333336, "grad_norm": 2.9514338787842584, "learning_rate": 4.073879378374681e-06, "loss": 0.5163, "step": 1103 }, { "epoch": 0.2944, "grad_norm": 2.772055498209595, "learning_rate": 4.07222643481242e-06, "loss": 0.5207, "step": 1104 }, { "epoch": 0.2946666666666667, "grad_norm": 2.9162053626769966, "learning_rate": 4.070572353475654e-06, "loss": 0.4095, "step": 1105 }, { "epoch": 0.2949333333333333, "grad_norm": 2.6833269070850516, "learning_rate": 4.068917135561396e-06, "loss": 0.4681, "step": 1106 }, { "epoch": 0.2952, "grad_norm": 2.856178863915995, "learning_rate": 4.067260782267474e-06, "loss": 0.5442, "step": 1107 }, { "epoch": 0.29546666666666666, "grad_norm": 3.233914555457523, "learning_rate": 4.065603294792545e-06, "loss": 0.4728, "step": 1108 }, { "epoch": 0.29573333333333335, "grad_norm": 2.6028176056703685, "learning_rate": 4.063944674336085e-06, "loss": 0.4144, "step": 1109 }, { "epoch": 0.296, "grad_norm": 2.852919645076854, "learning_rate": 4.06228492209839e-06, "loss": 0.4813, "step": 1110 }, { "epoch": 0.2962666666666667, "grad_norm": 2.731292513301978, "learning_rate": 4.060624039280573e-06, "loss": 0.4618, "step": 1111 }, { "epoch": 0.2965333333333333, "grad_norm": 2.5885990186384653, "learning_rate": 4.058962027084566e-06, "loss": 0.4547, "step": 1112 }, { "epoch": 0.2968, "grad_norm": 2.813315039172952, "learning_rate": 4.05729888671312e-06, "loss": 0.4371, "step": 1113 }, { "epoch": 0.29706666666666665, "grad_norm": 2.6732437151109183, "learning_rate": 4.055634619369803e-06, "loss": 0.4445, "step": 1114 }, { "epoch": 0.29733333333333334, "grad_norm": 2.5087112929849544, "learning_rate": 4.053969226258993e-06, "loss": 0.4467, "step": 1115 }, { "epoch": 0.2976, "grad_norm": 2.677811217044001, "learning_rate": 4.052302708585889e-06, "loss": 0.4779, "step": 1116 }, { "epoch": 0.29786666666666667, "grad_norm": 2.96097879417431, "learning_rate": 4.0506350675565e-06, "loss": 0.48, "step": 1117 }, { "epoch": 0.2981333333333333, "grad_norm": 2.486619976739928, "learning_rate": 4.048966304377651e-06, "loss": 0.4375, "step": 1118 }, { "epoch": 0.2984, "grad_norm": 2.345614691465044, "learning_rate": 4.047296420256976e-06, "loss": 0.3946, "step": 1119 }, { "epoch": 0.2986666666666667, "grad_norm": 3.083596774279666, "learning_rate": 4.0456254164029214e-06, "loss": 0.515, "step": 1120 }, { "epoch": 0.29893333333333333, "grad_norm": 2.783824595720282, "learning_rate": 4.043953294024744e-06, "loss": 0.4451, "step": 1121 }, { "epoch": 0.2992, "grad_norm": 4.5643812588439, "learning_rate": 4.042280054332512e-06, "loss": 0.5277, "step": 1122 }, { "epoch": 0.29946666666666666, "grad_norm": 2.6903141634195373, "learning_rate": 4.0406056985370985e-06, "loss": 0.4336, "step": 1123 }, { "epoch": 0.29973333333333335, "grad_norm": 2.739069465992542, "learning_rate": 4.0389302278501865e-06, "loss": 0.422, "step": 1124 }, { "epoch": 0.3, "grad_norm": 2.8980317470949046, "learning_rate": 4.037253643484265e-06, "loss": 0.4794, "step": 1125 }, { "epoch": 0.3002666666666667, "grad_norm": 2.978516668675477, "learning_rate": 4.035575946652629e-06, "loss": 0.4577, "step": 1126 }, { "epoch": 0.3005333333333333, "grad_norm": 3.4486240626829985, "learning_rate": 4.033897138569381e-06, "loss": 0.4973, "step": 1127 }, { "epoch": 0.3008, "grad_norm": 2.787732933484545, "learning_rate": 4.0322172204494225e-06, "loss": 0.4653, "step": 1128 }, { "epoch": 0.30106666666666665, "grad_norm": 2.5367645669911174, "learning_rate": 4.030536193508463e-06, "loss": 0.4548, "step": 1129 }, { "epoch": 0.30133333333333334, "grad_norm": 3.671637420451357, "learning_rate": 4.0288540589630134e-06, "loss": 0.4974, "step": 1130 }, { "epoch": 0.3016, "grad_norm": 2.3290893091338716, "learning_rate": 4.027170818030384e-06, "loss": 0.3666, "step": 1131 }, { "epoch": 0.30186666666666667, "grad_norm": 2.5886364142113356, "learning_rate": 4.025486471928688e-06, "loss": 0.4452, "step": 1132 }, { "epoch": 0.3021333333333333, "grad_norm": 2.708029824328235, "learning_rate": 4.023801021876838e-06, "loss": 0.4576, "step": 1133 }, { "epoch": 0.3024, "grad_norm": 2.4136817442579157, "learning_rate": 4.022114469094545e-06, "loss": 0.429, "step": 1134 }, { "epoch": 0.30266666666666664, "grad_norm": 2.7282761075412725, "learning_rate": 4.020426814802317e-06, "loss": 0.4498, "step": 1135 }, { "epoch": 0.30293333333333333, "grad_norm": 2.462286199652836, "learning_rate": 4.018738060221462e-06, "loss": 0.4323, "step": 1136 }, { "epoch": 0.3032, "grad_norm": 2.557752440557729, "learning_rate": 4.017048206574081e-06, "loss": 0.425, "step": 1137 }, { "epoch": 0.30346666666666666, "grad_norm": 2.6618726902572, "learning_rate": 4.015357255083073e-06, "loss": 0.4864, "step": 1138 }, { "epoch": 0.30373333333333336, "grad_norm": 2.5605918587942407, "learning_rate": 4.01366520697213e-06, "loss": 0.4969, "step": 1139 }, { "epoch": 0.304, "grad_norm": 2.384100714089552, "learning_rate": 4.0119720634657375e-06, "loss": 0.3887, "step": 1140 }, { "epoch": 0.3042666666666667, "grad_norm": 2.3342669471092905, "learning_rate": 4.010277825789176e-06, "loss": 0.4094, "step": 1141 }, { "epoch": 0.3045333333333333, "grad_norm": 2.7477799859648493, "learning_rate": 4.0085824951685136e-06, "loss": 0.4639, "step": 1142 }, { "epoch": 0.3048, "grad_norm": 2.804993401647982, "learning_rate": 4.006886072830612e-06, "loss": 0.4758, "step": 1143 }, { "epoch": 0.30506666666666665, "grad_norm": 2.5074123847581027, "learning_rate": 4.005188560003125e-06, "loss": 0.439, "step": 1144 }, { "epoch": 0.30533333333333335, "grad_norm": 2.3207570625047627, "learning_rate": 4.00348995791449e-06, "loss": 0.4122, "step": 1145 }, { "epoch": 0.3056, "grad_norm": 2.4345633533276914, "learning_rate": 4.001790267793939e-06, "loss": 0.4185, "step": 1146 }, { "epoch": 0.3058666666666667, "grad_norm": 2.8482898916285233, "learning_rate": 4.000089490871486e-06, "loss": 0.4377, "step": 1147 }, { "epoch": 0.3061333333333333, "grad_norm": 2.8159376116648156, "learning_rate": 3.998387628377934e-06, "loss": 0.5016, "step": 1148 }, { "epoch": 0.3064, "grad_norm": 3.4094662347236806, "learning_rate": 3.996684681544873e-06, "loss": 0.456, "step": 1149 }, { "epoch": 0.30666666666666664, "grad_norm": 3.0309789411286068, "learning_rate": 3.994980651604674e-06, "loss": 0.4824, "step": 1150 }, { "epoch": 0.30693333333333334, "grad_norm": 2.742469040908456, "learning_rate": 3.993275539790495e-06, "loss": 0.3846, "step": 1151 }, { "epoch": 0.3072, "grad_norm": 2.598947564598015, "learning_rate": 3.991569347336276e-06, "loss": 0.4627, "step": 1152 }, { "epoch": 0.30746666666666667, "grad_norm": 2.6852759619825903, "learning_rate": 3.989862075476738e-06, "loss": 0.4298, "step": 1153 }, { "epoch": 0.30773333333333336, "grad_norm": 2.5848026567412496, "learning_rate": 3.988153725447385e-06, "loss": 0.4346, "step": 1154 }, { "epoch": 0.308, "grad_norm": 2.5961873957061607, "learning_rate": 3.986444298484499e-06, "loss": 0.4592, "step": 1155 }, { "epoch": 0.3082666666666667, "grad_norm": 2.7945681469114274, "learning_rate": 3.984733795825143e-06, "loss": 0.458, "step": 1156 }, { "epoch": 0.3085333333333333, "grad_norm": 2.944924882268542, "learning_rate": 3.983022218707158e-06, "loss": 0.5081, "step": 1157 }, { "epoch": 0.3088, "grad_norm": 2.7309454864169025, "learning_rate": 3.981309568369163e-06, "loss": 0.4431, "step": 1158 }, { "epoch": 0.30906666666666666, "grad_norm": 2.8929356443677854, "learning_rate": 3.979595846050552e-06, "loss": 0.477, "step": 1159 }, { "epoch": 0.30933333333333335, "grad_norm": 2.4465128794440894, "learning_rate": 3.977881052991497e-06, "loss": 0.4163, "step": 1160 }, { "epoch": 0.3096, "grad_norm": 2.4805333937676504, "learning_rate": 3.976165190432944e-06, "loss": 0.4095, "step": 1161 }, { "epoch": 0.3098666666666667, "grad_norm": 2.361144549574443, "learning_rate": 3.974448259616612e-06, "loss": 0.4393, "step": 1162 }, { "epoch": 0.3101333333333333, "grad_norm": 2.560034794195886, "learning_rate": 3.972730261784994e-06, "loss": 0.4521, "step": 1163 }, { "epoch": 0.3104, "grad_norm": 2.5687456272035596, "learning_rate": 3.971011198181356e-06, "loss": 0.4474, "step": 1164 }, { "epoch": 0.31066666666666665, "grad_norm": 2.8442602833335138, "learning_rate": 3.969291070049732e-06, "loss": 0.479, "step": 1165 }, { "epoch": 0.31093333333333334, "grad_norm": 2.502671485928046, "learning_rate": 3.967569878634932e-06, "loss": 0.4206, "step": 1166 }, { "epoch": 0.3112, "grad_norm": 2.6780388833224467, "learning_rate": 3.965847625182529e-06, "loss": 0.4707, "step": 1167 }, { "epoch": 0.31146666666666667, "grad_norm": 3.2825110518407876, "learning_rate": 3.964124310938869e-06, "loss": 0.525, "step": 1168 }, { "epoch": 0.3117333333333333, "grad_norm": 2.557609086203934, "learning_rate": 3.962399937151065e-06, "loss": 0.4573, "step": 1169 }, { "epoch": 0.312, "grad_norm": 2.5900545868553286, "learning_rate": 3.960674505066995e-06, "loss": 0.4597, "step": 1170 }, { "epoch": 0.3122666666666667, "grad_norm": 2.665621025610646, "learning_rate": 3.9589480159353045e-06, "loss": 0.4805, "step": 1171 }, { "epoch": 0.31253333333333333, "grad_norm": 3.1297801813802004, "learning_rate": 3.9572204710054035e-06, "loss": 0.509, "step": 1172 }, { "epoch": 0.3128, "grad_norm": 2.6550548027898473, "learning_rate": 3.9554918715274655e-06, "loss": 0.4822, "step": 1173 }, { "epoch": 0.31306666666666666, "grad_norm": 2.9254511034526858, "learning_rate": 3.953762218752428e-06, "loss": 0.4961, "step": 1174 }, { "epoch": 0.31333333333333335, "grad_norm": 2.4873172928121314, "learning_rate": 3.952031513931991e-06, "loss": 0.434, "step": 1175 }, { "epoch": 0.3136, "grad_norm": 2.772265393750666, "learning_rate": 3.950299758318614e-06, "loss": 0.4563, "step": 1176 }, { "epoch": 0.3138666666666667, "grad_norm": 2.5854665010373012, "learning_rate": 3.948566953165518e-06, "loss": 0.4611, "step": 1177 }, { "epoch": 0.3141333333333333, "grad_norm": 2.522721363569325, "learning_rate": 3.946833099726685e-06, "loss": 0.4794, "step": 1178 }, { "epoch": 0.3144, "grad_norm": 2.418426497978087, "learning_rate": 3.945098199256854e-06, "loss": 0.4325, "step": 1179 }, { "epoch": 0.31466666666666665, "grad_norm": 3.588069256950728, "learning_rate": 3.943362253011521e-06, "loss": 0.5019, "step": 1180 }, { "epoch": 0.31493333333333334, "grad_norm": 2.954484464124109, "learning_rate": 3.94162526224694e-06, "loss": 0.5256, "step": 1181 }, { "epoch": 0.3152, "grad_norm": 2.8312129992436024, "learning_rate": 3.939887228220121e-06, "loss": 0.4585, "step": 1182 }, { "epoch": 0.3154666666666667, "grad_norm": 2.6753140241182978, "learning_rate": 3.938148152188829e-06, "loss": 0.4535, "step": 1183 }, { "epoch": 0.3157333333333333, "grad_norm": 3.1103300373856193, "learning_rate": 3.9364080354115815e-06, "loss": 0.461, "step": 1184 }, { "epoch": 0.316, "grad_norm": 2.74427702231939, "learning_rate": 3.934666879147652e-06, "loss": 0.4832, "step": 1185 }, { "epoch": 0.31626666666666664, "grad_norm": 2.722521323740283, "learning_rate": 3.932924684657063e-06, "loss": 0.4583, "step": 1186 }, { "epoch": 0.31653333333333333, "grad_norm": 2.686931346590221, "learning_rate": 3.931181453200592e-06, "loss": 0.4638, "step": 1187 }, { "epoch": 0.3168, "grad_norm": 2.7419203122823035, "learning_rate": 3.9294371860397614e-06, "loss": 0.4737, "step": 1188 }, { "epoch": 0.31706666666666666, "grad_norm": 2.7586692326964237, "learning_rate": 3.927691884436851e-06, "loss": 0.5075, "step": 1189 }, { "epoch": 0.31733333333333336, "grad_norm": 2.4173171671518725, "learning_rate": 3.925945549654882e-06, "loss": 0.44, "step": 1190 }, { "epoch": 0.3176, "grad_norm": 2.2403677065557064, "learning_rate": 3.924198182957625e-06, "loss": 0.3417, "step": 1191 }, { "epoch": 0.3178666666666667, "grad_norm": 2.4363205474123366, "learning_rate": 3.922449785609601e-06, "loss": 0.4067, "step": 1192 }, { "epoch": 0.3181333333333333, "grad_norm": 2.4390236372307466, "learning_rate": 3.920700358876073e-06, "loss": 0.433, "step": 1193 }, { "epoch": 0.3184, "grad_norm": 3.1689097793449337, "learning_rate": 3.918949904023051e-06, "loss": 0.4634, "step": 1194 }, { "epoch": 0.31866666666666665, "grad_norm": 2.63485485992591, "learning_rate": 3.917198422317287e-06, "loss": 0.4182, "step": 1195 }, { "epoch": 0.31893333333333335, "grad_norm": 2.7714866906280533, "learning_rate": 3.915445915026278e-06, "loss": 0.4391, "step": 1196 }, { "epoch": 0.3192, "grad_norm": 2.4896836446030495, "learning_rate": 3.913692383418262e-06, "loss": 0.4446, "step": 1197 }, { "epoch": 0.3194666666666667, "grad_norm": 3.0381735543487483, "learning_rate": 3.91193782876222e-06, "loss": 0.5168, "step": 1198 }, { "epoch": 0.3197333333333333, "grad_norm": 2.8678654705704227, "learning_rate": 3.910182252327871e-06, "loss": 0.4235, "step": 1199 }, { "epoch": 0.32, "grad_norm": 3.4717589625908345, "learning_rate": 3.908425655385675e-06, "loss": 0.4655, "step": 1200 }, { "epoch": 0.32026666666666664, "grad_norm": 2.9451982917768027, "learning_rate": 3.90666803920683e-06, "loss": 0.4733, "step": 1201 }, { "epoch": 0.32053333333333334, "grad_norm": 2.6013836089201563, "learning_rate": 3.904909405063272e-06, "loss": 0.4907, "step": 1202 }, { "epoch": 0.3208, "grad_norm": 2.486327684775012, "learning_rate": 3.903149754227673e-06, "loss": 0.4486, "step": 1203 }, { "epoch": 0.32106666666666667, "grad_norm": 2.392380092099488, "learning_rate": 3.90138908797344e-06, "loss": 0.4154, "step": 1204 }, { "epoch": 0.32133333333333336, "grad_norm": 2.4935202944748616, "learning_rate": 3.899627407574719e-06, "loss": 0.4191, "step": 1205 }, { "epoch": 0.3216, "grad_norm": 2.6988421905249456, "learning_rate": 3.897864714306384e-06, "loss": 0.4534, "step": 1206 }, { "epoch": 0.3218666666666667, "grad_norm": 2.8900761812056217, "learning_rate": 3.896101009444046e-06, "loss": 0.4702, "step": 1207 }, { "epoch": 0.3221333333333333, "grad_norm": 2.7532698471901784, "learning_rate": 3.8943362942640454e-06, "loss": 0.497, "step": 1208 }, { "epoch": 0.3224, "grad_norm": 3.02122684205264, "learning_rate": 3.892570570043457e-06, "loss": 0.5253, "step": 1209 }, { "epoch": 0.32266666666666666, "grad_norm": 2.477089100650419, "learning_rate": 3.890803838060083e-06, "loss": 0.4411, "step": 1210 }, { "epoch": 0.32293333333333335, "grad_norm": 2.6081874679902532, "learning_rate": 3.889036099592457e-06, "loss": 0.4818, "step": 1211 }, { "epoch": 0.3232, "grad_norm": 2.7885564408866275, "learning_rate": 3.887267355919839e-06, "loss": 0.4802, "step": 1212 }, { "epoch": 0.3234666666666667, "grad_norm": 2.5031984939572327, "learning_rate": 3.885497608322217e-06, "loss": 0.4685, "step": 1213 }, { "epoch": 0.3237333333333333, "grad_norm": 2.6433910033673427, "learning_rate": 3.883726858080307e-06, "loss": 0.5008, "step": 1214 }, { "epoch": 0.324, "grad_norm": 2.5574782941812764, "learning_rate": 3.881955106475548e-06, "loss": 0.4696, "step": 1215 }, { "epoch": 0.32426666666666665, "grad_norm": 3.161089821763151, "learning_rate": 3.880182354790105e-06, "loss": 0.5022, "step": 1216 }, { "epoch": 0.32453333333333334, "grad_norm": 2.2387113027157075, "learning_rate": 3.878408604306869e-06, "loss": 0.4021, "step": 1217 }, { "epoch": 0.3248, "grad_norm": 2.6519602570470986, "learning_rate": 3.876633856309449e-06, "loss": 0.4349, "step": 1218 }, { "epoch": 0.32506666666666667, "grad_norm": 2.800537441549505, "learning_rate": 3.8748581120821805e-06, "loss": 0.4706, "step": 1219 }, { "epoch": 0.3253333333333333, "grad_norm": 3.0981246361130936, "learning_rate": 3.873081372910117e-06, "loss": 0.5016, "step": 1220 }, { "epoch": 0.3256, "grad_norm": 2.76988723454046, "learning_rate": 3.871303640079032e-06, "loss": 0.4936, "step": 1221 }, { "epoch": 0.3258666666666667, "grad_norm": 2.5065937146362653, "learning_rate": 3.869524914875421e-06, "loss": 0.4738, "step": 1222 }, { "epoch": 0.32613333333333333, "grad_norm": 3.223008946561927, "learning_rate": 3.867745198586493e-06, "loss": 0.5374, "step": 1223 }, { "epoch": 0.3264, "grad_norm": 2.5359486463969048, "learning_rate": 3.86596449250018e-06, "loss": 0.4018, "step": 1224 }, { "epoch": 0.32666666666666666, "grad_norm": 3.134010920312765, "learning_rate": 3.864182797905125e-06, "loss": 0.5277, "step": 1225 }, { "epoch": 0.32693333333333335, "grad_norm": 2.514710174605789, "learning_rate": 3.862400116090689e-06, "loss": 0.4478, "step": 1226 }, { "epoch": 0.3272, "grad_norm": 2.3758166283551643, "learning_rate": 3.8606164483469475e-06, "loss": 0.4266, "step": 1227 }, { "epoch": 0.3274666666666667, "grad_norm": 2.60937008388543, "learning_rate": 3.858831795964688e-06, "loss": 0.4659, "step": 1228 }, { "epoch": 0.3277333333333333, "grad_norm": 2.6262908542888583, "learning_rate": 3.857046160235412e-06, "loss": 0.4617, "step": 1229 }, { "epoch": 0.328, "grad_norm": 2.7776713641975523, "learning_rate": 3.855259542451332e-06, "loss": 0.4549, "step": 1230 }, { "epoch": 0.32826666666666665, "grad_norm": 2.601352933599678, "learning_rate": 3.853471943905372e-06, "loss": 0.492, "step": 1231 }, { "epoch": 0.32853333333333334, "grad_norm": 2.524224885580513, "learning_rate": 3.851683365891164e-06, "loss": 0.4325, "step": 1232 }, { "epoch": 0.3288, "grad_norm": 2.96769870592072, "learning_rate": 3.84989380970305e-06, "loss": 0.5131, "step": 1233 }, { "epoch": 0.3290666666666667, "grad_norm": 2.580893693506842, "learning_rate": 3.8481032766360795e-06, "loss": 0.4553, "step": 1234 }, { "epoch": 0.3293333333333333, "grad_norm": 2.61563146196663, "learning_rate": 3.84631176798601e-06, "loss": 0.489, "step": 1235 }, { "epoch": 0.3296, "grad_norm": 3.289209838941543, "learning_rate": 3.844519285049305e-06, "loss": 0.4816, "step": 1236 }, { "epoch": 0.32986666666666664, "grad_norm": 2.8827725451541313, "learning_rate": 3.84272582912313e-06, "loss": 0.4741, "step": 1237 }, { "epoch": 0.33013333333333333, "grad_norm": 2.2967092975877343, "learning_rate": 3.840931401505357e-06, "loss": 0.3965, "step": 1238 }, { "epoch": 0.3304, "grad_norm": 2.814976696786096, "learning_rate": 3.839136003494563e-06, "loss": 0.4652, "step": 1239 }, { "epoch": 0.33066666666666666, "grad_norm": 3.066280322552876, "learning_rate": 3.837339636390023e-06, "loss": 0.4975, "step": 1240 }, { "epoch": 0.33093333333333336, "grad_norm": 2.6178159484411423, "learning_rate": 3.835542301491718e-06, "loss": 0.4441, "step": 1241 }, { "epoch": 0.3312, "grad_norm": 2.7247491881316206, "learning_rate": 3.833744000100325e-06, "loss": 0.4705, "step": 1242 }, { "epoch": 0.3314666666666667, "grad_norm": 2.6024442487669868, "learning_rate": 3.831944733517223e-06, "loss": 0.4339, "step": 1243 }, { "epoch": 0.3317333333333333, "grad_norm": 3.113047585871599, "learning_rate": 3.83014450304449e-06, "loss": 0.518, "step": 1244 }, { "epoch": 0.332, "grad_norm": 3.1407286615164405, "learning_rate": 3.8283433099848974e-06, "loss": 0.5558, "step": 1245 }, { "epoch": 0.33226666666666665, "grad_norm": 2.2701859368292703, "learning_rate": 3.82654115564192e-06, "loss": 0.3988, "step": 1246 }, { "epoch": 0.33253333333333335, "grad_norm": 2.5071121885215364, "learning_rate": 3.824738041319721e-06, "loss": 0.4582, "step": 1247 }, { "epoch": 0.3328, "grad_norm": 2.6678555787987492, "learning_rate": 3.822933968323164e-06, "loss": 0.4071, "step": 1248 }, { "epoch": 0.3330666666666667, "grad_norm": 2.3175345331699, "learning_rate": 3.821128937957803e-06, "loss": 0.3834, "step": 1249 }, { "epoch": 0.3333333333333333, "grad_norm": 2.305727698669204, "learning_rate": 3.819322951529886e-06, "loss": 0.3937, "step": 1250 }, { "epoch": 0.3336, "grad_norm": 2.900829431348258, "learning_rate": 3.817516010346354e-06, "loss": 0.4758, "step": 1251 }, { "epoch": 0.33386666666666664, "grad_norm": 2.823251164893761, "learning_rate": 3.815708115714836e-06, "loss": 0.4756, "step": 1252 }, { "epoch": 0.33413333333333334, "grad_norm": 3.4883252684432438, "learning_rate": 3.813899268943654e-06, "loss": 0.4571, "step": 1253 }, { "epoch": 0.3344, "grad_norm": 2.9449868016173975, "learning_rate": 3.8120894713418175e-06, "loss": 0.4652, "step": 1254 }, { "epoch": 0.33466666666666667, "grad_norm": 2.5685712619779832, "learning_rate": 3.810278724219024e-06, "loss": 0.4149, "step": 1255 }, { "epoch": 0.33493333333333336, "grad_norm": 2.513688978982561, "learning_rate": 3.8084670288856584e-06, "loss": 0.4835, "step": 1256 }, { "epoch": 0.3352, "grad_norm": 2.56927435998098, "learning_rate": 3.806654386652793e-06, "loss": 0.4576, "step": 1257 }, { "epoch": 0.3354666666666667, "grad_norm": 2.151884625100315, "learning_rate": 3.8048407988321823e-06, "loss": 0.3454, "step": 1258 }, { "epoch": 0.33573333333333333, "grad_norm": 2.674721240605397, "learning_rate": 3.803026266736268e-06, "loss": 0.4597, "step": 1259 }, { "epoch": 0.336, "grad_norm": 2.5262774124674023, "learning_rate": 3.8012107916781752e-06, "loss": 0.4377, "step": 1260 }, { "epoch": 0.33626666666666666, "grad_norm": 2.518733155865678, "learning_rate": 3.7993943749717087e-06, "loss": 0.4203, "step": 1261 }, { "epoch": 0.33653333333333335, "grad_norm": 2.1713586145202806, "learning_rate": 3.7975770179313574e-06, "loss": 0.3795, "step": 1262 }, { "epoch": 0.3368, "grad_norm": 2.5264104404843923, "learning_rate": 3.795758721872289e-06, "loss": 0.4334, "step": 1263 }, { "epoch": 0.3370666666666667, "grad_norm": 2.6473105767942373, "learning_rate": 3.7939394881103518e-06, "loss": 0.462, "step": 1264 }, { "epoch": 0.3373333333333333, "grad_norm": 2.8547955610690323, "learning_rate": 3.792119317962073e-06, "loss": 0.5094, "step": 1265 }, { "epoch": 0.3376, "grad_norm": 2.2604224016250876, "learning_rate": 3.7902982127446553e-06, "loss": 0.4216, "step": 1266 }, { "epoch": 0.33786666666666665, "grad_norm": 2.691855940071959, "learning_rate": 3.7884761737759805e-06, "loss": 0.4603, "step": 1267 }, { "epoch": 0.33813333333333334, "grad_norm": 3.00749154699383, "learning_rate": 3.786653202374605e-06, "loss": 0.4507, "step": 1268 }, { "epoch": 0.3384, "grad_norm": 2.9792846908107937, "learning_rate": 3.7848292998597603e-06, "loss": 0.4349, "step": 1269 }, { "epoch": 0.33866666666666667, "grad_norm": 2.5841352597652905, "learning_rate": 3.783004467551351e-06, "loss": 0.4955, "step": 1270 }, { "epoch": 0.3389333333333333, "grad_norm": 2.3901569985363533, "learning_rate": 3.781178706769955e-06, "loss": 0.4371, "step": 1271 }, { "epoch": 0.3392, "grad_norm": 2.7280236119929544, "learning_rate": 3.7793520188368236e-06, "loss": 0.4972, "step": 1272 }, { "epoch": 0.3394666666666667, "grad_norm": 2.669647385896261, "learning_rate": 3.7775244050738767e-06, "loss": 0.4404, "step": 1273 }, { "epoch": 0.33973333333333333, "grad_norm": 2.3939978743471015, "learning_rate": 3.7756958668037053e-06, "loss": 0.4254, "step": 1274 }, { "epoch": 0.34, "grad_norm": 2.3126619143973963, "learning_rate": 3.773866405349569e-06, "loss": 0.4026, "step": 1275 }, { "epoch": 0.34026666666666666, "grad_norm": 2.8124769307753485, "learning_rate": 3.772036022035396e-06, "loss": 0.5156, "step": 1276 }, { "epoch": 0.34053333333333335, "grad_norm": 2.836654125365507, "learning_rate": 3.7702047181857813e-06, "loss": 0.4985, "step": 1277 }, { "epoch": 0.3408, "grad_norm": 2.3446461425349923, "learning_rate": 3.768372495125987e-06, "loss": 0.3941, "step": 1278 }, { "epoch": 0.3410666666666667, "grad_norm": 3.007221454384137, "learning_rate": 3.7665393541819385e-06, "loss": 0.4936, "step": 1279 }, { "epoch": 0.3413333333333333, "grad_norm": 3.386531943611182, "learning_rate": 3.764705296680228e-06, "loss": 0.5132, "step": 1280 }, { "epoch": 0.3416, "grad_norm": 2.7291212023920806, "learning_rate": 3.762870323948107e-06, "loss": 0.4703, "step": 1281 }, { "epoch": 0.34186666666666665, "grad_norm": 2.746718991198012, "learning_rate": 3.7610344373134945e-06, "loss": 0.4713, "step": 1282 }, { "epoch": 0.34213333333333334, "grad_norm": 2.57434956120139, "learning_rate": 3.7591976381049665e-06, "loss": 0.4887, "step": 1283 }, { "epoch": 0.3424, "grad_norm": 2.4334915494465794, "learning_rate": 3.7573599276517624e-06, "loss": 0.4408, "step": 1284 }, { "epoch": 0.3426666666666667, "grad_norm": 2.7726592153623915, "learning_rate": 3.755521307283779e-06, "loss": 0.4787, "step": 1285 }, { "epoch": 0.3429333333333333, "grad_norm": 2.552905592366556, "learning_rate": 3.7536817783315727e-06, "loss": 0.4276, "step": 1286 }, { "epoch": 0.3432, "grad_norm": 2.324833202289769, "learning_rate": 3.751841342126356e-06, "loss": 0.3655, "step": 1287 }, { "epoch": 0.34346666666666664, "grad_norm": 3.166201718356058, "learning_rate": 3.7500000000000005e-06, "loss": 0.4267, "step": 1288 }, { "epoch": 0.34373333333333334, "grad_norm": 2.5210575899116603, "learning_rate": 3.7481577532850303e-06, "loss": 0.465, "step": 1289 }, { "epoch": 0.344, "grad_norm": 2.846659643929934, "learning_rate": 3.746314603314628e-06, "loss": 0.4805, "step": 1290 }, { "epoch": 0.34426666666666667, "grad_norm": 2.8461721574290797, "learning_rate": 3.7444705514226253e-06, "loss": 0.4555, "step": 1291 }, { "epoch": 0.34453333333333336, "grad_norm": 2.5348130840711356, "learning_rate": 3.7426255989435103e-06, "loss": 0.4958, "step": 1292 }, { "epoch": 0.3448, "grad_norm": 2.414197733333315, "learning_rate": 3.7407797472124204e-06, "loss": 0.4234, "step": 1293 }, { "epoch": 0.3450666666666667, "grad_norm": 3.324893711919072, "learning_rate": 3.7389329975651455e-06, "loss": 0.5236, "step": 1294 }, { "epoch": 0.3453333333333333, "grad_norm": 2.424283664165533, "learning_rate": 3.7370853513381246e-06, "loss": 0.4283, "step": 1295 }, { "epoch": 0.3456, "grad_norm": 2.5147735799372657, "learning_rate": 3.735236809868445e-06, "loss": 0.4568, "step": 1296 }, { "epoch": 0.34586666666666666, "grad_norm": 2.798721721549117, "learning_rate": 3.733387374493842e-06, "loss": 0.4535, "step": 1297 }, { "epoch": 0.34613333333333335, "grad_norm": 2.85537599871832, "learning_rate": 3.731537046552699e-06, "loss": 0.4755, "step": 1298 }, { "epoch": 0.3464, "grad_norm": 2.702212461572441, "learning_rate": 3.7296858273840443e-06, "loss": 0.4308, "step": 1299 }, { "epoch": 0.3466666666666667, "grad_norm": 2.8304005829892, "learning_rate": 3.7278337183275513e-06, "loss": 0.485, "step": 1300 }, { "epoch": 0.3469333333333333, "grad_norm": 2.415216246040708, "learning_rate": 3.7259807207235376e-06, "loss": 0.4018, "step": 1301 }, { "epoch": 0.3472, "grad_norm": 2.989675914465056, "learning_rate": 3.7241268359129635e-06, "loss": 0.5112, "step": 1302 }, { "epoch": 0.34746666666666665, "grad_norm": 2.8362235350561793, "learning_rate": 3.722272065237431e-06, "loss": 0.5054, "step": 1303 }, { "epoch": 0.34773333333333334, "grad_norm": 2.827496742797946, "learning_rate": 3.7204164100391833e-06, "loss": 0.4761, "step": 1304 }, { "epoch": 0.348, "grad_norm": 2.6630681888420207, "learning_rate": 3.7185598716611055e-06, "loss": 0.4431, "step": 1305 }, { "epoch": 0.34826666666666667, "grad_norm": 2.533885772857151, "learning_rate": 3.7167024514467197e-06, "loss": 0.4605, "step": 1306 }, { "epoch": 0.3485333333333333, "grad_norm": 2.5033062535244985, "learning_rate": 3.7148441507401855e-06, "loss": 0.4426, "step": 1307 }, { "epoch": 0.3488, "grad_norm": 2.529746370577165, "learning_rate": 3.7129849708863037e-06, "loss": 0.4376, "step": 1308 }, { "epoch": 0.3490666666666667, "grad_norm": 2.5288408279089682, "learning_rate": 3.7111249132305073e-06, "loss": 0.4165, "step": 1309 }, { "epoch": 0.34933333333333333, "grad_norm": 2.3921042143991897, "learning_rate": 3.7092639791188647e-06, "loss": 0.4165, "step": 1310 }, { "epoch": 0.3496, "grad_norm": 2.595165484597625, "learning_rate": 3.707402169898081e-06, "loss": 0.4669, "step": 1311 }, { "epoch": 0.34986666666666666, "grad_norm": 2.5430128684155116, "learning_rate": 3.7055394869154938e-06, "loss": 0.4871, "step": 1312 }, { "epoch": 0.35013333333333335, "grad_norm": 2.5786483594918144, "learning_rate": 3.7036759315190718e-06, "loss": 0.433, "step": 1313 }, { "epoch": 0.3504, "grad_norm": 2.8043229125960556, "learning_rate": 3.701811505057416e-06, "loss": 0.484, "step": 1314 }, { "epoch": 0.3506666666666667, "grad_norm": 2.82633281378623, "learning_rate": 3.699946208879757e-06, "loss": 0.4498, "step": 1315 }, { "epoch": 0.3509333333333333, "grad_norm": 2.4481778209385356, "learning_rate": 3.6980800443359564e-06, "loss": 0.3857, "step": 1316 }, { "epoch": 0.3512, "grad_norm": 2.4234715628425505, "learning_rate": 3.696213012776502e-06, "loss": 0.4306, "step": 1317 }, { "epoch": 0.35146666666666665, "grad_norm": 2.362637854812359, "learning_rate": 3.6943451155525113e-06, "loss": 0.3891, "step": 1318 }, { "epoch": 0.35173333333333334, "grad_norm": 3.137146525033618, "learning_rate": 3.6924763540157266e-06, "loss": 0.4532, "step": 1319 }, { "epoch": 0.352, "grad_norm": 2.5366292556954035, "learning_rate": 3.6906067295185155e-06, "loss": 0.4442, "step": 1320 }, { "epoch": 0.3522666666666667, "grad_norm": 3.0753720535818405, "learning_rate": 3.6887362434138724e-06, "loss": 0.4866, "step": 1321 }, { "epoch": 0.3525333333333333, "grad_norm": 2.914171436792103, "learning_rate": 3.6868648970554127e-06, "loss": 0.4793, "step": 1322 }, { "epoch": 0.3528, "grad_norm": 3.0351136838326163, "learning_rate": 3.6849926917973754e-06, "loss": 0.4825, "step": 1323 }, { "epoch": 0.35306666666666664, "grad_norm": 2.739305134377012, "learning_rate": 3.6831196289946212e-06, "loss": 0.4921, "step": 1324 }, { "epoch": 0.35333333333333333, "grad_norm": 2.6980272851107356, "learning_rate": 3.68124571000263e-06, "loss": 0.4105, "step": 1325 }, { "epoch": 0.3536, "grad_norm": 2.699953372836833, "learning_rate": 3.679370936177504e-06, "loss": 0.5074, "step": 1326 }, { "epoch": 0.35386666666666666, "grad_norm": 2.5202375595655573, "learning_rate": 3.6774953088759624e-06, "loss": 0.4227, "step": 1327 }, { "epoch": 0.35413333333333336, "grad_norm": 2.7255142089521422, "learning_rate": 3.6756188294553404e-06, "loss": 0.4726, "step": 1328 }, { "epoch": 0.3544, "grad_norm": 2.526831073668837, "learning_rate": 3.6737414992735924e-06, "loss": 0.4475, "step": 1329 }, { "epoch": 0.3546666666666667, "grad_norm": 2.603453740629562, "learning_rate": 3.6718633196892883e-06, "loss": 0.443, "step": 1330 }, { "epoch": 0.3549333333333333, "grad_norm": 2.4738057933363526, "learning_rate": 3.6699842920616117e-06, "loss": 0.4451, "step": 1331 }, { "epoch": 0.3552, "grad_norm": 2.9269130482065133, "learning_rate": 3.66810441775036e-06, "loss": 0.5119, "step": 1332 }, { "epoch": 0.35546666666666665, "grad_norm": 2.8968269291093636, "learning_rate": 3.666223698115943e-06, "loss": 0.4737, "step": 1333 }, { "epoch": 0.35573333333333335, "grad_norm": 2.734389322751563, "learning_rate": 3.6643421345193836e-06, "loss": 0.4458, "step": 1334 }, { "epoch": 0.356, "grad_norm": 2.4521875852057784, "learning_rate": 3.662459728322314e-06, "loss": 0.4288, "step": 1335 }, { "epoch": 0.3562666666666667, "grad_norm": 2.575727013454095, "learning_rate": 3.660576480886977e-06, "loss": 0.4215, "step": 1336 }, { "epoch": 0.3565333333333333, "grad_norm": 2.2707872441375923, "learning_rate": 3.6586923935762243e-06, "loss": 0.3933, "step": 1337 }, { "epoch": 0.3568, "grad_norm": 2.4269161864205357, "learning_rate": 3.656807467753514e-06, "loss": 0.44, "step": 1338 }, { "epoch": 0.35706666666666664, "grad_norm": 2.654030769526947, "learning_rate": 3.6549217047829137e-06, "loss": 0.4515, "step": 1339 }, { "epoch": 0.35733333333333334, "grad_norm": 2.784954502544535, "learning_rate": 3.653035106029094e-06, "loss": 0.4379, "step": 1340 }, { "epoch": 0.3576, "grad_norm": 2.2559100441757347, "learning_rate": 3.6511476728573314e-06, "loss": 0.3824, "step": 1341 }, { "epoch": 0.35786666666666667, "grad_norm": 2.822293708362892, "learning_rate": 3.6492594066335072e-06, "loss": 0.4617, "step": 1342 }, { "epoch": 0.35813333333333336, "grad_norm": 2.629538282902379, "learning_rate": 3.6473703087241038e-06, "loss": 0.4661, "step": 1343 }, { "epoch": 0.3584, "grad_norm": 2.6308398264009996, "learning_rate": 3.6454803804962068e-06, "loss": 0.4488, "step": 1344 }, { "epoch": 0.3586666666666667, "grad_norm": 2.329878977582911, "learning_rate": 3.643589623317502e-06, "loss": 0.3998, "step": 1345 }, { "epoch": 0.3589333333333333, "grad_norm": 2.8680513699154364, "learning_rate": 3.6416980385562754e-06, "loss": 0.4682, "step": 1346 }, { "epoch": 0.3592, "grad_norm": 2.6021141573800772, "learning_rate": 3.6398056275814124e-06, "loss": 0.4237, "step": 1347 }, { "epoch": 0.35946666666666666, "grad_norm": 2.5449681649562503, "learning_rate": 3.637912391762395e-06, "loss": 0.4244, "step": 1348 }, { "epoch": 0.35973333333333335, "grad_norm": 3.293008309732721, "learning_rate": 3.6360183324693033e-06, "loss": 0.5024, "step": 1349 }, { "epoch": 0.36, "grad_norm": 2.3564889834534655, "learning_rate": 3.6341234510728128e-06, "loss": 0.4254, "step": 1350 }, { "epoch": 0.3602666666666667, "grad_norm": 2.2332581734411767, "learning_rate": 3.6322277489441936e-06, "loss": 0.3695, "step": 1351 }, { "epoch": 0.3605333333333333, "grad_norm": 2.7734649688774446, "learning_rate": 3.630331227455311e-06, "loss": 0.4819, "step": 1352 }, { "epoch": 0.3608, "grad_norm": 2.327261979447778, "learning_rate": 3.6284338879786217e-06, "loss": 0.3976, "step": 1353 }, { "epoch": 0.36106666666666665, "grad_norm": 2.479406734303413, "learning_rate": 3.6265357318871747e-06, "loss": 0.3994, "step": 1354 }, { "epoch": 0.36133333333333334, "grad_norm": 2.8467281924966175, "learning_rate": 3.6246367605546113e-06, "loss": 0.4416, "step": 1355 }, { "epoch": 0.3616, "grad_norm": 2.9331466676214797, "learning_rate": 3.622736975355161e-06, "loss": 0.5071, "step": 1356 }, { "epoch": 0.36186666666666667, "grad_norm": 2.8241228698788947, "learning_rate": 3.6208363776636434e-06, "loss": 0.5071, "step": 1357 }, { "epoch": 0.3621333333333333, "grad_norm": 2.7284629970403325, "learning_rate": 3.6189349688554664e-06, "loss": 0.4752, "step": 1358 }, { "epoch": 0.3624, "grad_norm": 2.596230316641941, "learning_rate": 3.617032750306623e-06, "loss": 0.4488, "step": 1359 }, { "epoch": 0.3626666666666667, "grad_norm": 2.380485651451292, "learning_rate": 3.615129723393694e-06, "loss": 0.4089, "step": 1360 }, { "epoch": 0.36293333333333333, "grad_norm": 2.5405841092284525, "learning_rate": 3.6132258894938437e-06, "loss": 0.4176, "step": 1361 }, { "epoch": 0.3632, "grad_norm": 2.502241160995714, "learning_rate": 3.6113212499848227e-06, "loss": 0.4436, "step": 1362 }, { "epoch": 0.36346666666666666, "grad_norm": 2.491618238134783, "learning_rate": 3.6094158062449624e-06, "loss": 0.4208, "step": 1363 }, { "epoch": 0.36373333333333335, "grad_norm": 2.6396404422706112, "learning_rate": 3.6075095596531774e-06, "loss": 0.496, "step": 1364 }, { "epoch": 0.364, "grad_norm": 2.7312132338914448, "learning_rate": 3.605602511588962e-06, "loss": 0.4891, "step": 1365 }, { "epoch": 0.3642666666666667, "grad_norm": 2.3546888333403304, "learning_rate": 3.603694663432392e-06, "loss": 0.4256, "step": 1366 }, { "epoch": 0.3645333333333333, "grad_norm": 2.47871889161767, "learning_rate": 3.6017860165641215e-06, "loss": 0.4287, "step": 1367 }, { "epoch": 0.3648, "grad_norm": 2.829922729179905, "learning_rate": 3.5998765723653827e-06, "loss": 0.4748, "step": 1368 }, { "epoch": 0.36506666666666665, "grad_norm": 2.6065761399910885, "learning_rate": 3.597966332217985e-06, "loss": 0.4462, "step": 1369 }, { "epoch": 0.36533333333333334, "grad_norm": 3.4137302540533176, "learning_rate": 3.5960552975043134e-06, "loss": 0.4908, "step": 1370 }, { "epoch": 0.3656, "grad_norm": 3.2027639001147263, "learning_rate": 3.5941434696073278e-06, "loss": 0.4594, "step": 1371 }, { "epoch": 0.3658666666666667, "grad_norm": 2.6665666235862497, "learning_rate": 3.592230849910563e-06, "loss": 0.4327, "step": 1372 }, { "epoch": 0.3661333333333333, "grad_norm": 2.6010543999286058, "learning_rate": 3.5903174397981257e-06, "loss": 0.4814, "step": 1373 }, { "epoch": 0.3664, "grad_norm": 3.271661404537188, "learning_rate": 3.5884032406546943e-06, "loss": 0.5119, "step": 1374 }, { "epoch": 0.36666666666666664, "grad_norm": 3.075985973127879, "learning_rate": 3.586488253865521e-06, "loss": 0.4628, "step": 1375 }, { "epoch": 0.36693333333333333, "grad_norm": 2.6976575792211595, "learning_rate": 3.5845724808164246e-06, "loss": 0.5272, "step": 1376 }, { "epoch": 0.3672, "grad_norm": 2.5671716885494167, "learning_rate": 3.5826559228937943e-06, "loss": 0.4163, "step": 1377 }, { "epoch": 0.36746666666666666, "grad_norm": 2.3978250892659316, "learning_rate": 3.580738581484588e-06, "loss": 0.3949, "step": 1378 }, { "epoch": 0.36773333333333336, "grad_norm": 2.5739702428591675, "learning_rate": 3.57882045797633e-06, "loss": 0.4332, "step": 1379 }, { "epoch": 0.368, "grad_norm": 2.5048703861654404, "learning_rate": 3.576901553757109e-06, "loss": 0.402, "step": 1380 }, { "epoch": 0.3682666666666667, "grad_norm": 2.361856121063737, "learning_rate": 3.5749818702155815e-06, "loss": 0.3908, "step": 1381 }, { "epoch": 0.3685333333333333, "grad_norm": 2.83016236644003, "learning_rate": 3.5730614087409653e-06, "loss": 0.4703, "step": 1382 }, { "epoch": 0.3688, "grad_norm": 2.367249606717703, "learning_rate": 3.571140170723045e-06, "loss": 0.3933, "step": 1383 }, { "epoch": 0.36906666666666665, "grad_norm": 2.7031549731453524, "learning_rate": 3.569218157552162e-06, "loss": 0.4707, "step": 1384 }, { "epoch": 0.36933333333333335, "grad_norm": 3.146865966938581, "learning_rate": 3.5672953706192214e-06, "loss": 0.471, "step": 1385 }, { "epoch": 0.3696, "grad_norm": 2.7585827299640404, "learning_rate": 3.5653718113156897e-06, "loss": 0.4564, "step": 1386 }, { "epoch": 0.3698666666666667, "grad_norm": 2.6383828411024717, "learning_rate": 3.56344748103359e-06, "loss": 0.4901, "step": 1387 }, { "epoch": 0.3701333333333333, "grad_norm": 3.0281314413426617, "learning_rate": 3.561522381165504e-06, "loss": 0.4909, "step": 1388 }, { "epoch": 0.3704, "grad_norm": 2.9197490431100985, "learning_rate": 3.559596513104571e-06, "loss": 0.4777, "step": 1389 }, { "epoch": 0.37066666666666664, "grad_norm": 3.012437268040904, "learning_rate": 3.557669878244485e-06, "loss": 0.494, "step": 1390 }, { "epoch": 0.37093333333333334, "grad_norm": 2.7161208882347556, "learning_rate": 3.5557424779794965e-06, "loss": 0.4527, "step": 1391 }, { "epoch": 0.3712, "grad_norm": 2.4736041146363035, "learning_rate": 3.553814313704407e-06, "loss": 0.4215, "step": 1392 }, { "epoch": 0.37146666666666667, "grad_norm": 2.608956964709874, "learning_rate": 3.5518853868145746e-06, "loss": 0.4283, "step": 1393 }, { "epoch": 0.37173333333333336, "grad_norm": 2.4754402082307005, "learning_rate": 3.5499556987059074e-06, "loss": 0.4395, "step": 1394 }, { "epoch": 0.372, "grad_norm": 2.4631870738840225, "learning_rate": 3.5480252507748637e-06, "loss": 0.4571, "step": 1395 }, { "epoch": 0.3722666666666667, "grad_norm": 2.411205657714835, "learning_rate": 3.546094044418453e-06, "loss": 0.3872, "step": 1396 }, { "epoch": 0.3725333333333333, "grad_norm": 2.5245177969415176, "learning_rate": 3.5441620810342335e-06, "loss": 0.4083, "step": 1397 }, { "epoch": 0.3728, "grad_norm": 2.758354713212143, "learning_rate": 3.5422293620203107e-06, "loss": 0.4324, "step": 1398 }, { "epoch": 0.37306666666666666, "grad_norm": 2.513953225354811, "learning_rate": 3.5402958887753364e-06, "loss": 0.4203, "step": 1399 }, { "epoch": 0.37333333333333335, "grad_norm": 2.641106857703644, "learning_rate": 3.538361662698509e-06, "loss": 0.4461, "step": 1400 }, { "epoch": 0.3736, "grad_norm": 2.4599537258682482, "learning_rate": 3.536426685189572e-06, "loss": 0.474, "step": 1401 }, { "epoch": 0.3738666666666667, "grad_norm": 2.637674235326629, "learning_rate": 3.5344909576488127e-06, "loss": 0.481, "step": 1402 }, { "epoch": 0.3741333333333333, "grad_norm": 2.493112204231424, "learning_rate": 3.5325544814770598e-06, "loss": 0.4053, "step": 1403 }, { "epoch": 0.3744, "grad_norm": 2.7798286019864396, "learning_rate": 3.530617258075686e-06, "loss": 0.5397, "step": 1404 }, { "epoch": 0.37466666666666665, "grad_norm": 2.6118017684059036, "learning_rate": 3.5286792888466014e-06, "loss": 0.4347, "step": 1405 }, { "epoch": 0.37493333333333334, "grad_norm": 2.737261213886995, "learning_rate": 3.5267405751922608e-06, "loss": 0.4774, "step": 1406 }, { "epoch": 0.3752, "grad_norm": 2.7056123293888397, "learning_rate": 3.5248011185156526e-06, "loss": 0.4553, "step": 1407 }, { "epoch": 0.37546666666666667, "grad_norm": 2.5660360105677444, "learning_rate": 3.5228609202203055e-06, "loss": 0.4057, "step": 1408 }, { "epoch": 0.3757333333333333, "grad_norm": 2.579921417361547, "learning_rate": 3.520919981710286e-06, "loss": 0.5002, "step": 1409 }, { "epoch": 0.376, "grad_norm": 2.720008907915331, "learning_rate": 3.5189783043901927e-06, "loss": 0.3989, "step": 1410 }, { "epoch": 0.3762666666666667, "grad_norm": 2.66892099093688, "learning_rate": 3.517035889665162e-06, "loss": 0.4197, "step": 1411 }, { "epoch": 0.37653333333333333, "grad_norm": 2.335407593120922, "learning_rate": 3.5150927389408627e-06, "loss": 0.4152, "step": 1412 }, { "epoch": 0.3768, "grad_norm": 2.3719364859367276, "learning_rate": 3.513148853623497e-06, "loss": 0.41, "step": 1413 }, { "epoch": 0.37706666666666666, "grad_norm": 2.627667507083967, "learning_rate": 3.5112042351197973e-06, "loss": 0.386, "step": 1414 }, { "epoch": 0.37733333333333335, "grad_norm": 2.5224231455335837, "learning_rate": 3.5092588848370277e-06, "loss": 0.4296, "step": 1415 }, { "epoch": 0.3776, "grad_norm": 2.6528558017836628, "learning_rate": 3.5073128041829817e-06, "loss": 0.4602, "step": 1416 }, { "epoch": 0.3778666666666667, "grad_norm": 2.587804860443273, "learning_rate": 3.505365994565981e-06, "loss": 0.435, "step": 1417 }, { "epoch": 0.3781333333333333, "grad_norm": 2.6329772702885363, "learning_rate": 3.503418457394876e-06, "loss": 0.4452, "step": 1418 }, { "epoch": 0.3784, "grad_norm": 2.6181222143780785, "learning_rate": 3.5014701940790417e-06, "loss": 0.5244, "step": 1419 }, { "epoch": 0.37866666666666665, "grad_norm": 2.7357700593067, "learning_rate": 3.4995212060283796e-06, "loss": 0.4368, "step": 1420 }, { "epoch": 0.37893333333333334, "grad_norm": 2.5195471470700217, "learning_rate": 3.4975714946533147e-06, "loss": 0.4576, "step": 1421 }, { "epoch": 0.3792, "grad_norm": 2.6974037839256035, "learning_rate": 3.4956210613647986e-06, "loss": 0.4547, "step": 1422 }, { "epoch": 0.3794666666666667, "grad_norm": 2.6669381288434773, "learning_rate": 3.493669907574301e-06, "loss": 0.4611, "step": 1423 }, { "epoch": 0.3797333333333333, "grad_norm": 2.9844836197853715, "learning_rate": 3.491718034693817e-06, "loss": 0.5497, "step": 1424 }, { "epoch": 0.38, "grad_norm": 2.7296433016769717, "learning_rate": 3.4897654441358586e-06, "loss": 0.4666, "step": 1425 }, { "epoch": 0.38026666666666664, "grad_norm": 2.3678962202433294, "learning_rate": 3.4878121373134595e-06, "loss": 0.4617, "step": 1426 }, { "epoch": 0.38053333333333333, "grad_norm": 2.76578748300155, "learning_rate": 3.4858581156401707e-06, "loss": 0.4863, "step": 1427 }, { "epoch": 0.3808, "grad_norm": 2.289833144294391, "learning_rate": 3.4839033805300603e-06, "loss": 0.3969, "step": 1428 }, { "epoch": 0.38106666666666666, "grad_norm": 2.387922921721708, "learning_rate": 3.4819479333977148e-06, "loss": 0.4095, "step": 1429 }, { "epoch": 0.38133333333333336, "grad_norm": 2.6577426224871403, "learning_rate": 3.4799917756582336e-06, "loss": 0.4295, "step": 1430 }, { "epoch": 0.3816, "grad_norm": 2.367770871957336, "learning_rate": 3.47803490872723e-06, "loss": 0.4041, "step": 1431 }, { "epoch": 0.3818666666666667, "grad_norm": 2.8884011922996784, "learning_rate": 3.476077334020833e-06, "loss": 0.4008, "step": 1432 }, { "epoch": 0.3821333333333333, "grad_norm": 2.2935558422306555, "learning_rate": 3.474119052955682e-06, "loss": 0.4373, "step": 1433 }, { "epoch": 0.3824, "grad_norm": 2.4821510919732432, "learning_rate": 3.4721600669489274e-06, "loss": 0.4052, "step": 1434 }, { "epoch": 0.38266666666666665, "grad_norm": 2.3178164697426618, "learning_rate": 3.4702003774182312e-06, "loss": 0.4255, "step": 1435 }, { "epoch": 0.38293333333333335, "grad_norm": 2.5225599521661666, "learning_rate": 3.4682399857817637e-06, "loss": 0.4466, "step": 1436 }, { "epoch": 0.3832, "grad_norm": 2.754800982816514, "learning_rate": 3.4662788934582035e-06, "loss": 0.4334, "step": 1437 }, { "epoch": 0.3834666666666667, "grad_norm": 2.4911201615005347, "learning_rate": 3.464317101866735e-06, "loss": 0.455, "step": 1438 }, { "epoch": 0.3837333333333333, "grad_norm": 2.381913509357003, "learning_rate": 3.4623546124270496e-06, "loss": 0.4219, "step": 1439 }, { "epoch": 0.384, "grad_norm": 2.298335632634612, "learning_rate": 3.4603914265593445e-06, "loss": 0.3851, "step": 1440 }, { "epoch": 0.38426666666666665, "grad_norm": 2.6237387208179856, "learning_rate": 3.45842754568432e-06, "loss": 0.4122, "step": 1441 }, { "epoch": 0.38453333333333334, "grad_norm": 2.8098147506934286, "learning_rate": 3.45646297122318e-06, "loss": 0.4883, "step": 1442 }, { "epoch": 0.3848, "grad_norm": 3.1109861995674954, "learning_rate": 3.454497704597629e-06, "loss": 0.4784, "step": 1443 }, { "epoch": 0.38506666666666667, "grad_norm": 2.7815164716432896, "learning_rate": 3.4525317472298738e-06, "loss": 0.4777, "step": 1444 }, { "epoch": 0.38533333333333336, "grad_norm": 2.619765582259379, "learning_rate": 3.4505651005426204e-06, "loss": 0.4076, "step": 1445 }, { "epoch": 0.3856, "grad_norm": 2.8768616090001116, "learning_rate": 3.448597765959074e-06, "loss": 0.4868, "step": 1446 }, { "epoch": 0.3858666666666667, "grad_norm": 2.3793478763195246, "learning_rate": 3.4466297449029368e-06, "loss": 0.4097, "step": 1447 }, { "epoch": 0.38613333333333333, "grad_norm": 2.469002068743136, "learning_rate": 3.4446610387984087e-06, "loss": 0.4216, "step": 1448 }, { "epoch": 0.3864, "grad_norm": 2.8681714206864584, "learning_rate": 3.4426916490701845e-06, "loss": 0.4494, "step": 1449 }, { "epoch": 0.38666666666666666, "grad_norm": 2.5190911077800737, "learning_rate": 3.440721577143455e-06, "loss": 0.4194, "step": 1450 }, { "epoch": 0.38693333333333335, "grad_norm": 2.5715251603324933, "learning_rate": 3.438750824443904e-06, "loss": 0.4629, "step": 1451 }, { "epoch": 0.3872, "grad_norm": 2.4291107496349102, "learning_rate": 3.436779392397706e-06, "loss": 0.3941, "step": 1452 }, { "epoch": 0.3874666666666667, "grad_norm": 2.3638360503714013, "learning_rate": 3.4348072824315316e-06, "loss": 0.4433, "step": 1453 }, { "epoch": 0.3877333333333333, "grad_norm": 2.607175827947854, "learning_rate": 3.432834495972538e-06, "loss": 0.4405, "step": 1454 }, { "epoch": 0.388, "grad_norm": 2.583302610693969, "learning_rate": 3.430861034448374e-06, "loss": 0.4135, "step": 1455 }, { "epoch": 0.38826666666666665, "grad_norm": 2.844043161063342, "learning_rate": 3.428886899287175e-06, "loss": 0.4371, "step": 1456 }, { "epoch": 0.38853333333333334, "grad_norm": 2.5290887671276705, "learning_rate": 3.426912091917566e-06, "loss": 0.4289, "step": 1457 }, { "epoch": 0.3888, "grad_norm": 2.519225582877022, "learning_rate": 3.424936613768658e-06, "loss": 0.4072, "step": 1458 }, { "epoch": 0.38906666666666667, "grad_norm": 2.8834924087293663, "learning_rate": 3.4229604662700456e-06, "loss": 0.4867, "step": 1459 }, { "epoch": 0.3893333333333333, "grad_norm": 2.678591249421516, "learning_rate": 3.420983650851811e-06, "loss": 0.4669, "step": 1460 }, { "epoch": 0.3896, "grad_norm": 2.6811789402124977, "learning_rate": 3.419006168944517e-06, "loss": 0.4498, "step": 1461 }, { "epoch": 0.38986666666666664, "grad_norm": 2.6086324564901973, "learning_rate": 3.4170280219792094e-06, "loss": 0.4241, "step": 1462 }, { "epoch": 0.39013333333333333, "grad_norm": 2.618472614061367, "learning_rate": 3.4150492113874166e-06, "loss": 0.4371, "step": 1463 }, { "epoch": 0.3904, "grad_norm": 2.4442726383633278, "learning_rate": 3.4130697386011457e-06, "loss": 0.4462, "step": 1464 }, { "epoch": 0.39066666666666666, "grad_norm": 2.7516670314622345, "learning_rate": 3.4110896050528842e-06, "loss": 0.4387, "step": 1465 }, { "epoch": 0.39093333333333335, "grad_norm": 2.6517998196771715, "learning_rate": 3.4091088121755953e-06, "loss": 0.4872, "step": 1466 }, { "epoch": 0.3912, "grad_norm": 2.723431255743995, "learning_rate": 3.4071273614027222e-06, "loss": 0.4882, "step": 1467 }, { "epoch": 0.3914666666666667, "grad_norm": 2.4699856635323005, "learning_rate": 3.405145254168184e-06, "loss": 0.4161, "step": 1468 }, { "epoch": 0.3917333333333333, "grad_norm": 3.24154824978469, "learning_rate": 3.4031624919063726e-06, "loss": 0.4374, "step": 1469 }, { "epoch": 0.392, "grad_norm": 2.712849424875945, "learning_rate": 3.4011790760521557e-06, "loss": 0.4478, "step": 1470 }, { "epoch": 0.39226666666666665, "grad_norm": 2.641327352826032, "learning_rate": 3.399195008040874e-06, "loss": 0.4814, "step": 1471 }, { "epoch": 0.39253333333333335, "grad_norm": 2.8225048728846116, "learning_rate": 3.3972102893083397e-06, "loss": 0.5042, "step": 1472 }, { "epoch": 0.3928, "grad_norm": 2.7595867188998566, "learning_rate": 3.395224921290836e-06, "loss": 0.4171, "step": 1473 }, { "epoch": 0.3930666666666667, "grad_norm": 2.674327982685374, "learning_rate": 3.3932389054251165e-06, "loss": 0.4611, "step": 1474 }, { "epoch": 0.3933333333333333, "grad_norm": 3.0091727124772665, "learning_rate": 3.391252243148402e-06, "loss": 0.5041, "step": 1475 }, { "epoch": 0.3936, "grad_norm": 2.402360740401708, "learning_rate": 3.389264935898382e-06, "loss": 0.4024, "step": 1476 }, { "epoch": 0.39386666666666664, "grad_norm": 2.427641778099154, "learning_rate": 3.3872769851132144e-06, "loss": 0.4046, "step": 1477 }, { "epoch": 0.39413333333333334, "grad_norm": 2.666903270223506, "learning_rate": 3.3852883922315193e-06, "loss": 0.4633, "step": 1478 }, { "epoch": 0.3944, "grad_norm": 2.606960071500337, "learning_rate": 3.383299158692385e-06, "loss": 0.3915, "step": 1479 }, { "epoch": 0.39466666666666667, "grad_norm": 2.572035383146906, "learning_rate": 3.3813092859353614e-06, "loss": 0.5025, "step": 1480 }, { "epoch": 0.39493333333333336, "grad_norm": 3.297652867215331, "learning_rate": 3.379318775400462e-06, "loss": 0.4737, "step": 1481 }, { "epoch": 0.3952, "grad_norm": 2.6672749109813263, "learning_rate": 3.3773276285281607e-06, "loss": 0.4284, "step": 1482 }, { "epoch": 0.3954666666666667, "grad_norm": 2.6489767551364225, "learning_rate": 3.375335846759392e-06, "loss": 0.5081, "step": 1483 }, { "epoch": 0.3957333333333333, "grad_norm": 3.272056252068883, "learning_rate": 3.3733434315355527e-06, "loss": 0.475, "step": 1484 }, { "epoch": 0.396, "grad_norm": 2.6048366041127524, "learning_rate": 3.3713503842984928e-06, "loss": 0.4365, "step": 1485 }, { "epoch": 0.39626666666666666, "grad_norm": 2.93112236359776, "learning_rate": 3.3693567064905246e-06, "loss": 0.4633, "step": 1486 }, { "epoch": 0.39653333333333335, "grad_norm": 2.512701477864529, "learning_rate": 3.367362399554414e-06, "loss": 0.4011, "step": 1487 }, { "epoch": 0.3968, "grad_norm": 2.3418046133106873, "learning_rate": 3.365367464933382e-06, "loss": 0.3985, "step": 1488 }, { "epoch": 0.3970666666666667, "grad_norm": 2.7802217163731355, "learning_rate": 3.3633719040711067e-06, "loss": 0.4278, "step": 1489 }, { "epoch": 0.3973333333333333, "grad_norm": 2.4726265886867242, "learning_rate": 3.3613757184117155e-06, "loss": 0.392, "step": 1490 }, { "epoch": 0.3976, "grad_norm": 3.0282352765593155, "learning_rate": 3.3593789093997907e-06, "loss": 0.4806, "step": 1491 }, { "epoch": 0.39786666666666665, "grad_norm": 2.372576617203466, "learning_rate": 3.3573814784803653e-06, "loss": 0.3904, "step": 1492 }, { "epoch": 0.39813333333333334, "grad_norm": 2.582586047245702, "learning_rate": 3.355383427098922e-06, "loss": 0.4253, "step": 1493 }, { "epoch": 0.3984, "grad_norm": 2.688676580579434, "learning_rate": 3.3533847567013904e-06, "loss": 0.4568, "step": 1494 }, { "epoch": 0.39866666666666667, "grad_norm": 2.660509697347236, "learning_rate": 3.3513854687341523e-06, "loss": 0.4554, "step": 1495 }, { "epoch": 0.3989333333333333, "grad_norm": 2.8944873252260317, "learning_rate": 3.3493855646440332e-06, "loss": 0.4858, "step": 1496 }, { "epoch": 0.3992, "grad_norm": 2.5866637032672037, "learning_rate": 3.347385045878306e-06, "loss": 0.4667, "step": 1497 }, { "epoch": 0.3994666666666667, "grad_norm": 2.614082943966185, "learning_rate": 3.3453839138846867e-06, "loss": 0.4225, "step": 1498 }, { "epoch": 0.39973333333333333, "grad_norm": 2.8852771304979714, "learning_rate": 3.343382170111338e-06, "loss": 0.4759, "step": 1499 }, { "epoch": 0.4, "grad_norm": 2.36045671160398, "learning_rate": 3.3413798160068634e-06, "loss": 0.4038, "step": 1500 }, { "epoch": 0.40026666666666666, "grad_norm": 2.667771245012628, "learning_rate": 3.3393768530203063e-06, "loss": 0.4423, "step": 1501 }, { "epoch": 0.40053333333333335, "grad_norm": 3.8573288696663646, "learning_rate": 3.3373732826011544e-06, "loss": 0.5436, "step": 1502 }, { "epoch": 0.4008, "grad_norm": 2.72737264729065, "learning_rate": 3.3353691061993338e-06, "loss": 0.4714, "step": 1503 }, { "epoch": 0.4010666666666667, "grad_norm": 2.5707329083972352, "learning_rate": 3.333364325265207e-06, "loss": 0.4093, "step": 1504 }, { "epoch": 0.4013333333333333, "grad_norm": 2.454749032334057, "learning_rate": 3.3313589412495766e-06, "loss": 0.4057, "step": 1505 }, { "epoch": 0.4016, "grad_norm": 2.84556535822889, "learning_rate": 3.3293529556036803e-06, "loss": 0.4744, "step": 1506 }, { "epoch": 0.40186666666666665, "grad_norm": 2.6236790295459884, "learning_rate": 3.327346369779192e-06, "loss": 0.4333, "step": 1507 }, { "epoch": 0.40213333333333334, "grad_norm": 2.5013210027952626, "learning_rate": 3.325339185228219e-06, "loss": 0.4101, "step": 1508 }, { "epoch": 0.4024, "grad_norm": 2.400135544659051, "learning_rate": 3.3233314034033017e-06, "loss": 0.3816, "step": 1509 }, { "epoch": 0.4026666666666667, "grad_norm": 2.677002493062623, "learning_rate": 3.3213230257574146e-06, "loss": 0.453, "step": 1510 }, { "epoch": 0.4029333333333333, "grad_norm": 2.5654451996980803, "learning_rate": 3.3193140537439615e-06, "loss": 0.43, "step": 1511 }, { "epoch": 0.4032, "grad_norm": 2.4553435781275343, "learning_rate": 3.3173044888167775e-06, "loss": 0.3867, "step": 1512 }, { "epoch": 0.40346666666666664, "grad_norm": 2.441248167090679, "learning_rate": 3.3152943324301255e-06, "loss": 0.4411, "step": 1513 }, { "epoch": 0.40373333333333333, "grad_norm": 2.4609788032909665, "learning_rate": 3.313283586038698e-06, "loss": 0.3801, "step": 1514 }, { "epoch": 0.404, "grad_norm": 2.607838070843609, "learning_rate": 3.311272251097613e-06, "loss": 0.448, "step": 1515 }, { "epoch": 0.40426666666666666, "grad_norm": 2.6163700467025133, "learning_rate": 3.3092603290624147e-06, "loss": 0.3686, "step": 1516 }, { "epoch": 0.40453333333333336, "grad_norm": 2.6828111127031327, "learning_rate": 3.3072478213890736e-06, "loss": 0.4511, "step": 1517 }, { "epoch": 0.4048, "grad_norm": 2.958033044789719, "learning_rate": 3.3052347295339817e-06, "loss": 0.4371, "step": 1518 }, { "epoch": 0.4050666666666667, "grad_norm": 2.8483418234776927, "learning_rate": 3.3032210549539555e-06, "loss": 0.4131, "step": 1519 }, { "epoch": 0.4053333333333333, "grad_norm": 2.863951486088617, "learning_rate": 3.3012067991062336e-06, "loss": 0.4709, "step": 1520 }, { "epoch": 0.4056, "grad_norm": 2.5270112303994647, "learning_rate": 3.2991919634484725e-06, "loss": 0.4384, "step": 1521 }, { "epoch": 0.40586666666666665, "grad_norm": 2.5692854637391873, "learning_rate": 3.297176549438752e-06, "loss": 0.449, "step": 1522 }, { "epoch": 0.40613333333333335, "grad_norm": 2.564949546572077, "learning_rate": 3.295160558535567e-06, "loss": 0.4175, "step": 1523 }, { "epoch": 0.4064, "grad_norm": 2.7772282464518585, "learning_rate": 3.2931439921978324e-06, "loss": 0.4721, "step": 1524 }, { "epoch": 0.4066666666666667, "grad_norm": 2.4094813834392728, "learning_rate": 3.291126851884878e-06, "loss": 0.4534, "step": 1525 }, { "epoch": 0.4069333333333333, "grad_norm": 2.6919205031232925, "learning_rate": 3.2891091390564507e-06, "loss": 0.4273, "step": 1526 }, { "epoch": 0.4072, "grad_norm": 2.426929966253551, "learning_rate": 3.287090855172708e-06, "loss": 0.3917, "step": 1527 }, { "epoch": 0.40746666666666664, "grad_norm": 2.983143489549833, "learning_rate": 3.285072001694226e-06, "loss": 0.5514, "step": 1528 }, { "epoch": 0.40773333333333334, "grad_norm": 2.521632409773071, "learning_rate": 3.2830525800819884e-06, "loss": 0.4437, "step": 1529 }, { "epoch": 0.408, "grad_norm": 2.592347350972955, "learning_rate": 3.2810325917973928e-06, "loss": 0.4467, "step": 1530 }, { "epoch": 0.40826666666666667, "grad_norm": 2.8649431237635015, "learning_rate": 3.279012038302246e-06, "loss": 0.453, "step": 1531 }, { "epoch": 0.40853333333333336, "grad_norm": 2.7835098863474066, "learning_rate": 3.276990921058763e-06, "loss": 0.4704, "step": 1532 }, { "epoch": 0.4088, "grad_norm": 2.5275891035872964, "learning_rate": 3.274969241529568e-06, "loss": 0.4421, "step": 1533 }, { "epoch": 0.4090666666666667, "grad_norm": 2.9063186820262263, "learning_rate": 3.2729470011776907e-06, "loss": 0.5049, "step": 1534 }, { "epoch": 0.4093333333333333, "grad_norm": 2.6084021383235854, "learning_rate": 3.270924201466569e-06, "loss": 0.4365, "step": 1535 }, { "epoch": 0.4096, "grad_norm": 2.525845265864839, "learning_rate": 3.2689008438600433e-06, "loss": 0.48, "step": 1536 }, { "epoch": 0.40986666666666666, "grad_norm": 2.590156878337708, "learning_rate": 3.2668769298223585e-06, "loss": 0.4986, "step": 1537 }, { "epoch": 0.41013333333333335, "grad_norm": 2.4615003666776234, "learning_rate": 3.2648524608181633e-06, "loss": 0.451, "step": 1538 }, { "epoch": 0.4104, "grad_norm": 2.463463189421485, "learning_rate": 3.2628274383125057e-06, "loss": 0.4176, "step": 1539 }, { "epoch": 0.4106666666666667, "grad_norm": 2.820557989070664, "learning_rate": 3.2608018637708363e-06, "loss": 0.451, "step": 1540 }, { "epoch": 0.4109333333333333, "grad_norm": 2.518378516209259, "learning_rate": 3.2587757386590042e-06, "loss": 0.4415, "step": 1541 }, { "epoch": 0.4112, "grad_norm": 2.8009063119730144, "learning_rate": 3.2567490644432576e-06, "loss": 0.47, "step": 1542 }, { "epoch": 0.41146666666666665, "grad_norm": 2.512257185031241, "learning_rate": 3.254721842590241e-06, "loss": 0.4315, "step": 1543 }, { "epoch": 0.41173333333333334, "grad_norm": 2.249945411777092, "learning_rate": 3.252694074566996e-06, "loss": 0.3915, "step": 1544 }, { "epoch": 0.412, "grad_norm": 2.4203770145385457, "learning_rate": 3.250665761840959e-06, "loss": 0.4428, "step": 1545 }, { "epoch": 0.41226666666666667, "grad_norm": 2.8843020460660322, "learning_rate": 3.2486369058799623e-06, "loss": 0.4633, "step": 1546 }, { "epoch": 0.4125333333333333, "grad_norm": 2.4655544022043245, "learning_rate": 3.2466075081522276e-06, "loss": 0.4116, "step": 1547 }, { "epoch": 0.4128, "grad_norm": 2.629343699586044, "learning_rate": 3.244577570126373e-06, "loss": 0.4361, "step": 1548 }, { "epoch": 0.4130666666666667, "grad_norm": 2.516602544116514, "learning_rate": 3.242547093271405e-06, "loss": 0.4088, "step": 1549 }, { "epoch": 0.41333333333333333, "grad_norm": 2.443714252706866, "learning_rate": 3.2405160790567204e-06, "loss": 0.3823, "step": 1550 }, { "epoch": 0.4136, "grad_norm": 3.0201858070488106, "learning_rate": 3.2384845289521046e-06, "loss": 0.5342, "step": 1551 }, { "epoch": 0.41386666666666666, "grad_norm": 2.8841587377264606, "learning_rate": 3.236452444427732e-06, "loss": 0.4601, "step": 1552 }, { "epoch": 0.41413333333333335, "grad_norm": 2.3364020008283743, "learning_rate": 3.2344198269541623e-06, "loss": 0.4308, "step": 1553 }, { "epoch": 0.4144, "grad_norm": 2.809443858787667, "learning_rate": 3.2323866780023424e-06, "loss": 0.4537, "step": 1554 }, { "epoch": 0.4146666666666667, "grad_norm": 2.5113685702066855, "learning_rate": 3.2303529990436018e-06, "loss": 0.4754, "step": 1555 }, { "epoch": 0.4149333333333333, "grad_norm": 2.87332264326654, "learning_rate": 3.2283187915496568e-06, "loss": 0.4363, "step": 1556 }, { "epoch": 0.4152, "grad_norm": 2.50193078904685, "learning_rate": 3.2262840569926024e-06, "loss": 0.4164, "step": 1557 }, { "epoch": 0.41546666666666665, "grad_norm": 2.63866599395595, "learning_rate": 3.224248796844917e-06, "loss": 0.4479, "step": 1558 }, { "epoch": 0.41573333333333334, "grad_norm": 2.5974182947285023, "learning_rate": 3.2222130125794603e-06, "loss": 0.4185, "step": 1559 }, { "epoch": 0.416, "grad_norm": 2.6183772247016885, "learning_rate": 3.2201767056694688e-06, "loss": 0.467, "step": 1560 }, { "epoch": 0.4162666666666667, "grad_norm": 2.4649367375123323, "learning_rate": 3.21813987758856e-06, "loss": 0.4409, "step": 1561 }, { "epoch": 0.4165333333333333, "grad_norm": 2.420171380940966, "learning_rate": 3.2161025298107246e-06, "loss": 0.4022, "step": 1562 }, { "epoch": 0.4168, "grad_norm": 2.362888889446213, "learning_rate": 3.2140646638103332e-06, "loss": 0.3935, "step": 1563 }, { "epoch": 0.41706666666666664, "grad_norm": 2.395372097528393, "learning_rate": 3.212026281062132e-06, "loss": 0.3868, "step": 1564 }, { "epoch": 0.41733333333333333, "grad_norm": 2.6941424574267017, "learning_rate": 3.209987383041236e-06, "loss": 0.4712, "step": 1565 }, { "epoch": 0.4176, "grad_norm": 3.3346715524180865, "learning_rate": 3.207947971223139e-06, "loss": 0.5545, "step": 1566 }, { "epoch": 0.41786666666666666, "grad_norm": 2.375873836156285, "learning_rate": 3.2059080470837023e-06, "loss": 0.4221, "step": 1567 }, { "epoch": 0.41813333333333336, "grad_norm": 2.7371430296733723, "learning_rate": 3.20386761209916e-06, "loss": 0.4641, "step": 1568 }, { "epoch": 0.4184, "grad_norm": 2.2218843830046717, "learning_rate": 3.2018266677461164e-06, "loss": 0.3358, "step": 1569 }, { "epoch": 0.4186666666666667, "grad_norm": 2.5446493069207214, "learning_rate": 3.199785215501542e-06, "loss": 0.4423, "step": 1570 }, { "epoch": 0.4189333333333333, "grad_norm": 2.7423760993707065, "learning_rate": 3.197743256842778e-06, "loss": 0.4795, "step": 1571 }, { "epoch": 0.4192, "grad_norm": 3.0994336007685317, "learning_rate": 3.1957007932475293e-06, "loss": 0.5246, "step": 1572 }, { "epoch": 0.41946666666666665, "grad_norm": 2.734553825671725, "learning_rate": 3.1936578261938665e-06, "loss": 0.4517, "step": 1573 }, { "epoch": 0.41973333333333335, "grad_norm": 3.2893698456562253, "learning_rate": 3.191614357160228e-06, "loss": 0.4537, "step": 1574 }, { "epoch": 0.42, "grad_norm": 2.685601937316998, "learning_rate": 3.189570387625411e-06, "loss": 0.4886, "step": 1575 }, { "epoch": 0.4202666666666667, "grad_norm": 2.790278530948529, "learning_rate": 3.187525919068577e-06, "loss": 0.4559, "step": 1576 }, { "epoch": 0.4205333333333333, "grad_norm": 2.891069927515054, "learning_rate": 3.1854809529692486e-06, "loss": 0.4782, "step": 1577 }, { "epoch": 0.4208, "grad_norm": 2.2871190063235436, "learning_rate": 3.1834354908073085e-06, "loss": 0.3547, "step": 1578 }, { "epoch": 0.42106666666666664, "grad_norm": 2.8936132984793828, "learning_rate": 3.181389534062998e-06, "loss": 0.4548, "step": 1579 }, { "epoch": 0.42133333333333334, "grad_norm": 2.393948337972968, "learning_rate": 3.179343084216916e-06, "loss": 0.4196, "step": 1580 }, { "epoch": 0.4216, "grad_norm": 2.712869705673922, "learning_rate": 3.1772961427500183e-06, "loss": 0.496, "step": 1581 }, { "epoch": 0.42186666666666667, "grad_norm": 2.5746855948188263, "learning_rate": 3.175248711143618e-06, "loss": 0.394, "step": 1582 }, { "epoch": 0.42213333333333336, "grad_norm": 2.740211793625849, "learning_rate": 3.173200790879381e-06, "loss": 0.4902, "step": 1583 }, { "epoch": 0.4224, "grad_norm": 2.950087231040804, "learning_rate": 3.1711523834393276e-06, "loss": 0.4702, "step": 1584 }, { "epoch": 0.4226666666666667, "grad_norm": 2.891695194786044, "learning_rate": 3.1691034903058314e-06, "loss": 0.4859, "step": 1585 }, { "epoch": 0.42293333333333333, "grad_norm": 2.3972819843706334, "learning_rate": 3.1670541129616163e-06, "loss": 0.4301, "step": 1586 }, { "epoch": 0.4232, "grad_norm": 3.1358619522109787, "learning_rate": 3.1650042528897564e-06, "loss": 0.4927, "step": 1587 }, { "epoch": 0.42346666666666666, "grad_norm": 2.305509323837255, "learning_rate": 3.162953911573676e-06, "loss": 0.3839, "step": 1588 }, { "epoch": 0.42373333333333335, "grad_norm": 3.425694621780153, "learning_rate": 3.1609030904971487e-06, "loss": 0.4813, "step": 1589 }, { "epoch": 0.424, "grad_norm": 2.3313755211087286, "learning_rate": 3.158851791144293e-06, "loss": 0.4253, "step": 1590 }, { "epoch": 0.4242666666666667, "grad_norm": 3.100170653811682, "learning_rate": 3.1568000149995737e-06, "loss": 0.5216, "step": 1591 }, { "epoch": 0.4245333333333333, "grad_norm": 2.652633022094291, "learning_rate": 3.154747763547803e-06, "loss": 0.4717, "step": 1592 }, { "epoch": 0.4248, "grad_norm": 2.881384192458609, "learning_rate": 3.1526950382741345e-06, "loss": 0.5493, "step": 1593 }, { "epoch": 0.42506666666666665, "grad_norm": 2.201205937175797, "learning_rate": 3.150641840664066e-06, "loss": 0.3827, "step": 1594 }, { "epoch": 0.42533333333333334, "grad_norm": 2.4924710057375563, "learning_rate": 3.148588172203437e-06, "loss": 0.3909, "step": 1595 }, { "epoch": 0.4256, "grad_norm": 3.0987117117546052, "learning_rate": 3.1465340343784275e-06, "loss": 0.5219, "step": 1596 }, { "epoch": 0.42586666666666667, "grad_norm": 2.3314244387618492, "learning_rate": 3.144479428675557e-06, "loss": 0.4198, "step": 1597 }, { "epoch": 0.4261333333333333, "grad_norm": 3.7156704060970855, "learning_rate": 3.1424243565816847e-06, "loss": 0.5017, "step": 1598 }, { "epoch": 0.4264, "grad_norm": 2.8190922960799, "learning_rate": 3.1403688195840056e-06, "loss": 0.5048, "step": 1599 }, { "epoch": 0.4266666666666667, "grad_norm": 2.719866691699626, "learning_rate": 3.1383128191700526e-06, "loss": 0.4635, "step": 1600 }, { "epoch": 0.42693333333333333, "grad_norm": 2.906248072893686, "learning_rate": 3.1362563568276927e-06, "loss": 0.4776, "step": 1601 }, { "epoch": 0.4272, "grad_norm": 2.879071869233879, "learning_rate": 3.1341994340451276e-06, "loss": 0.4797, "step": 1602 }, { "epoch": 0.42746666666666666, "grad_norm": 3.1262337219212846, "learning_rate": 3.132142052310894e-06, "loss": 0.4837, "step": 1603 }, { "epoch": 0.42773333333333335, "grad_norm": 2.489230288694076, "learning_rate": 3.1300842131138566e-06, "loss": 0.3991, "step": 1604 }, { "epoch": 0.428, "grad_norm": 2.6273135343724077, "learning_rate": 3.1280259179432163e-06, "loss": 0.4215, "step": 1605 }, { "epoch": 0.4282666666666667, "grad_norm": 2.8301665188264606, "learning_rate": 3.125967168288501e-06, "loss": 0.4986, "step": 1606 }, { "epoch": 0.4285333333333333, "grad_norm": 2.7722004340219857, "learning_rate": 3.123907965639566e-06, "loss": 0.4856, "step": 1607 }, { "epoch": 0.4288, "grad_norm": 2.8737394957433717, "learning_rate": 3.1218483114865988e-06, "loss": 0.4499, "step": 1608 }, { "epoch": 0.42906666666666665, "grad_norm": 2.4927164983975216, "learning_rate": 3.1197882073201093e-06, "loss": 0.4606, "step": 1609 }, { "epoch": 0.42933333333333334, "grad_norm": 2.399714189683621, "learning_rate": 3.1177276546309353e-06, "loss": 0.4052, "step": 1610 }, { "epoch": 0.4296, "grad_norm": 2.7078905504784285, "learning_rate": 3.11566665491024e-06, "loss": 0.4645, "step": 1611 }, { "epoch": 0.4298666666666667, "grad_norm": 2.3698539247646466, "learning_rate": 3.113605209649507e-06, "loss": 0.4261, "step": 1612 }, { "epoch": 0.4301333333333333, "grad_norm": 2.6989323085981463, "learning_rate": 3.1115433203405456e-06, "loss": 0.4782, "step": 1613 }, { "epoch": 0.4304, "grad_norm": 2.4296766085651527, "learning_rate": 3.1094809884754846e-06, "loss": 0.4116, "step": 1614 }, { "epoch": 0.43066666666666664, "grad_norm": 2.7335399015214357, "learning_rate": 3.107418215546773e-06, "loss": 0.4509, "step": 1615 }, { "epoch": 0.43093333333333333, "grad_norm": 2.5629885063102473, "learning_rate": 3.105355003047181e-06, "loss": 0.456, "step": 1616 }, { "epoch": 0.4312, "grad_norm": 2.6732468324214262, "learning_rate": 3.1032913524697945e-06, "loss": 0.4519, "step": 1617 }, { "epoch": 0.43146666666666667, "grad_norm": 2.7424975420369604, "learning_rate": 3.1012272653080174e-06, "loss": 0.5012, "step": 1618 }, { "epoch": 0.43173333333333336, "grad_norm": 2.726178195982187, "learning_rate": 3.099162743055569e-06, "loss": 0.4954, "step": 1619 }, { "epoch": 0.432, "grad_norm": 2.67832818551205, "learning_rate": 3.0970977872064843e-06, "loss": 0.4497, "step": 1620 }, { "epoch": 0.4322666666666667, "grad_norm": 3.1975664945565847, "learning_rate": 3.0950323992551123e-06, "loss": 0.5184, "step": 1621 }, { "epoch": 0.4325333333333333, "grad_norm": 2.5629811870108727, "learning_rate": 3.092966580696114e-06, "loss": 0.4456, "step": 1622 }, { "epoch": 0.4328, "grad_norm": 2.439700378045231, "learning_rate": 3.0909003330244612e-06, "loss": 0.443, "step": 1623 }, { "epoch": 0.43306666666666666, "grad_norm": 2.44004138836234, "learning_rate": 3.088833657735439e-06, "loss": 0.4281, "step": 1624 }, { "epoch": 0.43333333333333335, "grad_norm": 2.806740143520779, "learning_rate": 3.086766556324638e-06, "loss": 0.4746, "step": 1625 }, { "epoch": 0.4336, "grad_norm": 2.5956415086336833, "learning_rate": 3.084699030287961e-06, "loss": 0.4367, "step": 1626 }, { "epoch": 0.4338666666666667, "grad_norm": 2.2540343167609516, "learning_rate": 3.082631081121615e-06, "loss": 0.3464, "step": 1627 }, { "epoch": 0.4341333333333333, "grad_norm": 3.1290815412464226, "learning_rate": 3.0805627103221163e-06, "loss": 0.49, "step": 1628 }, { "epoch": 0.4344, "grad_norm": 3.3536192549737422, "learning_rate": 3.0784939193862838e-06, "loss": 0.5032, "step": 1629 }, { "epoch": 0.43466666666666665, "grad_norm": 2.8498109700415593, "learning_rate": 3.0764247098112404e-06, "loss": 0.4789, "step": 1630 }, { "epoch": 0.43493333333333334, "grad_norm": 2.3471646720675094, "learning_rate": 3.074355083094414e-06, "loss": 0.4176, "step": 1631 }, { "epoch": 0.4352, "grad_norm": 2.6493793847861307, "learning_rate": 3.0722850407335332e-06, "loss": 0.456, "step": 1632 }, { "epoch": 0.43546666666666667, "grad_norm": 2.7768717402354506, "learning_rate": 3.070214584226626e-06, "loss": 0.4484, "step": 1633 }, { "epoch": 0.4357333333333333, "grad_norm": 2.335769098356166, "learning_rate": 3.0681437150720234e-06, "loss": 0.4104, "step": 1634 }, { "epoch": 0.436, "grad_norm": 2.4148609026659873, "learning_rate": 3.066072434768352e-06, "loss": 0.4457, "step": 1635 }, { "epoch": 0.4362666666666667, "grad_norm": 2.7243353487230957, "learning_rate": 3.0640007448145378e-06, "loss": 0.4616, "step": 1636 }, { "epoch": 0.43653333333333333, "grad_norm": 2.2797493934997988, "learning_rate": 3.0619286467098015e-06, "loss": 0.412, "step": 1637 }, { "epoch": 0.4368, "grad_norm": 2.657676666597933, "learning_rate": 3.059856141953661e-06, "loss": 0.5407, "step": 1638 }, { "epoch": 0.43706666666666666, "grad_norm": 2.3943799978012623, "learning_rate": 3.0577832320459277e-06, "loss": 0.4147, "step": 1639 }, { "epoch": 0.43733333333333335, "grad_norm": 2.3966069965266796, "learning_rate": 3.055709918486705e-06, "loss": 0.4004, "step": 1640 }, { "epoch": 0.4376, "grad_norm": 2.5676001605510725, "learning_rate": 3.053636202776391e-06, "loss": 0.4597, "step": 1641 }, { "epoch": 0.4378666666666667, "grad_norm": 2.577515417417845, "learning_rate": 3.051562086415673e-06, "loss": 0.4853, "step": 1642 }, { "epoch": 0.4381333333333333, "grad_norm": 2.419324633889002, "learning_rate": 3.0494875709055284e-06, "loss": 0.4163, "step": 1643 }, { "epoch": 0.4384, "grad_norm": 2.6392363612168372, "learning_rate": 3.0474126577472236e-06, "loss": 0.4508, "step": 1644 }, { "epoch": 0.43866666666666665, "grad_norm": 2.564661311731202, "learning_rate": 3.0453373484423132e-06, "loss": 0.4229, "step": 1645 }, { "epoch": 0.43893333333333334, "grad_norm": 2.4052035756489536, "learning_rate": 3.0432616444926377e-06, "loss": 0.4333, "step": 1646 }, { "epoch": 0.4392, "grad_norm": 2.227616507434875, "learning_rate": 3.0411855474003243e-06, "loss": 0.4004, "step": 1647 }, { "epoch": 0.43946666666666667, "grad_norm": 2.897580612393445, "learning_rate": 3.039109058667783e-06, "loss": 0.4812, "step": 1648 }, { "epoch": 0.4397333333333333, "grad_norm": 2.3895040251837547, "learning_rate": 3.0370321797977088e-06, "loss": 0.3761, "step": 1649 }, { "epoch": 0.44, "grad_norm": 2.3487236489824386, "learning_rate": 3.0349549122930794e-06, "loss": 0.4123, "step": 1650 }, { "epoch": 0.44026666666666664, "grad_norm": 2.886936174809484, "learning_rate": 3.032877257657151e-06, "loss": 0.434, "step": 1651 }, { "epoch": 0.44053333333333333, "grad_norm": 2.363835819844156, "learning_rate": 3.030799217393463e-06, "loss": 0.4214, "step": 1652 }, { "epoch": 0.4408, "grad_norm": 2.8026349894416334, "learning_rate": 3.028720793005832e-06, "loss": 0.4531, "step": 1653 }, { "epoch": 0.44106666666666666, "grad_norm": 2.817955710946477, "learning_rate": 3.0266419859983542e-06, "loss": 0.4719, "step": 1654 }, { "epoch": 0.44133333333333336, "grad_norm": 2.9830226632174224, "learning_rate": 3.0245627978754016e-06, "loss": 0.4476, "step": 1655 }, { "epoch": 0.4416, "grad_norm": 2.549993881350562, "learning_rate": 3.022483230141621e-06, "loss": 0.4394, "step": 1656 }, { "epoch": 0.4418666666666667, "grad_norm": 2.6089327520193017, "learning_rate": 3.020403284301936e-06, "loss": 0.4377, "step": 1657 }, { "epoch": 0.4421333333333333, "grad_norm": 2.7537190819371964, "learning_rate": 3.0183229618615423e-06, "loss": 0.4698, "step": 1658 }, { "epoch": 0.4424, "grad_norm": 2.180515068907873, "learning_rate": 3.016242264325909e-06, "loss": 0.3522, "step": 1659 }, { "epoch": 0.44266666666666665, "grad_norm": 3.0664140471292325, "learning_rate": 3.0141611932007765e-06, "loss": 0.4412, "step": 1660 }, { "epoch": 0.44293333333333335, "grad_norm": 2.8144953383641935, "learning_rate": 3.012079749992155e-06, "loss": 0.474, "step": 1661 }, { "epoch": 0.4432, "grad_norm": 2.319736247587924, "learning_rate": 3.0099979362063246e-06, "loss": 0.4034, "step": 1662 }, { "epoch": 0.4434666666666667, "grad_norm": 2.7792794950068895, "learning_rate": 3.0079157533498334e-06, "loss": 0.4202, "step": 1663 }, { "epoch": 0.4437333333333333, "grad_norm": 2.388045818768515, "learning_rate": 3.0058332029294955e-06, "loss": 0.4235, "step": 1664 }, { "epoch": 0.444, "grad_norm": 3.255811875199419, "learning_rate": 3.003750286452394e-06, "loss": 0.5201, "step": 1665 }, { "epoch": 0.44426666666666664, "grad_norm": 2.4692448056210257, "learning_rate": 3.001667005425874e-06, "loss": 0.4146, "step": 1666 }, { "epoch": 0.44453333333333334, "grad_norm": 2.771296312404507, "learning_rate": 2.9995833613575446e-06, "loss": 0.4696, "step": 1667 }, { "epoch": 0.4448, "grad_norm": 3.1193140026045283, "learning_rate": 2.997499355755279e-06, "loss": 0.4815, "step": 1668 }, { "epoch": 0.44506666666666667, "grad_norm": 2.7305493554175735, "learning_rate": 2.9954149901272113e-06, "loss": 0.4416, "step": 1669 }, { "epoch": 0.44533333333333336, "grad_norm": 2.5043354378869167, "learning_rate": 2.9933302659817364e-06, "loss": 0.4164, "step": 1670 }, { "epoch": 0.4456, "grad_norm": 2.3222462584138093, "learning_rate": 2.9912451848275083e-06, "loss": 0.3726, "step": 1671 }, { "epoch": 0.4458666666666667, "grad_norm": 2.6998237258900386, "learning_rate": 2.989159748173439e-06, "loss": 0.452, "step": 1672 }, { "epoch": 0.4461333333333333, "grad_norm": 2.7623808867432396, "learning_rate": 2.9870739575286998e-06, "loss": 0.4943, "step": 1673 }, { "epoch": 0.4464, "grad_norm": 2.7987546399033083, "learning_rate": 2.9849878144027157e-06, "loss": 0.4553, "step": 1674 }, { "epoch": 0.44666666666666666, "grad_norm": 2.341991916350012, "learning_rate": 2.9829013203051677e-06, "loss": 0.4113, "step": 1675 }, { "epoch": 0.44693333333333335, "grad_norm": 2.6778356580865754, "learning_rate": 2.980814476745991e-06, "loss": 0.4582, "step": 1676 }, { "epoch": 0.4472, "grad_norm": 2.632276423615295, "learning_rate": 2.9787272852353732e-06, "loss": 0.4568, "step": 1677 }, { "epoch": 0.4474666666666667, "grad_norm": 2.385662955926274, "learning_rate": 2.9766397472837542e-06, "loss": 0.3811, "step": 1678 }, { "epoch": 0.4477333333333333, "grad_norm": 2.610810394687984, "learning_rate": 2.9745518644018245e-06, "loss": 0.4797, "step": 1679 }, { "epoch": 0.448, "grad_norm": 2.785955457864088, "learning_rate": 2.9724636381005245e-06, "loss": 0.4721, "step": 1680 }, { "epoch": 0.44826666666666665, "grad_norm": 3.0521397991600456, "learning_rate": 2.9703750698910427e-06, "loss": 0.4874, "step": 1681 }, { "epoch": 0.44853333333333334, "grad_norm": 2.9724506893313976, "learning_rate": 2.9682861612848145e-06, "loss": 0.5291, "step": 1682 }, { "epoch": 0.4488, "grad_norm": 3.31001184849609, "learning_rate": 2.9661969137935235e-06, "loss": 0.5126, "step": 1683 }, { "epoch": 0.44906666666666667, "grad_norm": 3.33057349246945, "learning_rate": 2.964107328929096e-06, "loss": 0.4827, "step": 1684 }, { "epoch": 0.4493333333333333, "grad_norm": 2.5671882330013944, "learning_rate": 2.9620174082037045e-06, "loss": 0.4178, "step": 1685 }, { "epoch": 0.4496, "grad_norm": 2.756290383345154, "learning_rate": 2.9599271531297637e-06, "loss": 0.4577, "step": 1686 }, { "epoch": 0.4498666666666667, "grad_norm": 2.6194118187887416, "learning_rate": 2.9578365652199294e-06, "loss": 0.4821, "step": 1687 }, { "epoch": 0.45013333333333333, "grad_norm": 2.7934973828084773, "learning_rate": 2.9557456459871002e-06, "loss": 0.4359, "step": 1688 }, { "epoch": 0.4504, "grad_norm": 2.716745201973649, "learning_rate": 2.953654396944414e-06, "loss": 0.443, "step": 1689 }, { "epoch": 0.45066666666666666, "grad_norm": 2.600417673325568, "learning_rate": 2.9515628196052454e-06, "loss": 0.4185, "step": 1690 }, { "epoch": 0.45093333333333335, "grad_norm": 2.3947029370116786, "learning_rate": 2.949470915483209e-06, "loss": 0.3628, "step": 1691 }, { "epoch": 0.4512, "grad_norm": 2.6785548225181217, "learning_rate": 2.9473786860921546e-06, "loss": 0.4295, "step": 1692 }, { "epoch": 0.4514666666666667, "grad_norm": 2.9650683773878206, "learning_rate": 2.945286132946168e-06, "loss": 0.4953, "step": 1693 }, { "epoch": 0.4517333333333333, "grad_norm": 2.459730826947619, "learning_rate": 2.943193257559569e-06, "loss": 0.4226, "step": 1694 }, { "epoch": 0.452, "grad_norm": 2.33010595093458, "learning_rate": 2.94110006144691e-06, "loss": 0.4152, "step": 1695 }, { "epoch": 0.45226666666666665, "grad_norm": 2.8114620027035198, "learning_rate": 2.9390065461229764e-06, "loss": 0.4906, "step": 1696 }, { "epoch": 0.45253333333333334, "grad_norm": 2.9605946908755194, "learning_rate": 2.9369127131027845e-06, "loss": 0.4928, "step": 1697 }, { "epoch": 0.4528, "grad_norm": 2.2774952273407645, "learning_rate": 2.934818563901581e-06, "loss": 0.3529, "step": 1698 }, { "epoch": 0.4530666666666667, "grad_norm": 2.50497222154947, "learning_rate": 2.9327241000348394e-06, "loss": 0.4721, "step": 1699 }, { "epoch": 0.4533333333333333, "grad_norm": 2.6009315137902353, "learning_rate": 2.930629323018262e-06, "loss": 0.484, "step": 1700 }, { "epoch": 0.4536, "grad_norm": 2.5540273304991357, "learning_rate": 2.92853423436778e-06, "loss": 0.4767, "step": 1701 }, { "epoch": 0.45386666666666664, "grad_norm": 2.512684846111732, "learning_rate": 2.9264388355995456e-06, "loss": 0.4668, "step": 1702 }, { "epoch": 0.45413333333333333, "grad_norm": 2.5132316051228725, "learning_rate": 2.92434312822994e-06, "loss": 0.4385, "step": 1703 }, { "epoch": 0.4544, "grad_norm": 2.5171214952931935, "learning_rate": 2.922247113775565e-06, "loss": 0.4038, "step": 1704 }, { "epoch": 0.45466666666666666, "grad_norm": 2.5482880716510543, "learning_rate": 2.9201507937532437e-06, "loss": 0.4654, "step": 1705 }, { "epoch": 0.45493333333333336, "grad_norm": 2.626233425153464, "learning_rate": 2.9180541696800236e-06, "loss": 0.4179, "step": 1706 }, { "epoch": 0.4552, "grad_norm": 3.025883677312781, "learning_rate": 2.9159572430731702e-06, "loss": 0.4887, "step": 1707 }, { "epoch": 0.4554666666666667, "grad_norm": 2.300630560713334, "learning_rate": 2.913860015450167e-06, "loss": 0.3543, "step": 1708 }, { "epoch": 0.4557333333333333, "grad_norm": 2.4144910033533473, "learning_rate": 2.911762488328719e-06, "loss": 0.3943, "step": 1709 }, { "epoch": 0.456, "grad_norm": 3.1027329250627633, "learning_rate": 2.909664663226744e-06, "loss": 0.4539, "step": 1710 }, { "epoch": 0.45626666666666665, "grad_norm": 2.580587972279326, "learning_rate": 2.9075665416623768e-06, "loss": 0.4165, "step": 1711 }, { "epoch": 0.45653333333333335, "grad_norm": 2.2171624299673063, "learning_rate": 2.9054681251539676e-06, "loss": 0.4076, "step": 1712 }, { "epoch": 0.4568, "grad_norm": 2.601185165737922, "learning_rate": 2.9033694152200788e-06, "loss": 0.4427, "step": 1713 }, { "epoch": 0.4570666666666667, "grad_norm": 2.4969546862195062, "learning_rate": 2.9012704133794862e-06, "loss": 0.441, "step": 1714 }, { "epoch": 0.4573333333333333, "grad_norm": 3.0533677005116773, "learning_rate": 2.8991711211511753e-06, "loss": 0.4584, "step": 1715 }, { "epoch": 0.4576, "grad_norm": 2.7615448695292284, "learning_rate": 2.897071540054344e-06, "loss": 0.4848, "step": 1716 }, { "epoch": 0.45786666666666664, "grad_norm": 2.4517773933895857, "learning_rate": 2.8949716716083976e-06, "loss": 0.4191, "step": 1717 }, { "epoch": 0.45813333333333334, "grad_norm": 2.780999790782132, "learning_rate": 2.8928715173329485e-06, "loss": 0.4739, "step": 1718 }, { "epoch": 0.4584, "grad_norm": 2.523550636840081, "learning_rate": 2.89077107874782e-06, "loss": 0.4221, "step": 1719 }, { "epoch": 0.45866666666666667, "grad_norm": 2.561754511099227, "learning_rate": 2.8886703573730358e-06, "loss": 0.4696, "step": 1720 }, { "epoch": 0.45893333333333336, "grad_norm": 2.7086424964434275, "learning_rate": 2.8865693547288274e-06, "loss": 0.4491, "step": 1721 }, { "epoch": 0.4592, "grad_norm": 2.6038286963409196, "learning_rate": 2.8844680723356303e-06, "loss": 0.4361, "step": 1722 }, { "epoch": 0.4594666666666667, "grad_norm": 2.3914975461763737, "learning_rate": 2.8823665117140813e-06, "loss": 0.4133, "step": 1723 }, { "epoch": 0.4597333333333333, "grad_norm": 2.502917588975964, "learning_rate": 2.8802646743850177e-06, "loss": 0.4159, "step": 1724 }, { "epoch": 0.46, "grad_norm": 2.4068602704250055, "learning_rate": 2.878162561869478e-06, "loss": 0.4357, "step": 1725 }, { "epoch": 0.46026666666666666, "grad_norm": 2.4587715382878983, "learning_rate": 2.8760601756887004e-06, "loss": 0.4099, "step": 1726 }, { "epoch": 0.46053333333333335, "grad_norm": 2.9046063010001957, "learning_rate": 2.87395751736412e-06, "loss": 0.4801, "step": 1727 }, { "epoch": 0.4608, "grad_norm": 2.7363800214251253, "learning_rate": 2.87185458841737e-06, "loss": 0.409, "step": 1728 }, { "epoch": 0.4610666666666667, "grad_norm": 2.419028567902101, "learning_rate": 2.8697513903702784e-06, "loss": 0.3933, "step": 1729 }, { "epoch": 0.4613333333333333, "grad_norm": 2.285034094213855, "learning_rate": 2.86764792474487e-06, "loss": 0.4157, "step": 1730 }, { "epoch": 0.4616, "grad_norm": 2.5207895899798447, "learning_rate": 2.865544193063358e-06, "loss": 0.4199, "step": 1731 }, { "epoch": 0.46186666666666665, "grad_norm": 2.9061270890963304, "learning_rate": 2.8634401968481562e-06, "loss": 0.4745, "step": 1732 }, { "epoch": 0.46213333333333334, "grad_norm": 2.85138259690995, "learning_rate": 2.8613359376218626e-06, "loss": 0.4961, "step": 1733 }, { "epoch": 0.4624, "grad_norm": 2.435399163935538, "learning_rate": 2.859231416907269e-06, "loss": 0.4486, "step": 1734 }, { "epoch": 0.46266666666666667, "grad_norm": 2.637808425594735, "learning_rate": 2.8571266362273557e-06, "loss": 0.5184, "step": 1735 }, { "epoch": 0.4629333333333333, "grad_norm": 4.401130076982336, "learning_rate": 2.8550215971052914e-06, "loss": 0.4793, "step": 1736 }, { "epoch": 0.4632, "grad_norm": 2.429119141627044, "learning_rate": 2.8529163010644317e-06, "loss": 0.3661, "step": 1737 }, { "epoch": 0.4634666666666667, "grad_norm": 2.761829930637728, "learning_rate": 2.8508107496283183e-06, "loss": 0.475, "step": 1738 }, { "epoch": 0.46373333333333333, "grad_norm": 2.6167353313047355, "learning_rate": 2.848704944320676e-06, "loss": 0.4377, "step": 1739 }, { "epoch": 0.464, "grad_norm": 2.395937205365156, "learning_rate": 2.846598886665417e-06, "loss": 0.366, "step": 1740 }, { "epoch": 0.46426666666666666, "grad_norm": 2.7016166300412103, "learning_rate": 2.8444925781866327e-06, "loss": 0.4669, "step": 1741 }, { "epoch": 0.46453333333333335, "grad_norm": 2.4892791822345326, "learning_rate": 2.8423860204085975e-06, "loss": 0.369, "step": 1742 }, { "epoch": 0.4648, "grad_norm": 2.5450483792933314, "learning_rate": 2.8402792148557658e-06, "loss": 0.4363, "step": 1743 }, { "epoch": 0.4650666666666667, "grad_norm": 2.5905359493279234, "learning_rate": 2.8381721630527707e-06, "loss": 0.4436, "step": 1744 }, { "epoch": 0.4653333333333333, "grad_norm": 2.9710311924642734, "learning_rate": 2.836064866524426e-06, "loss": 0.4663, "step": 1745 }, { "epoch": 0.4656, "grad_norm": 2.4771648712494665, "learning_rate": 2.8339573267957187e-06, "loss": 0.39, "step": 1746 }, { "epoch": 0.46586666666666665, "grad_norm": 3.1015004731815923, "learning_rate": 2.8318495453918165e-06, "loss": 0.3992, "step": 1747 }, { "epoch": 0.46613333333333334, "grad_norm": 3.1650767106369626, "learning_rate": 2.8297415238380575e-06, "loss": 0.4916, "step": 1748 }, { "epoch": 0.4664, "grad_norm": 2.359760252215045, "learning_rate": 2.827633263659956e-06, "loss": 0.3808, "step": 1749 }, { "epoch": 0.4666666666666667, "grad_norm": 2.5173852142363837, "learning_rate": 2.825524766383199e-06, "loss": 0.4123, "step": 1750 }, { "epoch": 0.4669333333333333, "grad_norm": 2.8090319373546424, "learning_rate": 2.8234160335336443e-06, "loss": 0.4198, "step": 1751 }, { "epoch": 0.4672, "grad_norm": 2.650962885557305, "learning_rate": 2.8213070666373203e-06, "loss": 0.4151, "step": 1752 }, { "epoch": 0.46746666666666664, "grad_norm": 2.551863821385928, "learning_rate": 2.819197867220425e-06, "loss": 0.3982, "step": 1753 }, { "epoch": 0.46773333333333333, "grad_norm": 2.7478327694615836, "learning_rate": 2.817088436809325e-06, "loss": 0.4884, "step": 1754 }, { "epoch": 0.468, "grad_norm": 2.652226215989342, "learning_rate": 2.814978776930553e-06, "loss": 0.4468, "step": 1755 }, { "epoch": 0.46826666666666666, "grad_norm": 2.510881694896791, "learning_rate": 2.812868889110809e-06, "loss": 0.4253, "step": 1756 }, { "epoch": 0.46853333333333336, "grad_norm": 2.443472534155051, "learning_rate": 2.810758774876957e-06, "loss": 0.4342, "step": 1757 }, { "epoch": 0.4688, "grad_norm": 2.36294921305221, "learning_rate": 2.808648435756026e-06, "loss": 0.3988, "step": 1758 }, { "epoch": 0.4690666666666667, "grad_norm": 2.7039247742602814, "learning_rate": 2.806537873275206e-06, "loss": 0.4443, "step": 1759 }, { "epoch": 0.4693333333333333, "grad_norm": 2.2936272752959876, "learning_rate": 2.80442708896185e-06, "loss": 0.3556, "step": 1760 }, { "epoch": 0.4696, "grad_norm": 2.614726854139654, "learning_rate": 2.802316084343472e-06, "loss": 0.4871, "step": 1761 }, { "epoch": 0.46986666666666665, "grad_norm": 2.3555001166923173, "learning_rate": 2.800204860947744e-06, "loss": 0.3854, "step": 1762 }, { "epoch": 0.47013333333333335, "grad_norm": 2.440343879443253, "learning_rate": 2.798093420302496e-06, "loss": 0.4385, "step": 1763 }, { "epoch": 0.4704, "grad_norm": 2.5412635425464463, "learning_rate": 2.795981763935717e-06, "loss": 0.4154, "step": 1764 }, { "epoch": 0.4706666666666667, "grad_norm": 2.579276969406627, "learning_rate": 2.7938698933755515e-06, "loss": 0.4421, "step": 1765 }, { "epoch": 0.4709333333333333, "grad_norm": 2.619475659754512, "learning_rate": 2.7917578101502985e-06, "loss": 0.4335, "step": 1766 }, { "epoch": 0.4712, "grad_norm": 2.5351729183788643, "learning_rate": 2.78964551578841e-06, "loss": 0.4455, "step": 1767 }, { "epoch": 0.47146666666666665, "grad_norm": 2.9128634728391947, "learning_rate": 2.787533011818494e-06, "loss": 0.4319, "step": 1768 }, { "epoch": 0.47173333333333334, "grad_norm": 2.507216332508662, "learning_rate": 2.7854202997693076e-06, "loss": 0.4295, "step": 1769 }, { "epoch": 0.472, "grad_norm": 2.5312779732089563, "learning_rate": 2.783307381169758e-06, "loss": 0.4841, "step": 1770 }, { "epoch": 0.47226666666666667, "grad_norm": 2.491710157783924, "learning_rate": 2.781194257548903e-06, "loss": 0.4485, "step": 1771 }, { "epoch": 0.47253333333333336, "grad_norm": 2.5835622820134065, "learning_rate": 2.7790809304359495e-06, "loss": 0.466, "step": 1772 }, { "epoch": 0.4728, "grad_norm": 2.7388204173569357, "learning_rate": 2.7769674013602504e-06, "loss": 0.4674, "step": 1773 }, { "epoch": 0.4730666666666667, "grad_norm": 2.726280198226716, "learning_rate": 2.7748536718513055e-06, "loss": 0.4293, "step": 1774 }, { "epoch": 0.47333333333333333, "grad_norm": 2.723585988333798, "learning_rate": 2.772739743438758e-06, "loss": 0.4054, "step": 1775 }, { "epoch": 0.4736, "grad_norm": 2.5690449518704233, "learning_rate": 2.770625617652398e-06, "loss": 0.4341, "step": 1776 }, { "epoch": 0.47386666666666666, "grad_norm": 2.415298443106328, "learning_rate": 2.768511296022156e-06, "loss": 0.3938, "step": 1777 }, { "epoch": 0.47413333333333335, "grad_norm": 2.306520103419775, "learning_rate": 2.7663967800781054e-06, "loss": 0.4051, "step": 1778 }, { "epoch": 0.4744, "grad_norm": 2.6216835423032263, "learning_rate": 2.7642820713504593e-06, "loss": 0.4241, "step": 1779 }, { "epoch": 0.4746666666666667, "grad_norm": 2.3662913894684166, "learning_rate": 2.762167171369572e-06, "loss": 0.3898, "step": 1780 }, { "epoch": 0.4749333333333333, "grad_norm": 2.689126815598693, "learning_rate": 2.7600520816659333e-06, "loss": 0.4581, "step": 1781 }, { "epoch": 0.4752, "grad_norm": 2.6107508695549613, "learning_rate": 2.7579368037701733e-06, "loss": 0.4578, "step": 1782 }, { "epoch": 0.47546666666666665, "grad_norm": 2.837559247629427, "learning_rate": 2.7558213392130563e-06, "loss": 0.5039, "step": 1783 }, { "epoch": 0.47573333333333334, "grad_norm": 3.0382958383653453, "learning_rate": 2.7537056895254833e-06, "loss": 0.5211, "step": 1784 }, { "epoch": 0.476, "grad_norm": 2.8428392998024843, "learning_rate": 2.751589856238487e-06, "loss": 0.4805, "step": 1785 }, { "epoch": 0.47626666666666667, "grad_norm": 2.5250149896511522, "learning_rate": 2.749473840883236e-06, "loss": 0.4076, "step": 1786 }, { "epoch": 0.4765333333333333, "grad_norm": 2.5555551420225004, "learning_rate": 2.7473576449910284e-06, "loss": 0.4364, "step": 1787 }, { "epoch": 0.4768, "grad_norm": 2.4008368047815485, "learning_rate": 2.745241270093293e-06, "loss": 0.4405, "step": 1788 }, { "epoch": 0.4770666666666667, "grad_norm": 2.447571251062769, "learning_rate": 2.7431247177215893e-06, "loss": 0.4238, "step": 1789 }, { "epoch": 0.47733333333333333, "grad_norm": 2.7094051331203715, "learning_rate": 2.7410079894076047e-06, "loss": 0.427, "step": 1790 }, { "epoch": 0.4776, "grad_norm": 2.591724951532279, "learning_rate": 2.7388910866831535e-06, "loss": 0.4595, "step": 1791 }, { "epoch": 0.47786666666666666, "grad_norm": 3.0960735748281585, "learning_rate": 2.7367740110801772e-06, "loss": 0.485, "step": 1792 }, { "epoch": 0.47813333333333335, "grad_norm": 2.32645674090283, "learning_rate": 2.7346567641307405e-06, "loss": 0.4008, "step": 1793 }, { "epoch": 0.4784, "grad_norm": 2.2402561690812792, "learning_rate": 2.732539347367035e-06, "loss": 0.408, "step": 1794 }, { "epoch": 0.4786666666666667, "grad_norm": 2.4352358715790827, "learning_rate": 2.730421762321372e-06, "loss": 0.4356, "step": 1795 }, { "epoch": 0.4789333333333333, "grad_norm": 2.4906252940405342, "learning_rate": 2.728304010526187e-06, "loss": 0.3981, "step": 1796 }, { "epoch": 0.4792, "grad_norm": 3.657274173613086, "learning_rate": 2.726186093514036e-06, "loss": 0.5146, "step": 1797 }, { "epoch": 0.47946666666666665, "grad_norm": 2.5027203221166463, "learning_rate": 2.724068012817593e-06, "loss": 0.4473, "step": 1798 }, { "epoch": 0.47973333333333334, "grad_norm": 2.4721829117223884, "learning_rate": 2.7219497699696513e-06, "loss": 0.4218, "step": 1799 }, { "epoch": 0.48, "grad_norm": 2.8551956779952934, "learning_rate": 2.719831366503122e-06, "loss": 0.4516, "step": 1800 }, { "epoch": 0.4802666666666667, "grad_norm": 2.431566088927174, "learning_rate": 2.7177128039510314e-06, "loss": 0.3818, "step": 1801 }, { "epoch": 0.4805333333333333, "grad_norm": 2.5710468071629413, "learning_rate": 2.7155940838465223e-06, "loss": 0.427, "step": 1802 }, { "epoch": 0.4808, "grad_norm": 3.5558014768926443, "learning_rate": 2.7134752077228498e-06, "loss": 0.4519, "step": 1803 }, { "epoch": 0.48106666666666664, "grad_norm": 2.3600607520317203, "learning_rate": 2.7113561771133844e-06, "loss": 0.4091, "step": 1804 }, { "epoch": 0.48133333333333334, "grad_norm": 2.4242684573872393, "learning_rate": 2.709236993551606e-06, "loss": 0.413, "step": 1805 }, { "epoch": 0.4816, "grad_norm": 2.3865056977923182, "learning_rate": 2.707117658571105e-06, "loss": 0.3739, "step": 1806 }, { "epoch": 0.48186666666666667, "grad_norm": 2.719847452078654, "learning_rate": 2.7049981737055848e-06, "loss": 0.4894, "step": 1807 }, { "epoch": 0.48213333333333336, "grad_norm": 2.730910285665421, "learning_rate": 2.702878540488853e-06, "loss": 0.4635, "step": 1808 }, { "epoch": 0.4824, "grad_norm": 2.5675767658722055, "learning_rate": 2.700758760454827e-06, "loss": 0.4122, "step": 1809 }, { "epoch": 0.4826666666666667, "grad_norm": 2.3704899778129507, "learning_rate": 2.6986388351375304e-06, "loss": 0.3986, "step": 1810 }, { "epoch": 0.4829333333333333, "grad_norm": 2.479191575110943, "learning_rate": 2.6965187660710894e-06, "loss": 0.4306, "step": 1811 }, { "epoch": 0.4832, "grad_norm": 2.6213963028775034, "learning_rate": 2.6943985547897393e-06, "loss": 0.472, "step": 1812 }, { "epoch": 0.48346666666666666, "grad_norm": 2.4597822024101914, "learning_rate": 2.6922782028278137e-06, "loss": 0.3918, "step": 1813 }, { "epoch": 0.48373333333333335, "grad_norm": 3.0275044084859277, "learning_rate": 2.690157711719749e-06, "loss": 0.4478, "step": 1814 }, { "epoch": 0.484, "grad_norm": 3.2838974511023937, "learning_rate": 2.6880370830000846e-06, "loss": 0.4538, "step": 1815 }, { "epoch": 0.4842666666666667, "grad_norm": 2.5385777492272905, "learning_rate": 2.6859163182034557e-06, "loss": 0.4528, "step": 1816 }, { "epoch": 0.4845333333333333, "grad_norm": 2.9997269834940523, "learning_rate": 2.6837954188646006e-06, "loss": 0.4751, "step": 1817 }, { "epoch": 0.4848, "grad_norm": 2.249873583393389, "learning_rate": 2.6816743865183496e-06, "loss": 0.4063, "step": 1818 }, { "epoch": 0.48506666666666665, "grad_norm": 2.6961867918362477, "learning_rate": 2.6795532226996345e-06, "loss": 0.4531, "step": 1819 }, { "epoch": 0.48533333333333334, "grad_norm": 2.714595059395724, "learning_rate": 2.6774319289434784e-06, "loss": 0.4145, "step": 1820 }, { "epoch": 0.4856, "grad_norm": 2.952248847398262, "learning_rate": 2.675310506785e-06, "loss": 0.4405, "step": 1821 }, { "epoch": 0.48586666666666667, "grad_norm": 2.627221460342684, "learning_rate": 2.6731889577594105e-06, "loss": 0.4185, "step": 1822 }, { "epoch": 0.4861333333333333, "grad_norm": 2.4798611150606535, "learning_rate": 2.6710672834020147e-06, "loss": 0.4532, "step": 1823 }, { "epoch": 0.4864, "grad_norm": 2.4913862545029075, "learning_rate": 2.6689454852482045e-06, "loss": 0.3751, "step": 1824 }, { "epoch": 0.4866666666666667, "grad_norm": 3.048352264678549, "learning_rate": 2.666823564833465e-06, "loss": 0.4569, "step": 1825 }, { "epoch": 0.48693333333333333, "grad_norm": 2.5782097725199686, "learning_rate": 2.664701523693367e-06, "loss": 0.4275, "step": 1826 }, { "epoch": 0.4872, "grad_norm": 2.8091034091912346, "learning_rate": 2.6625793633635723e-06, "loss": 0.4685, "step": 1827 }, { "epoch": 0.48746666666666666, "grad_norm": 2.2857027319721355, "learning_rate": 2.6604570853798234e-06, "loss": 0.3771, "step": 1828 }, { "epoch": 0.48773333333333335, "grad_norm": 2.2956668852188464, "learning_rate": 2.6583346912779524e-06, "loss": 0.3917, "step": 1829 }, { "epoch": 0.488, "grad_norm": 2.3334706569658774, "learning_rate": 2.6562121825938747e-06, "loss": 0.3672, "step": 1830 }, { "epoch": 0.4882666666666667, "grad_norm": 2.2429680248538615, "learning_rate": 2.654089560863588e-06, "loss": 0.3467, "step": 1831 }, { "epoch": 0.4885333333333333, "grad_norm": 3.128438407597136, "learning_rate": 2.651966827623171e-06, "loss": 0.4672, "step": 1832 }, { "epoch": 0.4888, "grad_norm": 2.600008008471216, "learning_rate": 2.6498439844087848e-06, "loss": 0.4137, "step": 1833 }, { "epoch": 0.48906666666666665, "grad_norm": 2.310595998416151, "learning_rate": 2.6477210327566682e-06, "loss": 0.3922, "step": 1834 }, { "epoch": 0.48933333333333334, "grad_norm": 2.438576406214493, "learning_rate": 2.6455979742031407e-06, "loss": 0.4192, "step": 1835 }, { "epoch": 0.4896, "grad_norm": 4.549078911697079, "learning_rate": 2.6434748102845976e-06, "loss": 0.4503, "step": 1836 }, { "epoch": 0.4898666666666667, "grad_norm": 2.739250061291825, "learning_rate": 2.6413515425375106e-06, "loss": 0.4933, "step": 1837 }, { "epoch": 0.4901333333333333, "grad_norm": 2.878089737658472, "learning_rate": 2.639228172498427e-06, "loss": 0.4616, "step": 1838 }, { "epoch": 0.4904, "grad_norm": 2.617348467439125, "learning_rate": 2.6371047017039675e-06, "loss": 0.4547, "step": 1839 }, { "epoch": 0.49066666666666664, "grad_norm": 2.74240927562436, "learning_rate": 2.6349811316908265e-06, "loss": 0.433, "step": 1840 }, { "epoch": 0.49093333333333333, "grad_norm": 3.700380940057675, "learning_rate": 2.63285746399577e-06, "loss": 0.4763, "step": 1841 }, { "epoch": 0.4912, "grad_norm": 2.975307094630479, "learning_rate": 2.6307337001556333e-06, "loss": 0.4574, "step": 1842 }, { "epoch": 0.49146666666666666, "grad_norm": 3.4391967545509603, "learning_rate": 2.6286098417073235e-06, "loss": 0.4693, "step": 1843 }, { "epoch": 0.49173333333333336, "grad_norm": 2.604432555429772, "learning_rate": 2.6264858901878156e-06, "loss": 0.4274, "step": 1844 }, { "epoch": 0.492, "grad_norm": 2.8065950544970977, "learning_rate": 2.6243618471341497e-06, "loss": 0.5153, "step": 1845 }, { "epoch": 0.4922666666666667, "grad_norm": 3.1940320098690784, "learning_rate": 2.6222377140834364e-06, "loss": 0.4338, "step": 1846 }, { "epoch": 0.4925333333333333, "grad_norm": 2.7820701348862675, "learning_rate": 2.620113492572847e-06, "loss": 0.4638, "step": 1847 }, { "epoch": 0.4928, "grad_norm": 2.4949598519678604, "learning_rate": 2.6179891841396197e-06, "loss": 0.4383, "step": 1848 }, { "epoch": 0.49306666666666665, "grad_norm": 2.5137486926083916, "learning_rate": 2.6158647903210545e-06, "loss": 0.416, "step": 1849 }, { "epoch": 0.49333333333333335, "grad_norm": 2.900334206366739, "learning_rate": 2.6137403126545123e-06, "loss": 0.4365, "step": 1850 }, { "epoch": 0.4936, "grad_norm": 3.4539742261190485, "learning_rate": 2.6116157526774176e-06, "loss": 0.4773, "step": 1851 }, { "epoch": 0.4938666666666667, "grad_norm": 2.5611039332439898, "learning_rate": 2.609491111927251e-06, "loss": 0.4204, "step": 1852 }, { "epoch": 0.4941333333333333, "grad_norm": 2.54914501638022, "learning_rate": 2.607366391941554e-06, "loss": 0.3741, "step": 1853 }, { "epoch": 0.4944, "grad_norm": 2.762903141693212, "learning_rate": 2.6052415942579253e-06, "loss": 0.4647, "step": 1854 }, { "epoch": 0.49466666666666664, "grad_norm": 2.871535138712915, "learning_rate": 2.603116720414017e-06, "loss": 0.4858, "step": 1855 }, { "epoch": 0.49493333333333334, "grad_norm": 2.421535259002775, "learning_rate": 2.6009917719475407e-06, "loss": 0.4662, "step": 1856 }, { "epoch": 0.4952, "grad_norm": 2.6525147458342246, "learning_rate": 2.598866750396259e-06, "loss": 0.4523, "step": 1857 }, { "epoch": 0.49546666666666667, "grad_norm": 2.3052045396532144, "learning_rate": 2.596741657297988e-06, "loss": 0.3974, "step": 1858 }, { "epoch": 0.49573333333333336, "grad_norm": 2.5394733260195546, "learning_rate": 2.5946164941905956e-06, "loss": 0.4444, "step": 1859 }, { "epoch": 0.496, "grad_norm": 2.4894230619644646, "learning_rate": 2.5924912626119995e-06, "loss": 0.4171, "step": 1860 }, { "epoch": 0.4962666666666667, "grad_norm": 2.486572819537827, "learning_rate": 2.59036596410017e-06, "loss": 0.4321, "step": 1861 }, { "epoch": 0.4965333333333333, "grad_norm": 2.461913205835538, "learning_rate": 2.5882406001931226e-06, "loss": 0.4057, "step": 1862 }, { "epoch": 0.4968, "grad_norm": 2.232099230068128, "learning_rate": 2.5861151724289206e-06, "loss": 0.4034, "step": 1863 }, { "epoch": 0.49706666666666666, "grad_norm": 2.3399776902294334, "learning_rate": 2.5839896823456756e-06, "loss": 0.4107, "step": 1864 }, { "epoch": 0.49733333333333335, "grad_norm": 2.7350465143411875, "learning_rate": 2.581864131481543e-06, "loss": 0.461, "step": 1865 }, { "epoch": 0.4976, "grad_norm": 2.8532776110344433, "learning_rate": 2.5797385213747205e-06, "loss": 0.4409, "step": 1866 }, { "epoch": 0.4978666666666667, "grad_norm": 2.4879180967985937, "learning_rate": 2.577612853563452e-06, "loss": 0.3876, "step": 1867 }, { "epoch": 0.4981333333333333, "grad_norm": 2.257717245567488, "learning_rate": 2.5754871295860197e-06, "loss": 0.3662, "step": 1868 }, { "epoch": 0.4984, "grad_norm": 2.8358322240768454, "learning_rate": 2.5733613509807498e-06, "loss": 0.453, "step": 1869 }, { "epoch": 0.49866666666666665, "grad_norm": 2.4856640832967023, "learning_rate": 2.571235519286005e-06, "loss": 0.4142, "step": 1870 }, { "epoch": 0.49893333333333334, "grad_norm": 3.009399174350278, "learning_rate": 2.569109636040189e-06, "loss": 0.4777, "step": 1871 }, { "epoch": 0.4992, "grad_norm": 2.815079045946361, "learning_rate": 2.5669837027817412e-06, "loss": 0.4219, "step": 1872 }, { "epoch": 0.49946666666666667, "grad_norm": 2.49222222983196, "learning_rate": 2.5648577210491364e-06, "loss": 0.3701, "step": 1873 }, { "epoch": 0.4997333333333333, "grad_norm": 2.4358170662767122, "learning_rate": 2.562731692380888e-06, "loss": 0.4033, "step": 1874 }, { "epoch": 0.5, "grad_norm": 2.682375262827003, "learning_rate": 2.5606056183155396e-06, "loss": 0.4551, "step": 1875 }, { "epoch": 0.5002666666666666, "grad_norm": 2.672503169729624, "learning_rate": 2.55847950039167e-06, "loss": 0.458, "step": 1876 }, { "epoch": 0.5005333333333334, "grad_norm": 2.6333823277646258, "learning_rate": 2.556353340147888e-06, "loss": 0.4424, "step": 1877 }, { "epoch": 0.5008, "grad_norm": 2.494019990342067, "learning_rate": 2.554227139122833e-06, "loss": 0.3926, "step": 1878 }, { "epoch": 0.5010666666666667, "grad_norm": 2.71179036620958, "learning_rate": 2.552100898855177e-06, "loss": 0.4892, "step": 1879 }, { "epoch": 0.5013333333333333, "grad_norm": 2.4398831287017066, "learning_rate": 2.5499746208836167e-06, "loss": 0.4175, "step": 1880 }, { "epoch": 0.5016, "grad_norm": 2.8802673569036443, "learning_rate": 2.5478483067468777e-06, "loss": 0.451, "step": 1881 }, { "epoch": 0.5018666666666667, "grad_norm": 2.5109840517637254, "learning_rate": 2.5457219579837123e-06, "loss": 0.4508, "step": 1882 }, { "epoch": 0.5021333333333333, "grad_norm": 2.5057422700871643, "learning_rate": 2.5435955761328966e-06, "loss": 0.3922, "step": 1883 }, { "epoch": 0.5024, "grad_norm": 2.5718477121748666, "learning_rate": 2.541469162733232e-06, "loss": 0.4772, "step": 1884 }, { "epoch": 0.5026666666666667, "grad_norm": 2.6665819315394304, "learning_rate": 2.539342719323541e-06, "loss": 0.4909, "step": 1885 }, { "epoch": 0.5029333333333333, "grad_norm": 2.199567738408182, "learning_rate": 2.53721624744267e-06, "loss": 0.347, "step": 1886 }, { "epoch": 0.5032, "grad_norm": 2.533701028409993, "learning_rate": 2.535089748629483e-06, "loss": 0.4255, "step": 1887 }, { "epoch": 0.5034666666666666, "grad_norm": 2.511977086253639, "learning_rate": 2.5329632244228665e-06, "loss": 0.4204, "step": 1888 }, { "epoch": 0.5037333333333334, "grad_norm": 2.4070922833093897, "learning_rate": 2.530836676361724e-06, "loss": 0.3746, "step": 1889 }, { "epoch": 0.504, "grad_norm": 2.898934521076809, "learning_rate": 2.528710105984977e-06, "loss": 0.5087, "step": 1890 }, { "epoch": 0.5042666666666666, "grad_norm": 2.302111251876147, "learning_rate": 2.5265835148315617e-06, "loss": 0.3654, "step": 1891 }, { "epoch": 0.5045333333333333, "grad_norm": 3.1911651672270263, "learning_rate": 2.5244569044404305e-06, "loss": 0.4757, "step": 1892 }, { "epoch": 0.5048, "grad_norm": 2.334166503871617, "learning_rate": 2.5223302763505498e-06, "loss": 0.3713, "step": 1893 }, { "epoch": 0.5050666666666667, "grad_norm": 3.167979953949706, "learning_rate": 2.5202036321008982e-06, "loss": 0.4972, "step": 1894 }, { "epoch": 0.5053333333333333, "grad_norm": 2.869395891107262, "learning_rate": 2.518076973230466e-06, "loss": 0.4717, "step": 1895 }, { "epoch": 0.5056, "grad_norm": 2.549507412706508, "learning_rate": 2.515950301278254e-06, "loss": 0.43, "step": 1896 }, { "epoch": 0.5058666666666667, "grad_norm": 2.810614605745093, "learning_rate": 2.513823617783274e-06, "loss": 0.4804, "step": 1897 }, { "epoch": 0.5061333333333333, "grad_norm": 2.5686536592024725, "learning_rate": 2.5116969242845437e-06, "loss": 0.4242, "step": 1898 }, { "epoch": 0.5064, "grad_norm": 2.8306950679268956, "learning_rate": 2.5095702223210893e-06, "loss": 0.4246, "step": 1899 }, { "epoch": 0.5066666666666667, "grad_norm": 2.4465008794018672, "learning_rate": 2.507443513431944e-06, "loss": 0.3697, "step": 1900 }, { "epoch": 0.5069333333333333, "grad_norm": 2.673332486428302, "learning_rate": 2.5053167991561446e-06, "loss": 0.4048, "step": 1901 }, { "epoch": 0.5072, "grad_norm": 2.6227680632808417, "learning_rate": 2.5031900810327327e-06, "loss": 0.4069, "step": 1902 }, { "epoch": 0.5074666666666666, "grad_norm": 2.4814318352186753, "learning_rate": 2.5010633606007523e-06, "loss": 0.4009, "step": 1903 }, { "epoch": 0.5077333333333334, "grad_norm": 2.25391196531822, "learning_rate": 2.4989366393992485e-06, "loss": 0.3538, "step": 1904 }, { "epoch": 0.508, "grad_norm": 2.97274296469982, "learning_rate": 2.4968099189672673e-06, "loss": 0.4819, "step": 1905 }, { "epoch": 0.5082666666666666, "grad_norm": 2.3917261846567763, "learning_rate": 2.4946832008438562e-06, "loss": 0.4003, "step": 1906 }, { "epoch": 0.5085333333333333, "grad_norm": 2.443536192396655, "learning_rate": 2.4925564865680567e-06, "loss": 0.4269, "step": 1907 }, { "epoch": 0.5088, "grad_norm": 2.279936795156224, "learning_rate": 2.490429777678911e-06, "loss": 0.3629, "step": 1908 }, { "epoch": 0.5090666666666667, "grad_norm": 2.8400741759508703, "learning_rate": 2.4883030757154576e-06, "loss": 0.478, "step": 1909 }, { "epoch": 0.5093333333333333, "grad_norm": 2.7770953885378837, "learning_rate": 2.4861763822167275e-06, "loss": 0.4777, "step": 1910 }, { "epoch": 0.5096, "grad_norm": 2.477228012921943, "learning_rate": 2.4840496987217465e-06, "loss": 0.392, "step": 1911 }, { "epoch": 0.5098666666666667, "grad_norm": 2.646739650866154, "learning_rate": 2.4819230267695356e-06, "loss": 0.475, "step": 1912 }, { "epoch": 0.5101333333333333, "grad_norm": 2.6962370992533664, "learning_rate": 2.4797963678991026e-06, "loss": 0.4702, "step": 1913 }, { "epoch": 0.5104, "grad_norm": 2.3964409830123325, "learning_rate": 2.4776697236494506e-06, "loss": 0.4248, "step": 1914 }, { "epoch": 0.5106666666666667, "grad_norm": 2.851579927553991, "learning_rate": 2.4755430955595707e-06, "loss": 0.4182, "step": 1915 }, { "epoch": 0.5109333333333334, "grad_norm": 2.5814428433326913, "learning_rate": 2.4734164851684387e-06, "loss": 0.4293, "step": 1916 }, { "epoch": 0.5112, "grad_norm": 3.2331085312802292, "learning_rate": 2.4712898940150233e-06, "loss": 0.5273, "step": 1917 }, { "epoch": 0.5114666666666666, "grad_norm": 2.2850645704967327, "learning_rate": 2.469163323638276e-06, "loss": 0.3811, "step": 1918 }, { "epoch": 0.5117333333333334, "grad_norm": 2.6874119636169533, "learning_rate": 2.4670367755771343e-06, "loss": 0.4172, "step": 1919 }, { "epoch": 0.512, "grad_norm": 2.8378234790849137, "learning_rate": 2.4649102513705175e-06, "loss": 0.4482, "step": 1920 }, { "epoch": 0.5122666666666666, "grad_norm": 2.775833377887015, "learning_rate": 2.4627837525573306e-06, "loss": 0.4462, "step": 1921 }, { "epoch": 0.5125333333333333, "grad_norm": 3.0191482696230487, "learning_rate": 2.4606572806764596e-06, "loss": 0.5538, "step": 1922 }, { "epoch": 0.5128, "grad_norm": 2.365948142487899, "learning_rate": 2.458530837266769e-06, "loss": 0.4256, "step": 1923 }, { "epoch": 0.5130666666666667, "grad_norm": 2.513942869632753, "learning_rate": 2.4564044238671038e-06, "loss": 0.3916, "step": 1924 }, { "epoch": 0.5133333333333333, "grad_norm": 2.771977120678539, "learning_rate": 2.4542780420162886e-06, "loss": 0.4794, "step": 1925 }, { "epoch": 0.5136, "grad_norm": 2.907463729138005, "learning_rate": 2.452151693253123e-06, "loss": 0.4475, "step": 1926 }, { "epoch": 0.5138666666666667, "grad_norm": 2.644519104884349, "learning_rate": 2.4500253791163837e-06, "loss": 0.4203, "step": 1927 }, { "epoch": 0.5141333333333333, "grad_norm": 2.6481502595575677, "learning_rate": 2.4478991011448243e-06, "loss": 0.4394, "step": 1928 }, { "epoch": 0.5144, "grad_norm": 2.4901492246994055, "learning_rate": 2.4457728608771676e-06, "loss": 0.4354, "step": 1929 }, { "epoch": 0.5146666666666667, "grad_norm": 2.6133791195298777, "learning_rate": 2.443646659852113e-06, "loss": 0.4175, "step": 1930 }, { "epoch": 0.5149333333333334, "grad_norm": 2.8459328076255996, "learning_rate": 2.4415204996083308e-06, "loss": 0.437, "step": 1931 }, { "epoch": 0.5152, "grad_norm": 3.0478893546460517, "learning_rate": 2.439394381684461e-06, "loss": 0.4707, "step": 1932 }, { "epoch": 0.5154666666666666, "grad_norm": 2.439043378752514, "learning_rate": 2.4372683076191123e-06, "loss": 0.4462, "step": 1933 }, { "epoch": 0.5157333333333334, "grad_norm": 2.7596786882994757, "learning_rate": 2.435142278950863e-06, "loss": 0.4533, "step": 1934 }, { "epoch": 0.516, "grad_norm": 2.3553212865123183, "learning_rate": 2.4330162972182605e-06, "loss": 0.4116, "step": 1935 }, { "epoch": 0.5162666666666667, "grad_norm": 2.4619441698449536, "learning_rate": 2.4308903639598118e-06, "loss": 0.3975, "step": 1936 }, { "epoch": 0.5165333333333333, "grad_norm": 2.8508561252686255, "learning_rate": 2.4287644807139952e-06, "loss": 0.4177, "step": 1937 }, { "epoch": 0.5168, "grad_norm": 2.470165381527184, "learning_rate": 2.4266386490192515e-06, "loss": 0.4496, "step": 1938 }, { "epoch": 0.5170666666666667, "grad_norm": 2.689767938635777, "learning_rate": 2.4245128704139807e-06, "loss": 0.5167, "step": 1939 }, { "epoch": 0.5173333333333333, "grad_norm": 2.6013873491945625, "learning_rate": 2.4223871464365486e-06, "loss": 0.4785, "step": 1940 }, { "epoch": 0.5176, "grad_norm": 2.6173916160187574, "learning_rate": 2.42026147862528e-06, "loss": 0.4428, "step": 1941 }, { "epoch": 0.5178666666666667, "grad_norm": 3.626912819835529, "learning_rate": 2.418135868518458e-06, "loss": 0.4452, "step": 1942 }, { "epoch": 0.5181333333333333, "grad_norm": 2.5830718188617943, "learning_rate": 2.4160103176543248e-06, "loss": 0.4126, "step": 1943 }, { "epoch": 0.5184, "grad_norm": 2.6308681499768136, "learning_rate": 2.4138848275710798e-06, "loss": 0.4921, "step": 1944 }, { "epoch": 0.5186666666666667, "grad_norm": 2.4718996178791444, "learning_rate": 2.411759399806879e-06, "loss": 0.388, "step": 1945 }, { "epoch": 0.5189333333333334, "grad_norm": 2.8730402609687804, "learning_rate": 2.409634035899831e-06, "loss": 0.4917, "step": 1946 }, { "epoch": 0.5192, "grad_norm": 2.6834975502948586, "learning_rate": 2.407508737388001e-06, "loss": 0.4518, "step": 1947 }, { "epoch": 0.5194666666666666, "grad_norm": 2.3487491912137375, "learning_rate": 2.405383505809406e-06, "loss": 0.4036, "step": 1948 }, { "epoch": 0.5197333333333334, "grad_norm": 2.5010853721954143, "learning_rate": 2.4032583427020127e-06, "loss": 0.4171, "step": 1949 }, { "epoch": 0.52, "grad_norm": 2.5504325422521275, "learning_rate": 2.401133249603741e-06, "loss": 0.4338, "step": 1950 }, { "epoch": 0.5202666666666667, "grad_norm": 2.2683953219844035, "learning_rate": 2.3990082280524597e-06, "loss": 0.4061, "step": 1951 }, { "epoch": 0.5205333333333333, "grad_norm": 2.7505244414342602, "learning_rate": 2.396883279585983e-06, "loss": 0.4162, "step": 1952 }, { "epoch": 0.5208, "grad_norm": 2.6358219942376606, "learning_rate": 2.394758405742075e-06, "loss": 0.4383, "step": 1953 }, { "epoch": 0.5210666666666667, "grad_norm": 2.595918291519641, "learning_rate": 2.392633608058446e-06, "loss": 0.4275, "step": 1954 }, { "epoch": 0.5213333333333333, "grad_norm": 2.3327108621094372, "learning_rate": 2.39050888807275e-06, "loss": 0.3893, "step": 1955 }, { "epoch": 0.5216, "grad_norm": 2.4752905092664492, "learning_rate": 2.388384247322583e-06, "loss": 0.4135, "step": 1956 }, { "epoch": 0.5218666666666667, "grad_norm": 2.6335340133490055, "learning_rate": 2.3862596873454877e-06, "loss": 0.4385, "step": 1957 }, { "epoch": 0.5221333333333333, "grad_norm": 2.424012168008536, "learning_rate": 2.3841352096789468e-06, "loss": 0.4182, "step": 1958 }, { "epoch": 0.5224, "grad_norm": 2.627656993498855, "learning_rate": 2.382010815860381e-06, "loss": 0.4578, "step": 1959 }, { "epoch": 0.5226666666666666, "grad_norm": 3.4623528024628394, "learning_rate": 2.3798865074271534e-06, "loss": 0.4102, "step": 1960 }, { "epoch": 0.5229333333333334, "grad_norm": 2.58340380801307, "learning_rate": 2.3777622859165644e-06, "loss": 0.4504, "step": 1961 }, { "epoch": 0.5232, "grad_norm": 2.517340495049269, "learning_rate": 2.3756381528658507e-06, "loss": 0.3902, "step": 1962 }, { "epoch": 0.5234666666666666, "grad_norm": 2.4786381975304743, "learning_rate": 2.3735141098121852e-06, "loss": 0.4254, "step": 1963 }, { "epoch": 0.5237333333333334, "grad_norm": 2.396190603019416, "learning_rate": 2.3713901582926778e-06, "loss": 0.3879, "step": 1964 }, { "epoch": 0.524, "grad_norm": 2.7439405548197207, "learning_rate": 2.369266299844368e-06, "loss": 0.4074, "step": 1965 }, { "epoch": 0.5242666666666667, "grad_norm": 2.433148884723189, "learning_rate": 2.3671425360042312e-06, "loss": 0.3703, "step": 1966 }, { "epoch": 0.5245333333333333, "grad_norm": 2.8900231399107588, "learning_rate": 2.365018868309174e-06, "loss": 0.5241, "step": 1967 }, { "epoch": 0.5248, "grad_norm": 2.3101178157503317, "learning_rate": 2.3628952982960333e-06, "loss": 0.3875, "step": 1968 }, { "epoch": 0.5250666666666667, "grad_norm": 2.607947244069992, "learning_rate": 2.360771827501574e-06, "loss": 0.4254, "step": 1969 }, { "epoch": 0.5253333333333333, "grad_norm": 2.5332761769299674, "learning_rate": 2.35864845746249e-06, "loss": 0.4082, "step": 1970 }, { "epoch": 0.5256, "grad_norm": 2.50046402329097, "learning_rate": 2.356525189715403e-06, "loss": 0.4203, "step": 1971 }, { "epoch": 0.5258666666666667, "grad_norm": 2.562748620505292, "learning_rate": 2.35440202579686e-06, "loss": 0.4087, "step": 1972 }, { "epoch": 0.5261333333333333, "grad_norm": 2.5284396787337498, "learning_rate": 2.352278967243332e-06, "loss": 0.4086, "step": 1973 }, { "epoch": 0.5264, "grad_norm": 4.6031488953662585, "learning_rate": 2.350156015591217e-06, "loss": 0.4566, "step": 1974 }, { "epoch": 0.5266666666666666, "grad_norm": 2.426977349146465, "learning_rate": 2.34803317237683e-06, "loss": 0.3891, "step": 1975 }, { "epoch": 0.5269333333333334, "grad_norm": 2.6951894660105835, "learning_rate": 2.3459104391364127e-06, "loss": 0.4558, "step": 1976 }, { "epoch": 0.5272, "grad_norm": 2.479020113964753, "learning_rate": 2.343787817406126e-06, "loss": 0.4181, "step": 1977 }, { "epoch": 0.5274666666666666, "grad_norm": 2.6001886465089603, "learning_rate": 2.341665308722048e-06, "loss": 0.4304, "step": 1978 }, { "epoch": 0.5277333333333334, "grad_norm": 2.689729018558113, "learning_rate": 2.3395429146201774e-06, "loss": 0.44, "step": 1979 }, { "epoch": 0.528, "grad_norm": 2.4534303777180324, "learning_rate": 2.337420636636429e-06, "loss": 0.3596, "step": 1980 }, { "epoch": 0.5282666666666667, "grad_norm": 2.500214822910843, "learning_rate": 2.3352984763066334e-06, "loss": 0.4151, "step": 1981 }, { "epoch": 0.5285333333333333, "grad_norm": 2.6657082447073095, "learning_rate": 2.333176435166536e-06, "loss": 0.4421, "step": 1982 }, { "epoch": 0.5288, "grad_norm": 2.70554896625339, "learning_rate": 2.331054514751796e-06, "loss": 0.4697, "step": 1983 }, { "epoch": 0.5290666666666667, "grad_norm": 2.392354980960584, "learning_rate": 2.3289327165979866e-06, "loss": 0.3946, "step": 1984 }, { "epoch": 0.5293333333333333, "grad_norm": 2.828468793928897, "learning_rate": 2.32681104224059e-06, "loss": 0.4486, "step": 1985 }, { "epoch": 0.5296, "grad_norm": 2.4400224772683696, "learning_rate": 2.3246894932150005e-06, "loss": 0.4281, "step": 1986 }, { "epoch": 0.5298666666666667, "grad_norm": 2.6532647992289062, "learning_rate": 2.322568071056523e-06, "loss": 0.4356, "step": 1987 }, { "epoch": 0.5301333333333333, "grad_norm": 2.5250457708354728, "learning_rate": 2.320446777300366e-06, "loss": 0.4188, "step": 1988 }, { "epoch": 0.5304, "grad_norm": 2.5424292928129275, "learning_rate": 2.318325613481651e-06, "loss": 0.4219, "step": 1989 }, { "epoch": 0.5306666666666666, "grad_norm": 2.435983413542953, "learning_rate": 2.3162045811354007e-06, "loss": 0.3974, "step": 1990 }, { "epoch": 0.5309333333333334, "grad_norm": 2.400572034255987, "learning_rate": 2.3140836817965447e-06, "loss": 0.413, "step": 1991 }, { "epoch": 0.5312, "grad_norm": 2.5507753018440695, "learning_rate": 2.3119629169999163e-06, "loss": 0.4307, "step": 1992 }, { "epoch": 0.5314666666666666, "grad_norm": 2.5965107215893823, "learning_rate": 2.309842288280251e-06, "loss": 0.4258, "step": 1993 }, { "epoch": 0.5317333333333333, "grad_norm": 2.9663078397801312, "learning_rate": 2.3077217971721875e-06, "loss": 0.4795, "step": 1994 }, { "epoch": 0.532, "grad_norm": 2.6996014545433233, "learning_rate": 2.305601445210261e-06, "loss": 0.4025, "step": 1995 }, { "epoch": 0.5322666666666667, "grad_norm": 2.5249532023765697, "learning_rate": 2.30348123392891e-06, "loss": 0.4345, "step": 1996 }, { "epoch": 0.5325333333333333, "grad_norm": 3.5571836111093083, "learning_rate": 2.3013611648624712e-06, "loss": 0.4846, "step": 1997 }, { "epoch": 0.5328, "grad_norm": 2.3402421729711724, "learning_rate": 2.299241239545174e-06, "loss": 0.3787, "step": 1998 }, { "epoch": 0.5330666666666667, "grad_norm": 2.757137861815277, "learning_rate": 2.297121459511148e-06, "loss": 0.4576, "step": 1999 }, { "epoch": 0.5333333333333333, "grad_norm": 2.6841950227137783, "learning_rate": 2.295001826294416e-06, "loss": 0.4681, "step": 2000 }, { "epoch": 0.5336, "grad_norm": 2.5628708063115853, "learning_rate": 2.2928823414288954e-06, "loss": 0.3819, "step": 2001 }, { "epoch": 0.5338666666666667, "grad_norm": 2.698572596545802, "learning_rate": 2.2907630064483947e-06, "loss": 0.4432, "step": 2002 }, { "epoch": 0.5341333333333333, "grad_norm": 3.309250702095396, "learning_rate": 2.2886438228866156e-06, "loss": 0.5014, "step": 2003 }, { "epoch": 0.5344, "grad_norm": 3.039104353636787, "learning_rate": 2.2865247922771506e-06, "loss": 0.532, "step": 2004 }, { "epoch": 0.5346666666666666, "grad_norm": 2.5645573832713975, "learning_rate": 2.2844059161534785e-06, "loss": 0.4036, "step": 2005 }, { "epoch": 0.5349333333333334, "grad_norm": 2.4940162434387054, "learning_rate": 2.2822871960489685e-06, "loss": 0.4527, "step": 2006 }, { "epoch": 0.5352, "grad_norm": 2.447957628080551, "learning_rate": 2.280168633496879e-06, "loss": 0.4107, "step": 2007 }, { "epoch": 0.5354666666666666, "grad_norm": 2.3240347660843494, "learning_rate": 2.278050230030349e-06, "loss": 0.402, "step": 2008 }, { "epoch": 0.5357333333333333, "grad_norm": 2.6702978610493453, "learning_rate": 2.275931987182408e-06, "loss": 0.4314, "step": 2009 }, { "epoch": 0.536, "grad_norm": 2.749234626357234, "learning_rate": 2.2738139064859652e-06, "loss": 0.4149, "step": 2010 }, { "epoch": 0.5362666666666667, "grad_norm": 2.755437987029103, "learning_rate": 2.2716959894738137e-06, "loss": 0.4791, "step": 2011 }, { "epoch": 0.5365333333333333, "grad_norm": 2.5552227834262338, "learning_rate": 2.2695782376786284e-06, "loss": 0.4839, "step": 2012 }, { "epoch": 0.5368, "grad_norm": 2.5907948137081336, "learning_rate": 2.2674606526329664e-06, "loss": 0.4249, "step": 2013 }, { "epoch": 0.5370666666666667, "grad_norm": 2.334174601172514, "learning_rate": 2.2653432358692603e-06, "loss": 0.3547, "step": 2014 }, { "epoch": 0.5373333333333333, "grad_norm": 2.618661204267193, "learning_rate": 2.2632259889198236e-06, "loss": 0.4211, "step": 2015 }, { "epoch": 0.5376, "grad_norm": 2.5711921262850552, "learning_rate": 2.2611089133168465e-06, "loss": 0.4554, "step": 2016 }, { "epoch": 0.5378666666666667, "grad_norm": 2.390000779393162, "learning_rate": 2.258992010592396e-06, "loss": 0.3972, "step": 2017 }, { "epoch": 0.5381333333333334, "grad_norm": 2.547044137539703, "learning_rate": 2.2568752822784115e-06, "loss": 0.4193, "step": 2018 }, { "epoch": 0.5384, "grad_norm": 2.86739564579193, "learning_rate": 2.2547587299067074e-06, "loss": 0.4812, "step": 2019 }, { "epoch": 0.5386666666666666, "grad_norm": 2.6952085120372034, "learning_rate": 2.252642355008973e-06, "loss": 0.434, "step": 2020 }, { "epoch": 0.5389333333333334, "grad_norm": 2.876634276851004, "learning_rate": 2.2505261591167648e-06, "loss": 0.4347, "step": 2021 }, { "epoch": 0.5392, "grad_norm": 2.472742893885433, "learning_rate": 2.248410143761513e-06, "loss": 0.3802, "step": 2022 }, { "epoch": 0.5394666666666666, "grad_norm": 3.7451322035109564, "learning_rate": 2.2462943104745183e-06, "loss": 0.428, "step": 2023 }, { "epoch": 0.5397333333333333, "grad_norm": 2.596560387788704, "learning_rate": 2.2441786607869446e-06, "loss": 0.3937, "step": 2024 }, { "epoch": 0.54, "grad_norm": 2.553733170881301, "learning_rate": 2.2420631962298276e-06, "loss": 0.475, "step": 2025 }, { "epoch": 0.5402666666666667, "grad_norm": 3.244427604384635, "learning_rate": 2.239947918334068e-06, "loss": 0.454, "step": 2026 }, { "epoch": 0.5405333333333333, "grad_norm": 2.369605830091367, "learning_rate": 2.237832828630429e-06, "loss": 0.4092, "step": 2027 }, { "epoch": 0.5408, "grad_norm": 2.74401716865118, "learning_rate": 2.235717928649541e-06, "loss": 0.4226, "step": 2028 }, { "epoch": 0.5410666666666667, "grad_norm": 2.617327215716713, "learning_rate": 2.233603219921895e-06, "loss": 0.418, "step": 2029 }, { "epoch": 0.5413333333333333, "grad_norm": 2.564733870648377, "learning_rate": 2.231488703977845e-06, "loss": 0.3917, "step": 2030 }, { "epoch": 0.5416, "grad_norm": 2.7397304305170045, "learning_rate": 2.2293743823476027e-06, "loss": 0.4544, "step": 2031 }, { "epoch": 0.5418666666666667, "grad_norm": 2.8059798243318737, "learning_rate": 2.2272602565612424e-06, "loss": 0.4694, "step": 2032 }, { "epoch": 0.5421333333333334, "grad_norm": 2.539786660303617, "learning_rate": 2.225146328148696e-06, "loss": 0.4076, "step": 2033 }, { "epoch": 0.5424, "grad_norm": 2.5921565493660204, "learning_rate": 2.22303259863975e-06, "loss": 0.3823, "step": 2034 }, { "epoch": 0.5426666666666666, "grad_norm": 2.336974309457325, "learning_rate": 2.2209190695640505e-06, "loss": 0.3938, "step": 2035 }, { "epoch": 0.5429333333333334, "grad_norm": 2.476270058118478, "learning_rate": 2.2188057424510977e-06, "loss": 0.3993, "step": 2036 }, { "epoch": 0.5432, "grad_norm": 2.5554749580589253, "learning_rate": 2.216692618830243e-06, "loss": 0.4262, "step": 2037 }, { "epoch": 0.5434666666666667, "grad_norm": 2.7685632968174834, "learning_rate": 2.2145797002306937e-06, "loss": 0.4471, "step": 2038 }, { "epoch": 0.5437333333333333, "grad_norm": 2.551800688848467, "learning_rate": 2.2124669881815066e-06, "loss": 0.4245, "step": 2039 }, { "epoch": 0.544, "grad_norm": 2.617606674878853, "learning_rate": 2.21035448421159e-06, "loss": 0.3814, "step": 2040 }, { "epoch": 0.5442666666666667, "grad_norm": 3.2251050990579078, "learning_rate": 2.2082421898497027e-06, "loss": 0.4363, "step": 2041 }, { "epoch": 0.5445333333333333, "grad_norm": 2.4175315870390657, "learning_rate": 2.206130106624449e-06, "loss": 0.4173, "step": 2042 }, { "epoch": 0.5448, "grad_norm": 2.5979243451574208, "learning_rate": 2.204018236064284e-06, "loss": 0.4018, "step": 2043 }, { "epoch": 0.5450666666666667, "grad_norm": 2.668384601516308, "learning_rate": 2.201906579697505e-06, "loss": 0.419, "step": 2044 }, { "epoch": 0.5453333333333333, "grad_norm": 2.474052558821411, "learning_rate": 2.1997951390522564e-06, "loss": 0.412, "step": 2045 }, { "epoch": 0.5456, "grad_norm": 2.6498272390110613, "learning_rate": 2.197683915656529e-06, "loss": 0.4402, "step": 2046 }, { "epoch": 0.5458666666666666, "grad_norm": 2.7533289615262384, "learning_rate": 2.1955729110381507e-06, "loss": 0.4482, "step": 2047 }, { "epoch": 0.5461333333333334, "grad_norm": 2.6140638040640964, "learning_rate": 2.1934621267247945e-06, "loss": 0.4506, "step": 2048 }, { "epoch": 0.5464, "grad_norm": 2.498825161542844, "learning_rate": 2.1913515642439755e-06, "loss": 0.4342, "step": 2049 }, { "epoch": 0.5466666666666666, "grad_norm": 3.1244013309238787, "learning_rate": 2.189241225123044e-06, "loss": 0.4001, "step": 2050 }, { "epoch": 0.5469333333333334, "grad_norm": 2.4100499490527567, "learning_rate": 2.1871311108891917e-06, "loss": 0.3625, "step": 2051 }, { "epoch": 0.5472, "grad_norm": 2.5369405392063467, "learning_rate": 2.1850212230694485e-06, "loss": 0.438, "step": 2052 }, { "epoch": 0.5474666666666667, "grad_norm": 2.595697601187948, "learning_rate": 2.182911563190676e-06, "loss": 0.4134, "step": 2053 }, { "epoch": 0.5477333333333333, "grad_norm": 2.6771102184268445, "learning_rate": 2.1808021327795753e-06, "loss": 0.4202, "step": 2054 }, { "epoch": 0.548, "grad_norm": 2.5251701418397454, "learning_rate": 2.17869293336268e-06, "loss": 0.4072, "step": 2055 }, { "epoch": 0.5482666666666667, "grad_norm": 2.3628931210234447, "learning_rate": 2.176583966466356e-06, "loss": 0.3914, "step": 2056 }, { "epoch": 0.5485333333333333, "grad_norm": 2.504142254132756, "learning_rate": 2.1744752336168017e-06, "loss": 0.4265, "step": 2057 }, { "epoch": 0.5488, "grad_norm": 2.309791359916138, "learning_rate": 2.172366736340044e-06, "loss": 0.401, "step": 2058 }, { "epoch": 0.5490666666666667, "grad_norm": 2.4071456759194567, "learning_rate": 2.1702584761619437e-06, "loss": 0.3906, "step": 2059 }, { "epoch": 0.5493333333333333, "grad_norm": 2.7386479953130825, "learning_rate": 2.1681504546081844e-06, "loss": 0.4134, "step": 2060 }, { "epoch": 0.5496, "grad_norm": 2.361437649794465, "learning_rate": 2.1660426732042813e-06, "loss": 0.4016, "step": 2061 }, { "epoch": 0.5498666666666666, "grad_norm": 2.64890806665946, "learning_rate": 2.1639351334755756e-06, "loss": 0.435, "step": 2062 }, { "epoch": 0.5501333333333334, "grad_norm": 2.4354798430314655, "learning_rate": 2.1618278369472297e-06, "loss": 0.3641, "step": 2063 }, { "epoch": 0.5504, "grad_norm": 2.698690664886776, "learning_rate": 2.1597207851442346e-06, "loss": 0.4553, "step": 2064 }, { "epoch": 0.5506666666666666, "grad_norm": 2.5077633660326883, "learning_rate": 2.157613979591404e-06, "loss": 0.3996, "step": 2065 }, { "epoch": 0.5509333333333334, "grad_norm": 2.4561472969893794, "learning_rate": 2.1555074218133677e-06, "loss": 0.3757, "step": 2066 }, { "epoch": 0.5512, "grad_norm": 2.6927414463319637, "learning_rate": 2.1534011133345836e-06, "loss": 0.4589, "step": 2067 }, { "epoch": 0.5514666666666667, "grad_norm": 2.6630625266161996, "learning_rate": 2.151295055679324e-06, "loss": 0.4503, "step": 2068 }, { "epoch": 0.5517333333333333, "grad_norm": 2.540902131974641, "learning_rate": 2.1491892503716834e-06, "loss": 0.4221, "step": 2069 }, { "epoch": 0.552, "grad_norm": 2.6300618853878084, "learning_rate": 2.1470836989355687e-06, "loss": 0.4426, "step": 2070 }, { "epoch": 0.5522666666666667, "grad_norm": 2.532209355005413, "learning_rate": 2.1449784028947086e-06, "loss": 0.4534, "step": 2071 }, { "epoch": 0.5525333333333333, "grad_norm": 2.752941969394289, "learning_rate": 2.1428733637726456e-06, "loss": 0.4182, "step": 2072 }, { "epoch": 0.5528, "grad_norm": 2.4144610650068996, "learning_rate": 2.1407685830927314e-06, "loss": 0.3679, "step": 2073 }, { "epoch": 0.5530666666666667, "grad_norm": 2.854534990621284, "learning_rate": 2.1386640623781378e-06, "loss": 0.4792, "step": 2074 }, { "epoch": 0.5533333333333333, "grad_norm": 2.563077481835282, "learning_rate": 2.1365598031518446e-06, "loss": 0.4166, "step": 2075 }, { "epoch": 0.5536, "grad_norm": 2.868661834153667, "learning_rate": 2.1344558069366423e-06, "loss": 0.4757, "step": 2076 }, { "epoch": 0.5538666666666666, "grad_norm": 3.1177293585766286, "learning_rate": 2.1323520752551314e-06, "loss": 0.4592, "step": 2077 }, { "epoch": 0.5541333333333334, "grad_norm": 2.641953973474128, "learning_rate": 2.1302486096297216e-06, "loss": 0.4641, "step": 2078 }, { "epoch": 0.5544, "grad_norm": 2.354696830226298, "learning_rate": 2.1281454115826313e-06, "loss": 0.376, "step": 2079 }, { "epoch": 0.5546666666666666, "grad_norm": 2.5368451612531193, "learning_rate": 2.1260424826358806e-06, "loss": 0.4329, "step": 2080 }, { "epoch": 0.5549333333333333, "grad_norm": 2.6845428191469938, "learning_rate": 2.1239398243113e-06, "loss": 0.4412, "step": 2081 }, { "epoch": 0.5552, "grad_norm": 2.828879350159909, "learning_rate": 2.1218374381305234e-06, "loss": 0.4792, "step": 2082 }, { "epoch": 0.5554666666666667, "grad_norm": 2.982013905954617, "learning_rate": 2.119735325614983e-06, "loss": 0.4324, "step": 2083 }, { "epoch": 0.5557333333333333, "grad_norm": 2.2055220978178567, "learning_rate": 2.1176334882859196e-06, "loss": 0.3929, "step": 2084 }, { "epoch": 0.556, "grad_norm": 2.8430059233313556, "learning_rate": 2.11553192766437e-06, "loss": 0.4897, "step": 2085 }, { "epoch": 0.5562666666666667, "grad_norm": 2.400789004324637, "learning_rate": 2.113430645271173e-06, "loss": 0.3993, "step": 2086 }, { "epoch": 0.5565333333333333, "grad_norm": 2.5477300582419216, "learning_rate": 2.1113296426269646e-06, "loss": 0.4224, "step": 2087 }, { "epoch": 0.5568, "grad_norm": 2.5838047375773523, "learning_rate": 2.1092289212521815e-06, "loss": 0.4214, "step": 2088 }, { "epoch": 0.5570666666666667, "grad_norm": 2.46008086917865, "learning_rate": 2.107128482667052e-06, "loss": 0.4177, "step": 2089 }, { "epoch": 0.5573333333333333, "grad_norm": 2.291151703225371, "learning_rate": 2.1050283283916033e-06, "loss": 0.3712, "step": 2090 }, { "epoch": 0.5576, "grad_norm": 2.6245027685624263, "learning_rate": 2.102928459945656e-06, "loss": 0.4623, "step": 2091 }, { "epoch": 0.5578666666666666, "grad_norm": 3.074202823876614, "learning_rate": 2.1008288788488255e-06, "loss": 0.5044, "step": 2092 }, { "epoch": 0.5581333333333334, "grad_norm": 2.556049679350258, "learning_rate": 2.0987295866205146e-06, "loss": 0.4096, "step": 2093 }, { "epoch": 0.5584, "grad_norm": 2.542208187685236, "learning_rate": 2.0966305847799216e-06, "loss": 0.4253, "step": 2094 }, { "epoch": 0.5586666666666666, "grad_norm": 2.530543872231399, "learning_rate": 2.094531874846033e-06, "loss": 0.4129, "step": 2095 }, { "epoch": 0.5589333333333333, "grad_norm": 2.4159945451912783, "learning_rate": 2.0924334583376236e-06, "loss": 0.4023, "step": 2096 }, { "epoch": 0.5592, "grad_norm": 2.41804106768776, "learning_rate": 2.0903353367732564e-06, "loss": 0.3709, "step": 2097 }, { "epoch": 0.5594666666666667, "grad_norm": 2.35494382283674, "learning_rate": 2.088237511671282e-06, "loss": 0.3932, "step": 2098 }, { "epoch": 0.5597333333333333, "grad_norm": 2.36401076755346, "learning_rate": 2.0861399845498332e-06, "loss": 0.3708, "step": 2099 }, { "epoch": 0.56, "grad_norm": 2.4981968872579885, "learning_rate": 2.0840427569268306e-06, "loss": 0.4479, "step": 2100 }, { "epoch": 0.5602666666666667, "grad_norm": 2.646838338283215, "learning_rate": 2.0819458303199776e-06, "loss": 0.456, "step": 2101 }, { "epoch": 0.5605333333333333, "grad_norm": 2.669602803088497, "learning_rate": 2.079849206246757e-06, "loss": 0.4887, "step": 2102 }, { "epoch": 0.5608, "grad_norm": 2.595579652286932, "learning_rate": 2.077752886224436e-06, "loss": 0.4508, "step": 2103 }, { "epoch": 0.5610666666666667, "grad_norm": 2.635416015531328, "learning_rate": 2.0756568717700608e-06, "loss": 0.4142, "step": 2104 }, { "epoch": 0.5613333333333334, "grad_norm": 2.2711810678795987, "learning_rate": 2.0735611644004552e-06, "loss": 0.3642, "step": 2105 }, { "epoch": 0.5616, "grad_norm": 2.357177015145926, "learning_rate": 2.0714657656322214e-06, "loss": 0.3959, "step": 2106 }, { "epoch": 0.5618666666666666, "grad_norm": 2.8560283367403656, "learning_rate": 2.069370676981738e-06, "loss": 0.448, "step": 2107 }, { "epoch": 0.5621333333333334, "grad_norm": 2.589055054787894, "learning_rate": 2.0672758999651623e-06, "loss": 0.431, "step": 2108 }, { "epoch": 0.5624, "grad_norm": 4.153691484731323, "learning_rate": 2.06518143609842e-06, "loss": 0.3958, "step": 2109 }, { "epoch": 0.5626666666666666, "grad_norm": 2.4535210040906223, "learning_rate": 2.0630872868972154e-06, "loss": 0.3762, "step": 2110 }, { "epoch": 0.5629333333333333, "grad_norm": 2.542497613427436, "learning_rate": 2.0609934538770244e-06, "loss": 0.4491, "step": 2111 }, { "epoch": 0.5632, "grad_norm": 2.3050962606755956, "learning_rate": 2.0588999385530904e-06, "loss": 0.3886, "step": 2112 }, { "epoch": 0.5634666666666667, "grad_norm": 2.3875548612713184, "learning_rate": 2.056806742440432e-06, "loss": 0.4065, "step": 2113 }, { "epoch": 0.5637333333333333, "grad_norm": 2.506354402515714, "learning_rate": 2.0547138670538328e-06, "loss": 0.4112, "step": 2114 }, { "epoch": 0.564, "grad_norm": 2.3855121170676257, "learning_rate": 2.0526213139078463e-06, "loss": 0.4133, "step": 2115 }, { "epoch": 0.5642666666666667, "grad_norm": 2.7878865028480027, "learning_rate": 2.0505290845167915e-06, "loss": 0.4377, "step": 2116 }, { "epoch": 0.5645333333333333, "grad_norm": 2.5407021601457105, "learning_rate": 2.048437180394755e-06, "loss": 0.3892, "step": 2117 }, { "epoch": 0.5648, "grad_norm": 2.549435173375906, "learning_rate": 2.046345603055587e-06, "loss": 0.4231, "step": 2118 }, { "epoch": 0.5650666666666667, "grad_norm": 2.3896774720617344, "learning_rate": 2.0442543540129e-06, "loss": 0.39, "step": 2119 }, { "epoch": 0.5653333333333334, "grad_norm": 2.681401203412108, "learning_rate": 2.0421634347800706e-06, "loss": 0.4413, "step": 2120 }, { "epoch": 0.5656, "grad_norm": 2.7286025880978717, "learning_rate": 2.0400728468702376e-06, "loss": 0.4063, "step": 2121 }, { "epoch": 0.5658666666666666, "grad_norm": 2.8464770457959827, "learning_rate": 2.037982591796296e-06, "loss": 0.4674, "step": 2122 }, { "epoch": 0.5661333333333334, "grad_norm": 2.666839859528723, "learning_rate": 2.0358926710709043e-06, "loss": 0.4242, "step": 2123 }, { "epoch": 0.5664, "grad_norm": 2.4640650311900982, "learning_rate": 2.0338030862064773e-06, "loss": 0.4256, "step": 2124 }, { "epoch": 0.5666666666666667, "grad_norm": 2.979253986283452, "learning_rate": 2.031713838715186e-06, "loss": 0.5119, "step": 2125 }, { "epoch": 0.5669333333333333, "grad_norm": 2.682750007767583, "learning_rate": 2.0296249301089577e-06, "loss": 0.3871, "step": 2126 }, { "epoch": 0.5672, "grad_norm": 2.6388838087643256, "learning_rate": 2.0275363618994763e-06, "loss": 0.428, "step": 2127 }, { "epoch": 0.5674666666666667, "grad_norm": 3.4575179806241767, "learning_rate": 2.0254481355981763e-06, "loss": 0.4045, "step": 2128 }, { "epoch": 0.5677333333333333, "grad_norm": 2.397037064408643, "learning_rate": 2.023360252716246e-06, "loss": 0.398, "step": 2129 }, { "epoch": 0.568, "grad_norm": 2.1910596931901734, "learning_rate": 2.021272714764627e-06, "loss": 0.3559, "step": 2130 }, { "epoch": 0.5682666666666667, "grad_norm": 2.6830821955609756, "learning_rate": 2.01918552325401e-06, "loss": 0.4426, "step": 2131 }, { "epoch": 0.5685333333333333, "grad_norm": 2.847826357087816, "learning_rate": 2.0170986796948327e-06, "loss": 0.4632, "step": 2132 }, { "epoch": 0.5688, "grad_norm": 2.760298286215174, "learning_rate": 2.0150121855972847e-06, "loss": 0.4596, "step": 2133 }, { "epoch": 0.5690666666666667, "grad_norm": 2.4740994333305313, "learning_rate": 2.012926042471301e-06, "loss": 0.3724, "step": 2134 }, { "epoch": 0.5693333333333334, "grad_norm": 2.4655471164166447, "learning_rate": 2.0108402518265613e-06, "loss": 0.4112, "step": 2135 }, { "epoch": 0.5696, "grad_norm": 2.5271680091662, "learning_rate": 2.008754815172492e-06, "loss": 0.4287, "step": 2136 }, { "epoch": 0.5698666666666666, "grad_norm": 2.401153177011846, "learning_rate": 2.006669734018265e-06, "loss": 0.3958, "step": 2137 }, { "epoch": 0.5701333333333334, "grad_norm": 2.5886816188993023, "learning_rate": 2.0045850098727895e-06, "loss": 0.3931, "step": 2138 }, { "epoch": 0.5704, "grad_norm": 2.6134644067197046, "learning_rate": 2.0025006442447215e-06, "loss": 0.4447, "step": 2139 }, { "epoch": 0.5706666666666667, "grad_norm": 2.805231945332643, "learning_rate": 2.000416638642456e-06, "loss": 0.3889, "step": 2140 }, { "epoch": 0.5709333333333333, "grad_norm": 2.611848921445149, "learning_rate": 1.998332994574127e-06, "loss": 0.4456, "step": 2141 }, { "epoch": 0.5712, "grad_norm": 2.5789366691769207, "learning_rate": 1.9962497135476067e-06, "loss": 0.3919, "step": 2142 }, { "epoch": 0.5714666666666667, "grad_norm": 3.1001220614560885, "learning_rate": 1.9941667970705045e-06, "loss": 0.4786, "step": 2143 }, { "epoch": 0.5717333333333333, "grad_norm": 2.585821004717584, "learning_rate": 1.992084246650168e-06, "loss": 0.4436, "step": 2144 }, { "epoch": 0.572, "grad_norm": 2.468054491532933, "learning_rate": 1.990002063793676e-06, "loss": 0.4159, "step": 2145 }, { "epoch": 0.5722666666666667, "grad_norm": 2.314719595577697, "learning_rate": 1.9879202500078453e-06, "loss": 0.3807, "step": 2146 }, { "epoch": 0.5725333333333333, "grad_norm": 2.448622896436422, "learning_rate": 1.9858388067992248e-06, "loss": 0.397, "step": 2147 }, { "epoch": 0.5728, "grad_norm": 2.4525450001501867, "learning_rate": 1.9837577356740918e-06, "loss": 0.4102, "step": 2148 }, { "epoch": 0.5730666666666666, "grad_norm": 7.073462706661511, "learning_rate": 1.9816770381384576e-06, "loss": 0.4258, "step": 2149 }, { "epoch": 0.5733333333333334, "grad_norm": 2.4005956162137165, "learning_rate": 1.979596715698065e-06, "loss": 0.4077, "step": 2150 }, { "epoch": 0.5736, "grad_norm": 3.1835294402248873, "learning_rate": 1.9775167698583792e-06, "loss": 0.4887, "step": 2151 }, { "epoch": 0.5738666666666666, "grad_norm": 2.51787177472062, "learning_rate": 1.975437202124599e-06, "loss": 0.417, "step": 2152 }, { "epoch": 0.5741333333333334, "grad_norm": 2.9346397878249633, "learning_rate": 1.9733580140016458e-06, "loss": 0.4655, "step": 2153 }, { "epoch": 0.5744, "grad_norm": 2.3863546963809967, "learning_rate": 1.9712792069941687e-06, "loss": 0.4126, "step": 2154 }, { "epoch": 0.5746666666666667, "grad_norm": 2.261617331916262, "learning_rate": 1.9692007826065376e-06, "loss": 0.362, "step": 2155 }, { "epoch": 0.5749333333333333, "grad_norm": 3.0883046237105933, "learning_rate": 1.967122742342849e-06, "loss": 0.4041, "step": 2156 }, { "epoch": 0.5752, "grad_norm": 2.5100035764987636, "learning_rate": 1.9650450877069223e-06, "loss": 0.393, "step": 2157 }, { "epoch": 0.5754666666666667, "grad_norm": 2.4577561164341244, "learning_rate": 1.9629678202022916e-06, "loss": 0.3812, "step": 2158 }, { "epoch": 0.5757333333333333, "grad_norm": 2.734856150109731, "learning_rate": 1.9608909413322175e-06, "loss": 0.4346, "step": 2159 }, { "epoch": 0.576, "grad_norm": 2.312230722634441, "learning_rate": 1.958814452599677e-06, "loss": 0.4084, "step": 2160 }, { "epoch": 0.5762666666666667, "grad_norm": 2.367076194543778, "learning_rate": 1.956738355507363e-06, "loss": 0.3603, "step": 2161 }, { "epoch": 0.5765333333333333, "grad_norm": 2.632711588077396, "learning_rate": 1.9546626515576876e-06, "loss": 0.443, "step": 2162 }, { "epoch": 0.5768, "grad_norm": 2.44296094790109, "learning_rate": 1.9525873422527773e-06, "loss": 0.3771, "step": 2163 }, { "epoch": 0.5770666666666666, "grad_norm": 2.3119911807757405, "learning_rate": 1.950512429094473e-06, "loss": 0.3735, "step": 2164 }, { "epoch": 0.5773333333333334, "grad_norm": 2.5600898190666994, "learning_rate": 1.9484379135843274e-06, "loss": 0.3904, "step": 2165 }, { "epoch": 0.5776, "grad_norm": 2.343823362022501, "learning_rate": 1.9463637972236086e-06, "loss": 0.4373, "step": 2166 }, { "epoch": 0.5778666666666666, "grad_norm": 2.632929928391545, "learning_rate": 1.9442900815132957e-06, "loss": 0.4121, "step": 2167 }, { "epoch": 0.5781333333333334, "grad_norm": 2.9229852029793237, "learning_rate": 1.942216767954073e-06, "loss": 0.443, "step": 2168 }, { "epoch": 0.5784, "grad_norm": 2.7953985903527045, "learning_rate": 1.940143858046339e-06, "loss": 0.4069, "step": 2169 }, { "epoch": 0.5786666666666667, "grad_norm": 2.4956999909471667, "learning_rate": 1.938071353290199e-06, "loss": 0.4052, "step": 2170 }, { "epoch": 0.5789333333333333, "grad_norm": 2.476189816770219, "learning_rate": 1.9359992551854635e-06, "loss": 0.384, "step": 2171 }, { "epoch": 0.5792, "grad_norm": 2.678757593866926, "learning_rate": 1.9339275652316484e-06, "loss": 0.4322, "step": 2172 }, { "epoch": 0.5794666666666667, "grad_norm": 2.8384347428835515, "learning_rate": 1.9318562849279774e-06, "loss": 0.4139, "step": 2173 }, { "epoch": 0.5797333333333333, "grad_norm": 2.504810094028792, "learning_rate": 1.929785415773375e-06, "loss": 0.4188, "step": 2174 }, { "epoch": 0.58, "grad_norm": 2.3929041941480196, "learning_rate": 1.9277149592664676e-06, "loss": 0.4078, "step": 2175 }, { "epoch": 0.5802666666666667, "grad_norm": 2.6468383059018605, "learning_rate": 1.925644916905587e-06, "loss": 0.4314, "step": 2176 }, { "epoch": 0.5805333333333333, "grad_norm": 2.5241598056544263, "learning_rate": 1.9235752901887605e-06, "loss": 0.3649, "step": 2177 }, { "epoch": 0.5808, "grad_norm": 2.2465589135148556, "learning_rate": 1.921506080613717e-06, "loss": 0.4171, "step": 2178 }, { "epoch": 0.5810666666666666, "grad_norm": 2.416159097243735, "learning_rate": 1.919437289677884e-06, "loss": 0.4125, "step": 2179 }, { "epoch": 0.5813333333333334, "grad_norm": 2.956394831930318, "learning_rate": 1.917368918878385e-06, "loss": 0.4498, "step": 2180 }, { "epoch": 0.5816, "grad_norm": 2.548874320078301, "learning_rate": 1.91530096971204e-06, "loss": 0.4499, "step": 2181 }, { "epoch": 0.5818666666666666, "grad_norm": 2.4730123614040482, "learning_rate": 1.9132334436753623e-06, "loss": 0.4367, "step": 2182 }, { "epoch": 0.5821333333333333, "grad_norm": 2.8163115450660903, "learning_rate": 1.9111663422645624e-06, "loss": 0.4347, "step": 2183 }, { "epoch": 0.5824, "grad_norm": 2.700810223835112, "learning_rate": 1.909099666975539e-06, "loss": 0.4564, "step": 2184 }, { "epoch": 0.5826666666666667, "grad_norm": 2.5360358972604096, "learning_rate": 1.9070334193038863e-06, "loss": 0.437, "step": 2185 }, { "epoch": 0.5829333333333333, "grad_norm": 2.5004785866392822, "learning_rate": 1.9049676007448886e-06, "loss": 0.4158, "step": 2186 }, { "epoch": 0.5832, "grad_norm": 2.6146169232929632, "learning_rate": 1.9029022127935161e-06, "loss": 0.4301, "step": 2187 }, { "epoch": 0.5834666666666667, "grad_norm": 2.4796905474820474, "learning_rate": 1.9008372569444317e-06, "loss": 0.4457, "step": 2188 }, { "epoch": 0.5837333333333333, "grad_norm": 2.45341413976034, "learning_rate": 1.8987727346919843e-06, "loss": 0.4098, "step": 2189 }, { "epoch": 0.584, "grad_norm": 2.4420885018122607, "learning_rate": 1.8967086475302065e-06, "loss": 0.3763, "step": 2190 }, { "epoch": 0.5842666666666667, "grad_norm": 2.1700394586214227, "learning_rate": 1.89464499695282e-06, "loss": 0.3489, "step": 2191 }, { "epoch": 0.5845333333333333, "grad_norm": 2.292494304950524, "learning_rate": 1.8925817844532273e-06, "loss": 0.3773, "step": 2192 }, { "epoch": 0.5848, "grad_norm": 2.306842124473414, "learning_rate": 1.890519011524517e-06, "loss": 0.3771, "step": 2193 }, { "epoch": 0.5850666666666666, "grad_norm": 2.237639057913189, "learning_rate": 1.8884566796594555e-06, "loss": 0.3407, "step": 2194 }, { "epoch": 0.5853333333333334, "grad_norm": 2.628660933246142, "learning_rate": 1.8863947903504938e-06, "loss": 0.4291, "step": 2195 }, { "epoch": 0.5856, "grad_norm": 2.657024523023687, "learning_rate": 1.8843333450897616e-06, "loss": 0.3985, "step": 2196 }, { "epoch": 0.5858666666666666, "grad_norm": 2.384177250230262, "learning_rate": 1.8822723453690653e-06, "loss": 0.416, "step": 2197 }, { "epoch": 0.5861333333333333, "grad_norm": 2.41275143736667, "learning_rate": 1.8802117926798913e-06, "loss": 0.3994, "step": 2198 }, { "epoch": 0.5864, "grad_norm": 2.2560684741506365, "learning_rate": 1.8781516885134025e-06, "loss": 0.364, "step": 2199 }, { "epoch": 0.5866666666666667, "grad_norm": 2.377927642785843, "learning_rate": 1.8760920343604348e-06, "loss": 0.3779, "step": 2200 }, { "epoch": 0.5869333333333333, "grad_norm": 2.8694422409442453, "learning_rate": 1.8740328317114998e-06, "loss": 0.4792, "step": 2201 }, { "epoch": 0.5872, "grad_norm": 2.599317509196582, "learning_rate": 1.8719740820567836e-06, "loss": 0.3977, "step": 2202 }, { "epoch": 0.5874666666666667, "grad_norm": 2.570958220592438, "learning_rate": 1.869915786886144e-06, "loss": 0.4031, "step": 2203 }, { "epoch": 0.5877333333333333, "grad_norm": 3.26482501082063, "learning_rate": 1.867857947689107e-06, "loss": 0.4191, "step": 2204 }, { "epoch": 0.588, "grad_norm": 2.8736810518649296, "learning_rate": 1.8658005659548726e-06, "loss": 0.456, "step": 2205 }, { "epoch": 0.5882666666666667, "grad_norm": 2.706545802011538, "learning_rate": 1.8637436431723086e-06, "loss": 0.3836, "step": 2206 }, { "epoch": 0.5885333333333334, "grad_norm": 2.652578609129696, "learning_rate": 1.861687180829948e-06, "loss": 0.4366, "step": 2207 }, { "epoch": 0.5888, "grad_norm": 2.7684914219009102, "learning_rate": 1.859631180415995e-06, "loss": 0.4586, "step": 2208 }, { "epoch": 0.5890666666666666, "grad_norm": 2.237339767131411, "learning_rate": 1.8575756434183162e-06, "loss": 0.3926, "step": 2209 }, { "epoch": 0.5893333333333334, "grad_norm": 2.4338742153041477, "learning_rate": 1.8555205713244437e-06, "loss": 0.4022, "step": 2210 }, { "epoch": 0.5896, "grad_norm": 2.829118136020922, "learning_rate": 1.8534659656215731e-06, "loss": 0.4288, "step": 2211 }, { "epoch": 0.5898666666666667, "grad_norm": 2.5639594617382593, "learning_rate": 1.8514118277965642e-06, "loss": 0.4014, "step": 2212 }, { "epoch": 0.5901333333333333, "grad_norm": 3.41546868690827, "learning_rate": 1.849358159335935e-06, "loss": 0.44, "step": 2213 }, { "epoch": 0.5904, "grad_norm": 2.457889807505658, "learning_rate": 1.8473049617258661e-06, "loss": 0.3972, "step": 2214 }, { "epoch": 0.5906666666666667, "grad_norm": 2.610666097836363, "learning_rate": 1.8452522364521973e-06, "loss": 0.4228, "step": 2215 }, { "epoch": 0.5909333333333333, "grad_norm": 2.4220253317123976, "learning_rate": 1.843199985000427e-06, "loss": 0.3818, "step": 2216 }, { "epoch": 0.5912, "grad_norm": 2.3878709917073424, "learning_rate": 1.8411482088557078e-06, "loss": 0.3834, "step": 2217 }, { "epoch": 0.5914666666666667, "grad_norm": 2.6355018778835477, "learning_rate": 1.8390969095028515e-06, "loss": 0.4113, "step": 2218 }, { "epoch": 0.5917333333333333, "grad_norm": 2.5597735575758622, "learning_rate": 1.8370460884263242e-06, "loss": 0.3847, "step": 2219 }, { "epoch": 0.592, "grad_norm": 2.3696618161883767, "learning_rate": 1.8349957471102442e-06, "loss": 0.3828, "step": 2220 }, { "epoch": 0.5922666666666667, "grad_norm": 2.582453395594233, "learning_rate": 1.8329458870383843e-06, "loss": 0.4869, "step": 2221 }, { "epoch": 0.5925333333333334, "grad_norm": 2.704482788230297, "learning_rate": 1.8308965096941694e-06, "loss": 0.4696, "step": 2222 }, { "epoch": 0.5928, "grad_norm": 2.331241049039064, "learning_rate": 1.8288476165606728e-06, "loss": 0.4096, "step": 2223 }, { "epoch": 0.5930666666666666, "grad_norm": 2.6887360921859633, "learning_rate": 1.8267992091206194e-06, "loss": 0.422, "step": 2224 }, { "epoch": 0.5933333333333334, "grad_norm": 2.7932561233709583, "learning_rate": 1.8247512888563833e-06, "loss": 0.492, "step": 2225 }, { "epoch": 0.5936, "grad_norm": 3.0754091895603737, "learning_rate": 1.8227038572499828e-06, "loss": 0.4009, "step": 2226 }, { "epoch": 0.5938666666666667, "grad_norm": 2.6934353512784757, "learning_rate": 1.820656915783085e-06, "loss": 0.4613, "step": 2227 }, { "epoch": 0.5941333333333333, "grad_norm": 2.3098382682138805, "learning_rate": 1.8186104659370029e-06, "loss": 0.4051, "step": 2228 }, { "epoch": 0.5944, "grad_norm": 2.731144900758593, "learning_rate": 1.8165645091926926e-06, "loss": 0.4753, "step": 2229 }, { "epoch": 0.5946666666666667, "grad_norm": 2.435593690763075, "learning_rate": 1.8145190470307519e-06, "loss": 0.3666, "step": 2230 }, { "epoch": 0.5949333333333333, "grad_norm": 2.7739601890721945, "learning_rate": 1.812474080931423e-06, "loss": 0.4299, "step": 2231 }, { "epoch": 0.5952, "grad_norm": 2.438691990591715, "learning_rate": 1.81042961237459e-06, "loss": 0.3785, "step": 2232 }, { "epoch": 0.5954666666666667, "grad_norm": 4.817706962055195, "learning_rate": 1.8083856428397725e-06, "loss": 0.4476, "step": 2233 }, { "epoch": 0.5957333333333333, "grad_norm": 2.7634268305140877, "learning_rate": 1.8063421738061333e-06, "loss": 0.4469, "step": 2234 }, { "epoch": 0.596, "grad_norm": 2.2704756537625435, "learning_rate": 1.8042992067524722e-06, "loss": 0.3968, "step": 2235 }, { "epoch": 0.5962666666666666, "grad_norm": 2.5546922827147998, "learning_rate": 1.802256743157223e-06, "loss": 0.4194, "step": 2236 }, { "epoch": 0.5965333333333334, "grad_norm": 2.293215124418464, "learning_rate": 1.8002147844984585e-06, "loss": 0.3951, "step": 2237 }, { "epoch": 0.5968, "grad_norm": 2.617920445453991, "learning_rate": 1.7981733322538846e-06, "loss": 0.4369, "step": 2238 }, { "epoch": 0.5970666666666666, "grad_norm": 2.6012353342613244, "learning_rate": 1.7961323879008408e-06, "loss": 0.4167, "step": 2239 }, { "epoch": 0.5973333333333334, "grad_norm": 3.1934173199236664, "learning_rate": 1.7940919529162984e-06, "loss": 0.4634, "step": 2240 }, { "epoch": 0.5976, "grad_norm": 2.8359411342090497, "learning_rate": 1.7920520287768614e-06, "loss": 0.4096, "step": 2241 }, { "epoch": 0.5978666666666667, "grad_norm": 5.004576370318079, "learning_rate": 1.7900126169587645e-06, "loss": 0.4571, "step": 2242 }, { "epoch": 0.5981333333333333, "grad_norm": 2.4581417879441863, "learning_rate": 1.7879737189378688e-06, "loss": 0.3864, "step": 2243 }, { "epoch": 0.5984, "grad_norm": 2.6502554049639455, "learning_rate": 1.7859353361896663e-06, "loss": 0.3645, "step": 2244 }, { "epoch": 0.5986666666666667, "grad_norm": 2.679693428401703, "learning_rate": 1.7838974701892764e-06, "loss": 0.4435, "step": 2245 }, { "epoch": 0.5989333333333333, "grad_norm": 2.8029459919779023, "learning_rate": 1.7818601224114412e-06, "loss": 0.4655, "step": 2246 }, { "epoch": 0.5992, "grad_norm": 2.7652230621992495, "learning_rate": 1.7798232943305316e-06, "loss": 0.4467, "step": 2247 }, { "epoch": 0.5994666666666667, "grad_norm": 2.5067313539752627, "learning_rate": 1.7777869874205405e-06, "loss": 0.4265, "step": 2248 }, { "epoch": 0.5997333333333333, "grad_norm": 2.5302088460425067, "learning_rate": 1.7757512031550836e-06, "loss": 0.4909, "step": 2249 }, { "epoch": 0.6, "grad_norm": 2.518229107443017, "learning_rate": 1.7737159430073984e-06, "loss": 0.397, "step": 2250 }, { "epoch": 0.6002666666666666, "grad_norm": 2.8677844342185725, "learning_rate": 1.771681208450345e-06, "loss": 0.4183, "step": 2251 }, { "epoch": 0.6005333333333334, "grad_norm": 2.5352600978580027, "learning_rate": 1.7696470009563987e-06, "loss": 0.4262, "step": 2252 }, { "epoch": 0.6008, "grad_norm": 2.3874739809231507, "learning_rate": 1.7676133219976589e-06, "loss": 0.414, "step": 2253 }, { "epoch": 0.6010666666666666, "grad_norm": 3.8394332628689374, "learning_rate": 1.7655801730458383e-06, "loss": 0.4291, "step": 2254 }, { "epoch": 0.6013333333333334, "grad_norm": 2.590257584760151, "learning_rate": 1.7635475555722694e-06, "loss": 0.4145, "step": 2255 }, { "epoch": 0.6016, "grad_norm": 2.537199016953401, "learning_rate": 1.7615154710478962e-06, "loss": 0.3904, "step": 2256 }, { "epoch": 0.6018666666666667, "grad_norm": 2.428563208541275, "learning_rate": 1.7594839209432806e-06, "loss": 0.3963, "step": 2257 }, { "epoch": 0.6021333333333333, "grad_norm": 2.4663006973356594, "learning_rate": 1.7574529067285965e-06, "loss": 0.4042, "step": 2258 }, { "epoch": 0.6024, "grad_norm": 2.511733735947999, "learning_rate": 1.7554224298736278e-06, "loss": 0.4099, "step": 2259 }, { "epoch": 0.6026666666666667, "grad_norm": 2.506445932855136, "learning_rate": 1.7533924918477724e-06, "loss": 0.444, "step": 2260 }, { "epoch": 0.6029333333333333, "grad_norm": 2.5323832075474826, "learning_rate": 1.7513630941200394e-06, "loss": 0.3816, "step": 2261 }, { "epoch": 0.6032, "grad_norm": 2.5170030787335764, "learning_rate": 1.7493342381590417e-06, "loss": 0.4222, "step": 2262 }, { "epoch": 0.6034666666666667, "grad_norm": 2.4429413248349623, "learning_rate": 1.7473059254330043e-06, "loss": 0.3877, "step": 2263 }, { "epoch": 0.6037333333333333, "grad_norm": 2.575475657598042, "learning_rate": 1.7452781574097601e-06, "loss": 0.3969, "step": 2264 }, { "epoch": 0.604, "grad_norm": 2.5246936710188064, "learning_rate": 1.7432509355567432e-06, "loss": 0.3966, "step": 2265 }, { "epoch": 0.6042666666666666, "grad_norm": 2.480968692821019, "learning_rate": 1.7412242613409964e-06, "loss": 0.3885, "step": 2266 }, { "epoch": 0.6045333333333334, "grad_norm": 2.3475667175110235, "learning_rate": 1.7391981362291642e-06, "loss": 0.3845, "step": 2267 }, { "epoch": 0.6048, "grad_norm": 2.4982938116530335, "learning_rate": 1.737172561687495e-06, "loss": 0.3851, "step": 2268 }, { "epoch": 0.6050666666666666, "grad_norm": 2.888039834764701, "learning_rate": 1.7351475391818375e-06, "loss": 0.4571, "step": 2269 }, { "epoch": 0.6053333333333333, "grad_norm": 2.4777615403434914, "learning_rate": 1.7331230701776417e-06, "loss": 0.419, "step": 2270 }, { "epoch": 0.6056, "grad_norm": 2.54376536627171, "learning_rate": 1.7310991561399575e-06, "loss": 0.4055, "step": 2271 }, { "epoch": 0.6058666666666667, "grad_norm": 2.846980479784488, "learning_rate": 1.7290757985334317e-06, "loss": 0.3755, "step": 2272 }, { "epoch": 0.6061333333333333, "grad_norm": 2.180822215786785, "learning_rate": 1.7270529988223095e-06, "loss": 0.3408, "step": 2273 }, { "epoch": 0.6064, "grad_norm": 2.619358656821222, "learning_rate": 1.7250307584704334e-06, "loss": 0.412, "step": 2274 }, { "epoch": 0.6066666666666667, "grad_norm": 2.3835256832447658, "learning_rate": 1.7230090789412376e-06, "loss": 0.3795, "step": 2275 }, { "epoch": 0.6069333333333333, "grad_norm": 2.5103655745865843, "learning_rate": 1.7209879616977548e-06, "loss": 0.376, "step": 2276 }, { "epoch": 0.6072, "grad_norm": 2.912393219905919, "learning_rate": 1.718967408202607e-06, "loss": 0.4556, "step": 2277 }, { "epoch": 0.6074666666666667, "grad_norm": 2.6416917732125462, "learning_rate": 1.7169474199180122e-06, "loss": 0.4325, "step": 2278 }, { "epoch": 0.6077333333333333, "grad_norm": 2.54764535412384, "learning_rate": 1.7149279983057745e-06, "loss": 0.4044, "step": 2279 }, { "epoch": 0.608, "grad_norm": 2.5421769066856674, "learning_rate": 1.7129091448272919e-06, "loss": 0.4205, "step": 2280 }, { "epoch": 0.6082666666666666, "grad_norm": 2.5653282993344053, "learning_rate": 1.710890860943551e-06, "loss": 0.3884, "step": 2281 }, { "epoch": 0.6085333333333334, "grad_norm": 2.885638714753462, "learning_rate": 1.7088731481151222e-06, "loss": 0.4492, "step": 2282 }, { "epoch": 0.6088, "grad_norm": 2.40571866427801, "learning_rate": 1.7068560078021678e-06, "loss": 0.3912, "step": 2283 }, { "epoch": 0.6090666666666666, "grad_norm": 2.7930752521079247, "learning_rate": 1.7048394414644337e-06, "loss": 0.3615, "step": 2284 }, { "epoch": 0.6093333333333333, "grad_norm": 3.0372917564182593, "learning_rate": 1.7028234505612487e-06, "loss": 0.492, "step": 2285 }, { "epoch": 0.6096, "grad_norm": 2.548366310374322, "learning_rate": 1.7008080365515277e-06, "loss": 0.3779, "step": 2286 }, { "epoch": 0.6098666666666667, "grad_norm": 2.61878251380193, "learning_rate": 1.6987932008937674e-06, "loss": 0.3862, "step": 2287 }, { "epoch": 0.6101333333333333, "grad_norm": 2.5785500562286976, "learning_rate": 1.6967789450460453e-06, "loss": 0.4193, "step": 2288 }, { "epoch": 0.6104, "grad_norm": 2.9321124735706467, "learning_rate": 1.694765270466019e-06, "loss": 0.4674, "step": 2289 }, { "epoch": 0.6106666666666667, "grad_norm": 2.5365545879625366, "learning_rate": 1.6927521786109268e-06, "loss": 0.3999, "step": 2290 }, { "epoch": 0.6109333333333333, "grad_norm": 2.6801523099179025, "learning_rate": 1.6907396709375861e-06, "loss": 0.4477, "step": 2291 }, { "epoch": 0.6112, "grad_norm": 2.8632695699961843, "learning_rate": 1.688727748902388e-06, "loss": 0.4446, "step": 2292 }, { "epoch": 0.6114666666666667, "grad_norm": 2.587489033144078, "learning_rate": 1.6867164139613022e-06, "loss": 0.3953, "step": 2293 }, { "epoch": 0.6117333333333334, "grad_norm": 2.3505767771726944, "learning_rate": 1.6847056675698747e-06, "loss": 0.3699, "step": 2294 }, { "epoch": 0.612, "grad_norm": 2.396306971708491, "learning_rate": 1.6826955111832233e-06, "loss": 0.4021, "step": 2295 }, { "epoch": 0.6122666666666666, "grad_norm": 2.743364767007316, "learning_rate": 1.6806859462560385e-06, "loss": 0.431, "step": 2296 }, { "epoch": 0.6125333333333334, "grad_norm": 2.4737719192911065, "learning_rate": 1.6786769742425862e-06, "loss": 0.4063, "step": 2297 }, { "epoch": 0.6128, "grad_norm": 3.3372784521142203, "learning_rate": 1.676668596596699e-06, "loss": 0.4571, "step": 2298 }, { "epoch": 0.6130666666666666, "grad_norm": 2.6345368236058326, "learning_rate": 1.6746608147717819e-06, "loss": 0.4046, "step": 2299 }, { "epoch": 0.6133333333333333, "grad_norm": 2.4082922519215995, "learning_rate": 1.6726536302208094e-06, "loss": 0.3798, "step": 2300 }, { "epoch": 0.6136, "grad_norm": 2.613832563332468, "learning_rate": 1.6706470443963203e-06, "loss": 0.4072, "step": 2301 }, { "epoch": 0.6138666666666667, "grad_norm": 2.3650000180671107, "learning_rate": 1.6686410587504236e-06, "loss": 0.3891, "step": 2302 }, { "epoch": 0.6141333333333333, "grad_norm": 2.5483097701899013, "learning_rate": 1.6666356747347933e-06, "loss": 0.4129, "step": 2303 }, { "epoch": 0.6144, "grad_norm": 2.560499844973197, "learning_rate": 1.6646308938006673e-06, "loss": 0.3822, "step": 2304 }, { "epoch": 0.6146666666666667, "grad_norm": 2.6575973410918072, "learning_rate": 1.6626267173988458e-06, "loss": 0.4402, "step": 2305 }, { "epoch": 0.6149333333333333, "grad_norm": 2.4162951146338556, "learning_rate": 1.6606231469796941e-06, "loss": 0.3947, "step": 2306 }, { "epoch": 0.6152, "grad_norm": 2.659871090005092, "learning_rate": 1.6586201839931382e-06, "loss": 0.453, "step": 2307 }, { "epoch": 0.6154666666666667, "grad_norm": 2.656791858294859, "learning_rate": 1.6566178298886626e-06, "loss": 0.3895, "step": 2308 }, { "epoch": 0.6157333333333334, "grad_norm": 2.6397914832804066, "learning_rate": 1.6546160861153133e-06, "loss": 0.4595, "step": 2309 }, { "epoch": 0.616, "grad_norm": 2.6667552564721086, "learning_rate": 1.6526149541216952e-06, "loss": 0.4125, "step": 2310 }, { "epoch": 0.6162666666666666, "grad_norm": 2.3781485690702198, "learning_rate": 1.6506144353559676e-06, "loss": 0.4026, "step": 2311 }, { "epoch": 0.6165333333333334, "grad_norm": 2.4524512445864275, "learning_rate": 1.648614531265848e-06, "loss": 0.3937, "step": 2312 }, { "epoch": 0.6168, "grad_norm": 3.5264005038931048, "learning_rate": 1.6466152432986104e-06, "loss": 0.4259, "step": 2313 }, { "epoch": 0.6170666666666667, "grad_norm": 2.8654304742147865, "learning_rate": 1.6446165729010794e-06, "loss": 0.4039, "step": 2314 }, { "epoch": 0.6173333333333333, "grad_norm": 2.5093277829415244, "learning_rate": 1.6426185215196353e-06, "loss": 0.4505, "step": 2315 }, { "epoch": 0.6176, "grad_norm": 2.621180929074998, "learning_rate": 1.640621090600209e-06, "loss": 0.4238, "step": 2316 }, { "epoch": 0.6178666666666667, "grad_norm": 2.7831905001574024, "learning_rate": 1.6386242815882853e-06, "loss": 0.4313, "step": 2317 }, { "epoch": 0.6181333333333333, "grad_norm": 2.5345461854148077, "learning_rate": 1.636628095928894e-06, "loss": 0.4085, "step": 2318 }, { "epoch": 0.6184, "grad_norm": 2.5697403537331076, "learning_rate": 1.6346325350666178e-06, "loss": 0.4155, "step": 2319 }, { "epoch": 0.6186666666666667, "grad_norm": 2.7662716396445846, "learning_rate": 1.632637600445587e-06, "loss": 0.4212, "step": 2320 }, { "epoch": 0.6189333333333333, "grad_norm": 2.7104080343786756, "learning_rate": 1.630643293509476e-06, "loss": 0.4485, "step": 2321 }, { "epoch": 0.6192, "grad_norm": 2.397942002291914, "learning_rate": 1.628649615701507e-06, "loss": 0.4239, "step": 2322 }, { "epoch": 0.6194666666666667, "grad_norm": 2.9547772807910633, "learning_rate": 1.6266565684644483e-06, "loss": 0.4397, "step": 2323 }, { "epoch": 0.6197333333333334, "grad_norm": 2.572451045083528, "learning_rate": 1.6246641532406081e-06, "loss": 0.446, "step": 2324 }, { "epoch": 0.62, "grad_norm": 2.5206712097593367, "learning_rate": 1.6226723714718401e-06, "loss": 0.3975, "step": 2325 }, { "epoch": 0.6202666666666666, "grad_norm": 2.5102932278771806, "learning_rate": 1.6206812245995393e-06, "loss": 0.3813, "step": 2326 }, { "epoch": 0.6205333333333334, "grad_norm": 2.828515165976786, "learning_rate": 1.6186907140646392e-06, "loss": 0.3952, "step": 2327 }, { "epoch": 0.6208, "grad_norm": 3.098518837213252, "learning_rate": 1.6167008413076158e-06, "loss": 0.4207, "step": 2328 }, { "epoch": 0.6210666666666667, "grad_norm": 5.467335797028458, "learning_rate": 1.614711607768481e-06, "loss": 0.4907, "step": 2329 }, { "epoch": 0.6213333333333333, "grad_norm": 3.181757406219305, "learning_rate": 1.612723014886787e-06, "loss": 0.5205, "step": 2330 }, { "epoch": 0.6216, "grad_norm": 2.5477174005311523, "learning_rate": 1.6107350641016184e-06, "loss": 0.4031, "step": 2331 }, { "epoch": 0.6218666666666667, "grad_norm": 2.4199470816225674, "learning_rate": 1.608747756851599e-06, "loss": 0.3772, "step": 2332 }, { "epoch": 0.6221333333333333, "grad_norm": 3.6967079813068273, "learning_rate": 1.6067610945748846e-06, "loss": 0.5491, "step": 2333 }, { "epoch": 0.6224, "grad_norm": 2.345720983372248, "learning_rate": 1.6047750787091642e-06, "loss": 0.3763, "step": 2334 }, { "epoch": 0.6226666666666667, "grad_norm": 2.63764927914958, "learning_rate": 1.6027897106916603e-06, "loss": 0.415, "step": 2335 }, { "epoch": 0.6229333333333333, "grad_norm": 2.2663435121437123, "learning_rate": 1.6008049919591267e-06, "loss": 0.3591, "step": 2336 }, { "epoch": 0.6232, "grad_norm": 2.341905459595337, "learning_rate": 1.5988209239478454e-06, "loss": 0.3653, "step": 2337 }, { "epoch": 0.6234666666666666, "grad_norm": 2.1699184843845205, "learning_rate": 1.5968375080936283e-06, "loss": 0.3556, "step": 2338 }, { "epoch": 0.6237333333333334, "grad_norm": 2.311568213157791, "learning_rate": 1.5948547458318164e-06, "loss": 0.3909, "step": 2339 }, { "epoch": 0.624, "grad_norm": 3.0913080983091454, "learning_rate": 1.5928726385972786e-06, "loss": 0.4231, "step": 2340 }, { "epoch": 0.6242666666666666, "grad_norm": 2.6218488463073033, "learning_rate": 1.5908911878244055e-06, "loss": 0.4119, "step": 2341 }, { "epoch": 0.6245333333333334, "grad_norm": 2.8085309399022345, "learning_rate": 1.5889103949471168e-06, "loss": 0.4477, "step": 2342 }, { "epoch": 0.6248, "grad_norm": 2.522416752341973, "learning_rate": 1.5869302613988547e-06, "loss": 0.3964, "step": 2343 }, { "epoch": 0.6250666666666667, "grad_norm": 2.4441909233445296, "learning_rate": 1.5849507886125836e-06, "loss": 0.3608, "step": 2344 }, { "epoch": 0.6253333333333333, "grad_norm": 2.8074914720227886, "learning_rate": 1.5829719780207906e-06, "loss": 0.4135, "step": 2345 }, { "epoch": 0.6256, "grad_norm": 2.826081528546796, "learning_rate": 1.580993831055484e-06, "loss": 0.4484, "step": 2346 }, { "epoch": 0.6258666666666667, "grad_norm": 2.4294909402239497, "learning_rate": 1.5790163491481896e-06, "loss": 0.3633, "step": 2347 }, { "epoch": 0.6261333333333333, "grad_norm": 2.6434850637100653, "learning_rate": 1.5770395337299546e-06, "loss": 0.4151, "step": 2348 }, { "epoch": 0.6264, "grad_norm": 2.4715488212891255, "learning_rate": 1.5750633862313437e-06, "loss": 0.4133, "step": 2349 }, { "epoch": 0.6266666666666667, "grad_norm": 2.8448108165793236, "learning_rate": 1.5730879080824345e-06, "loss": 0.4473, "step": 2350 }, { "epoch": 0.6269333333333333, "grad_norm": 2.3236610181855055, "learning_rate": 1.5711131007128256e-06, "loss": 0.3451, "step": 2351 }, { "epoch": 0.6272, "grad_norm": 2.3579664539338507, "learning_rate": 1.569138965551627e-06, "loss": 0.3738, "step": 2352 }, { "epoch": 0.6274666666666666, "grad_norm": 2.180533129114716, "learning_rate": 1.567165504027463e-06, "loss": 0.3688, "step": 2353 }, { "epoch": 0.6277333333333334, "grad_norm": 2.468356242794101, "learning_rate": 1.5651927175684688e-06, "loss": 0.3659, "step": 2354 }, { "epoch": 0.628, "grad_norm": 2.538879812875634, "learning_rate": 1.5632206076022938e-06, "loss": 0.378, "step": 2355 }, { "epoch": 0.6282666666666666, "grad_norm": 2.607969657321393, "learning_rate": 1.5612491755560976e-06, "loss": 0.4313, "step": 2356 }, { "epoch": 0.6285333333333334, "grad_norm": 2.7799072428526364, "learning_rate": 1.5592784228565455e-06, "loss": 0.4189, "step": 2357 }, { "epoch": 0.6288, "grad_norm": 3.097651354873283, "learning_rate": 1.557308350929816e-06, "loss": 0.445, "step": 2358 }, { "epoch": 0.6290666666666667, "grad_norm": 2.356728558790544, "learning_rate": 1.5553389612015923e-06, "loss": 0.3423, "step": 2359 }, { "epoch": 0.6293333333333333, "grad_norm": 2.3881672160275937, "learning_rate": 1.5533702550970639e-06, "loss": 0.3803, "step": 2360 }, { "epoch": 0.6296, "grad_norm": 2.5266825462787272, "learning_rate": 1.5514022340409269e-06, "loss": 0.3898, "step": 2361 }, { "epoch": 0.6298666666666667, "grad_norm": 2.4738881946798403, "learning_rate": 1.5494348994573802e-06, "loss": 0.4473, "step": 2362 }, { "epoch": 0.6301333333333333, "grad_norm": 2.8264599732364055, "learning_rate": 1.5474682527701268e-06, "loss": 0.4286, "step": 2363 }, { "epoch": 0.6304, "grad_norm": 2.993099201965793, "learning_rate": 1.5455022954023714e-06, "loss": 0.4643, "step": 2364 }, { "epoch": 0.6306666666666667, "grad_norm": 2.723399561494605, "learning_rate": 1.54353702877682e-06, "loss": 0.4385, "step": 2365 }, { "epoch": 0.6309333333333333, "grad_norm": 2.9616857825321015, "learning_rate": 1.5415724543156807e-06, "loss": 0.4335, "step": 2366 }, { "epoch": 0.6312, "grad_norm": 2.8984770419183605, "learning_rate": 1.5396085734406557e-06, "loss": 0.4385, "step": 2367 }, { "epoch": 0.6314666666666666, "grad_norm": 2.7055356283539984, "learning_rate": 1.5376453875729508e-06, "loss": 0.4378, "step": 2368 }, { "epoch": 0.6317333333333334, "grad_norm": 2.985840301722521, "learning_rate": 1.5356828981332664e-06, "loss": 0.4467, "step": 2369 }, { "epoch": 0.632, "grad_norm": 2.8193604652593285, "learning_rate": 1.5337211065417974e-06, "loss": 0.4576, "step": 2370 }, { "epoch": 0.6322666666666666, "grad_norm": 2.5192948998367672, "learning_rate": 1.5317600142182364e-06, "loss": 0.3957, "step": 2371 }, { "epoch": 0.6325333333333333, "grad_norm": 2.412040267544466, "learning_rate": 1.529799622581769e-06, "loss": 0.3874, "step": 2372 }, { "epoch": 0.6328, "grad_norm": 4.410900915652979, "learning_rate": 1.5278399330510735e-06, "loss": 0.4776, "step": 2373 }, { "epoch": 0.6330666666666667, "grad_norm": 2.656350712802564, "learning_rate": 1.5258809470443186e-06, "loss": 0.4307, "step": 2374 }, { "epoch": 0.6333333333333333, "grad_norm": 2.4184625913801048, "learning_rate": 1.5239226659791685e-06, "loss": 0.377, "step": 2375 }, { "epoch": 0.6336, "grad_norm": 4.0092384709030044, "learning_rate": 1.521965091272771e-06, "loss": 0.4443, "step": 2376 }, { "epoch": 0.6338666666666667, "grad_norm": 3.0125405863718404, "learning_rate": 1.5200082243417675e-06, "loss": 0.46, "step": 2377 }, { "epoch": 0.6341333333333333, "grad_norm": 2.4559572506929053, "learning_rate": 1.5180520666022852e-06, "loss": 0.3912, "step": 2378 }, { "epoch": 0.6344, "grad_norm": 2.9241371364264377, "learning_rate": 1.5160966194699401e-06, "loss": 0.4609, "step": 2379 }, { "epoch": 0.6346666666666667, "grad_norm": 2.3768145203766444, "learning_rate": 1.51414188435983e-06, "loss": 0.3533, "step": 2380 }, { "epoch": 0.6349333333333333, "grad_norm": 2.3570311712473835, "learning_rate": 1.5121878626865413e-06, "loss": 0.3638, "step": 2381 }, { "epoch": 0.6352, "grad_norm": 2.849803772781318, "learning_rate": 1.5102345558641429e-06, "loss": 0.43, "step": 2382 }, { "epoch": 0.6354666666666666, "grad_norm": 2.5649973367277874, "learning_rate": 1.5082819653061841e-06, "loss": 0.4079, "step": 2383 }, { "epoch": 0.6357333333333334, "grad_norm": 2.4469776396352825, "learning_rate": 1.506330092425699e-06, "loss": 0.3954, "step": 2384 }, { "epoch": 0.636, "grad_norm": 2.7672848978587323, "learning_rate": 1.5043789386352025e-06, "loss": 0.4344, "step": 2385 }, { "epoch": 0.6362666666666666, "grad_norm": 2.9797224424925672, "learning_rate": 1.5024285053466859e-06, "loss": 0.4404, "step": 2386 }, { "epoch": 0.6365333333333333, "grad_norm": 2.609602146732846, "learning_rate": 1.5004787939716215e-06, "loss": 0.4447, "step": 2387 }, { "epoch": 0.6368, "grad_norm": 2.7068356809684357, "learning_rate": 1.4985298059209596e-06, "loss": 0.4522, "step": 2388 }, { "epoch": 0.6370666666666667, "grad_norm": 2.652476754165673, "learning_rate": 1.4965815426051245e-06, "loss": 0.441, "step": 2389 }, { "epoch": 0.6373333333333333, "grad_norm": 3.0079055441216935, "learning_rate": 1.4946340054340191e-06, "loss": 0.4195, "step": 2390 }, { "epoch": 0.6376, "grad_norm": 3.3814705936920184, "learning_rate": 1.4926871958170187e-06, "loss": 0.4749, "step": 2391 }, { "epoch": 0.6378666666666667, "grad_norm": 2.2884057485517153, "learning_rate": 1.490741115162973e-06, "loss": 0.3359, "step": 2392 }, { "epoch": 0.6381333333333333, "grad_norm": 2.8072953359571016, "learning_rate": 1.4887957648802035e-06, "loss": 0.4513, "step": 2393 }, { "epoch": 0.6384, "grad_norm": 2.518986598254198, "learning_rate": 1.4868511463765033e-06, "loss": 0.4219, "step": 2394 }, { "epoch": 0.6386666666666667, "grad_norm": 3.138131725548987, "learning_rate": 1.484907261059138e-06, "loss": 0.4719, "step": 2395 }, { "epoch": 0.6389333333333334, "grad_norm": 3.074198103727027, "learning_rate": 1.4829641103348388e-06, "loss": 0.4548, "step": 2396 }, { "epoch": 0.6392, "grad_norm": 2.697994722512155, "learning_rate": 1.4810216956098077e-06, "loss": 0.4453, "step": 2397 }, { "epoch": 0.6394666666666666, "grad_norm": 3.1249389811686634, "learning_rate": 1.4790800182897152e-06, "loss": 0.437, "step": 2398 }, { "epoch": 0.6397333333333334, "grad_norm": 2.7341928333224956, "learning_rate": 1.4771390797796947e-06, "loss": 0.4053, "step": 2399 }, { "epoch": 0.64, "grad_norm": 2.3246811007757766, "learning_rate": 1.4751988814843482e-06, "loss": 0.3665, "step": 2400 }, { "epoch": 0.6402666666666667, "grad_norm": 2.6693383157444917, "learning_rate": 1.4732594248077399e-06, "loss": 0.4124, "step": 2401 }, { "epoch": 0.6405333333333333, "grad_norm": 2.7060481532406784, "learning_rate": 1.471320711153399e-06, "loss": 0.4163, "step": 2402 }, { "epoch": 0.6408, "grad_norm": 2.516061700495182, "learning_rate": 1.469382741924315e-06, "loss": 0.4145, "step": 2403 }, { "epoch": 0.6410666666666667, "grad_norm": 3.2721471547769365, "learning_rate": 1.4674455185229402e-06, "loss": 0.4339, "step": 2404 }, { "epoch": 0.6413333333333333, "grad_norm": 3.202075307789475, "learning_rate": 1.4655090423511883e-06, "loss": 0.4889, "step": 2405 }, { "epoch": 0.6416, "grad_norm": 2.5997505169294337, "learning_rate": 1.4635733148104284e-06, "loss": 0.4124, "step": 2406 }, { "epoch": 0.6418666666666667, "grad_norm": 2.7575151252502463, "learning_rate": 1.4616383373014914e-06, "loss": 0.3997, "step": 2407 }, { "epoch": 0.6421333333333333, "grad_norm": 2.2100730342481016, "learning_rate": 1.4597041112246646e-06, "loss": 0.3464, "step": 2408 }, { "epoch": 0.6424, "grad_norm": 2.7253143149065213, "learning_rate": 1.45777063797969e-06, "loss": 0.4847, "step": 2409 }, { "epoch": 0.6426666666666667, "grad_norm": 2.94478194651154, "learning_rate": 1.4558379189657669e-06, "loss": 0.454, "step": 2410 }, { "epoch": 0.6429333333333334, "grad_norm": 2.3836452047508647, "learning_rate": 1.453905955581547e-06, "loss": 0.3705, "step": 2411 }, { "epoch": 0.6432, "grad_norm": 2.5369908302182065, "learning_rate": 1.4519747492251367e-06, "loss": 0.3969, "step": 2412 }, { "epoch": 0.6434666666666666, "grad_norm": 2.72548618117417, "learning_rate": 1.4500443012940926e-06, "loss": 0.3472, "step": 2413 }, { "epoch": 0.6437333333333334, "grad_norm": 2.2986304621321576, "learning_rate": 1.4481146131854252e-06, "loss": 0.3743, "step": 2414 }, { "epoch": 0.644, "grad_norm": 2.5457919175785078, "learning_rate": 1.4461856862955941e-06, "loss": 0.431, "step": 2415 }, { "epoch": 0.6442666666666667, "grad_norm": 2.448643350047984, "learning_rate": 1.4442575220205043e-06, "loss": 0.3784, "step": 2416 }, { "epoch": 0.6445333333333333, "grad_norm": 2.6979780018995516, "learning_rate": 1.4423301217555153e-06, "loss": 0.4899, "step": 2417 }, { "epoch": 0.6448, "grad_norm": 2.4534258516151146, "learning_rate": 1.4404034868954294e-06, "loss": 0.4026, "step": 2418 }, { "epoch": 0.6450666666666667, "grad_norm": 2.7350661254372524, "learning_rate": 1.4384776188344962e-06, "loss": 0.413, "step": 2419 }, { "epoch": 0.6453333333333333, "grad_norm": 2.676618675094737, "learning_rate": 1.4365525189664098e-06, "loss": 0.4246, "step": 2420 }, { "epoch": 0.6456, "grad_norm": 2.3883903456614375, "learning_rate": 1.4346281886843111e-06, "loss": 0.3581, "step": 2421 }, { "epoch": 0.6458666666666667, "grad_norm": 2.4751276730084784, "learning_rate": 1.4327046293807786e-06, "loss": 0.4412, "step": 2422 }, { "epoch": 0.6461333333333333, "grad_norm": 2.689956778046366, "learning_rate": 1.430781842447839e-06, "loss": 0.4045, "step": 2423 }, { "epoch": 0.6464, "grad_norm": 2.719274770137512, "learning_rate": 1.4288598292769561e-06, "loss": 0.4128, "step": 2424 }, { "epoch": 0.6466666666666666, "grad_norm": 3.1563077918329143, "learning_rate": 1.426938591259035e-06, "loss": 0.5018, "step": 2425 }, { "epoch": 0.6469333333333334, "grad_norm": 2.4105085173212184, "learning_rate": 1.4250181297844196e-06, "loss": 0.3937, "step": 2426 }, { "epoch": 0.6472, "grad_norm": 2.3331272766381597, "learning_rate": 1.423098446242891e-06, "loss": 0.3697, "step": 2427 }, { "epoch": 0.6474666666666666, "grad_norm": 2.509038786047456, "learning_rate": 1.4211795420236716e-06, "loss": 0.3888, "step": 2428 }, { "epoch": 0.6477333333333334, "grad_norm": 2.623821591952937, "learning_rate": 1.419261418515412e-06, "loss": 0.4439, "step": 2429 }, { "epoch": 0.648, "grad_norm": 2.339824766086487, "learning_rate": 1.4173440771062057e-06, "loss": 0.3516, "step": 2430 }, { "epoch": 0.6482666666666667, "grad_norm": 2.4321906682561547, "learning_rate": 1.4154275191835762e-06, "loss": 0.3845, "step": 2431 }, { "epoch": 0.6485333333333333, "grad_norm": 2.6017601929288756, "learning_rate": 1.41351174613448e-06, "loss": 0.4005, "step": 2432 }, { "epoch": 0.6488, "grad_norm": 2.5402743307977036, "learning_rate": 1.4115967593453065e-06, "loss": 0.4067, "step": 2433 }, { "epoch": 0.6490666666666667, "grad_norm": 2.4911124449217272, "learning_rate": 1.409682560201876e-06, "loss": 0.4102, "step": 2434 }, { "epoch": 0.6493333333333333, "grad_norm": 2.798019919841236, "learning_rate": 1.4077691500894386e-06, "loss": 0.4871, "step": 2435 }, { "epoch": 0.6496, "grad_norm": 2.472431569269953, "learning_rate": 1.4058565303926724e-06, "loss": 0.4053, "step": 2436 }, { "epoch": 0.6498666666666667, "grad_norm": 2.803756363544423, "learning_rate": 1.403944702495688e-06, "loss": 0.4588, "step": 2437 }, { "epoch": 0.6501333333333333, "grad_norm": 2.803395635161473, "learning_rate": 1.4020336677820157e-06, "loss": 0.3878, "step": 2438 }, { "epoch": 0.6504, "grad_norm": 2.5845555090976564, "learning_rate": 1.4001234276346175e-06, "loss": 0.3763, "step": 2439 }, { "epoch": 0.6506666666666666, "grad_norm": 2.465824786492147, "learning_rate": 1.3982139834358783e-06, "loss": 0.3598, "step": 2440 }, { "epoch": 0.6509333333333334, "grad_norm": 2.7330017001808606, "learning_rate": 1.3963053365676088e-06, "loss": 0.4201, "step": 2441 }, { "epoch": 0.6512, "grad_norm": 2.6638940483817217, "learning_rate": 1.3943974884110383e-06, "loss": 0.4331, "step": 2442 }, { "epoch": 0.6514666666666666, "grad_norm": 2.894307963668618, "learning_rate": 1.3924904403468232e-06, "loss": 0.4728, "step": 2443 }, { "epoch": 0.6517333333333334, "grad_norm": 3.3533323944221722, "learning_rate": 1.390584193755039e-06, "loss": 0.4276, "step": 2444 }, { "epoch": 0.652, "grad_norm": 2.7219146678369706, "learning_rate": 1.3886787500151777e-06, "loss": 0.437, "step": 2445 }, { "epoch": 0.6522666666666667, "grad_norm": 2.223321322525736, "learning_rate": 1.386774110506157e-06, "loss": 0.3579, "step": 2446 }, { "epoch": 0.6525333333333333, "grad_norm": 2.4413181447194243, "learning_rate": 1.384870276606307e-06, "loss": 0.4196, "step": 2447 }, { "epoch": 0.6528, "grad_norm": 2.3180640614847934, "learning_rate": 1.3829672496933782e-06, "loss": 0.3704, "step": 2448 }, { "epoch": 0.6530666666666667, "grad_norm": 2.6212411797240587, "learning_rate": 1.381065031144534e-06, "loss": 0.4215, "step": 2449 }, { "epoch": 0.6533333333333333, "grad_norm": 2.6750023958007247, "learning_rate": 1.3791636223363575e-06, "loss": 0.4177, "step": 2450 }, { "epoch": 0.6536, "grad_norm": 2.4207320982647467, "learning_rate": 1.3772630246448392e-06, "loss": 0.37, "step": 2451 }, { "epoch": 0.6538666666666667, "grad_norm": 2.2746856172213574, "learning_rate": 1.3753632394453891e-06, "loss": 0.3551, "step": 2452 }, { "epoch": 0.6541333333333333, "grad_norm": 2.73978550773163, "learning_rate": 1.3734642681128257e-06, "loss": 0.4063, "step": 2453 }, { "epoch": 0.6544, "grad_norm": 2.6696537988698488, "learning_rate": 1.3715661120213793e-06, "loss": 0.4081, "step": 2454 }, { "epoch": 0.6546666666666666, "grad_norm": 2.406896624904754, "learning_rate": 1.36966877254469e-06, "loss": 0.3652, "step": 2455 }, { "epoch": 0.6549333333333334, "grad_norm": 2.8644095751706447, "learning_rate": 1.3677722510558062e-06, "loss": 0.3895, "step": 2456 }, { "epoch": 0.6552, "grad_norm": 2.7220053067532173, "learning_rate": 1.3658765489271885e-06, "loss": 0.4258, "step": 2457 }, { "epoch": 0.6554666666666666, "grad_norm": 2.381468957817491, "learning_rate": 1.3639816675306971e-06, "loss": 0.4046, "step": 2458 }, { "epoch": 0.6557333333333333, "grad_norm": 3.161149147100165, "learning_rate": 1.3620876082376057e-06, "loss": 0.4416, "step": 2459 }, { "epoch": 0.656, "grad_norm": 2.6114831764942523, "learning_rate": 1.3601943724185885e-06, "loss": 0.4019, "step": 2460 }, { "epoch": 0.6562666666666667, "grad_norm": 2.375644773119719, "learning_rate": 1.3583019614437254e-06, "loss": 0.3572, "step": 2461 }, { "epoch": 0.6565333333333333, "grad_norm": 2.6304700936969545, "learning_rate": 1.3564103766824991e-06, "loss": 0.389, "step": 2462 }, { "epoch": 0.6568, "grad_norm": 2.642416705673288, "learning_rate": 1.3545196195037947e-06, "loss": 0.3912, "step": 2463 }, { "epoch": 0.6570666666666667, "grad_norm": 2.5758768874644833, "learning_rate": 1.3526296912758977e-06, "loss": 0.3781, "step": 2464 }, { "epoch": 0.6573333333333333, "grad_norm": 2.3434895266296456, "learning_rate": 1.3507405933664936e-06, "loss": 0.3953, "step": 2465 }, { "epoch": 0.6576, "grad_norm": 2.9107759310767585, "learning_rate": 1.348852327142669e-06, "loss": 0.4231, "step": 2466 }, { "epoch": 0.6578666666666667, "grad_norm": 2.5072447603821035, "learning_rate": 1.3469648939709069e-06, "loss": 0.3871, "step": 2467 }, { "epoch": 0.6581333333333333, "grad_norm": 2.5155063223163903, "learning_rate": 1.3450782952170871e-06, "loss": 0.4049, "step": 2468 }, { "epoch": 0.6584, "grad_norm": 2.7027170398781566, "learning_rate": 1.3431925322464852e-06, "loss": 0.4084, "step": 2469 }, { "epoch": 0.6586666666666666, "grad_norm": 2.998752822675095, "learning_rate": 1.3413076064237768e-06, "loss": 0.4142, "step": 2470 }, { "epoch": 0.6589333333333334, "grad_norm": 2.6589560078891954, "learning_rate": 1.339423519113023e-06, "loss": 0.3976, "step": 2471 }, { "epoch": 0.6592, "grad_norm": 2.5532309681328593, "learning_rate": 1.3375402716776865e-06, "loss": 0.4121, "step": 2472 }, { "epoch": 0.6594666666666666, "grad_norm": 4.3707559663931175, "learning_rate": 1.3356578654806168e-06, "loss": 0.4853, "step": 2473 }, { "epoch": 0.6597333333333333, "grad_norm": 2.984914678641659, "learning_rate": 1.3337763018840578e-06, "loss": 0.4076, "step": 2474 }, { "epoch": 0.66, "grad_norm": 2.4417826627598793, "learning_rate": 1.331895582249641e-06, "loss": 0.3846, "step": 2475 }, { "epoch": 0.6602666666666667, "grad_norm": 2.4643088926316676, "learning_rate": 1.3300157079383879e-06, "loss": 0.4041, "step": 2476 }, { "epoch": 0.6605333333333333, "grad_norm": 3.1562645891090586, "learning_rate": 1.3281366803107123e-06, "loss": 0.454, "step": 2477 }, { "epoch": 0.6608, "grad_norm": 2.6176774801300655, "learning_rate": 1.3262585007264073e-06, "loss": 0.3923, "step": 2478 }, { "epoch": 0.6610666666666667, "grad_norm": 2.2301505590129693, "learning_rate": 1.3243811705446603e-06, "loss": 0.3436, "step": 2479 }, { "epoch": 0.6613333333333333, "grad_norm": 2.6654116076493173, "learning_rate": 1.3225046911240385e-06, "loss": 0.3886, "step": 2480 }, { "epoch": 0.6616, "grad_norm": 2.403990280977982, "learning_rate": 1.3206290638224965e-06, "loss": 0.4287, "step": 2481 }, { "epoch": 0.6618666666666667, "grad_norm": 2.601006758023964, "learning_rate": 1.3187542899973704e-06, "loss": 0.4177, "step": 2482 }, { "epoch": 0.6621333333333334, "grad_norm": 2.604236917587375, "learning_rate": 1.31688037100538e-06, "loss": 0.4378, "step": 2483 }, { "epoch": 0.6624, "grad_norm": 2.3951957557664643, "learning_rate": 1.3150073082026255e-06, "loss": 0.3942, "step": 2484 }, { "epoch": 0.6626666666666666, "grad_norm": 2.5955822317200856, "learning_rate": 1.3131351029445875e-06, "loss": 0.4182, "step": 2485 }, { "epoch": 0.6629333333333334, "grad_norm": 2.5143449841622103, "learning_rate": 1.3112637565861287e-06, "loss": 0.4163, "step": 2486 }, { "epoch": 0.6632, "grad_norm": 2.343677560322538, "learning_rate": 1.3093932704814847e-06, "loss": 0.3806, "step": 2487 }, { "epoch": 0.6634666666666666, "grad_norm": 2.558537720626036, "learning_rate": 1.3075236459842744e-06, "loss": 0.407, "step": 2488 }, { "epoch": 0.6637333333333333, "grad_norm": 2.6161272537210154, "learning_rate": 1.3056548844474895e-06, "loss": 0.4279, "step": 2489 }, { "epoch": 0.664, "grad_norm": 2.3814303980597056, "learning_rate": 1.3037869872234988e-06, "loss": 0.3552, "step": 2490 }, { "epoch": 0.6642666666666667, "grad_norm": 2.508096472595113, "learning_rate": 1.3019199556640449e-06, "loss": 0.3732, "step": 2491 }, { "epoch": 0.6645333333333333, "grad_norm": 2.747613548696349, "learning_rate": 1.3000537911202431e-06, "loss": 0.4587, "step": 2492 }, { "epoch": 0.6648, "grad_norm": 2.732504713546252, "learning_rate": 1.2981884949425856e-06, "loss": 0.4387, "step": 2493 }, { "epoch": 0.6650666666666667, "grad_norm": 2.428172228049998, "learning_rate": 1.2963240684809286e-06, "loss": 0.3916, "step": 2494 }, { "epoch": 0.6653333333333333, "grad_norm": 2.873511867829842, "learning_rate": 1.2944605130845066e-06, "loss": 0.4145, "step": 2495 }, { "epoch": 0.6656, "grad_norm": 2.8324303906646593, "learning_rate": 1.2925978301019193e-06, "loss": 0.4377, "step": 2496 }, { "epoch": 0.6658666666666667, "grad_norm": 2.5377830506749186, "learning_rate": 1.2907360208811362e-06, "loss": 0.3796, "step": 2497 }, { "epoch": 0.6661333333333334, "grad_norm": 2.9246442235305925, "learning_rate": 1.2888750867694933e-06, "loss": 0.4732, "step": 2498 }, { "epoch": 0.6664, "grad_norm": 2.6693253509620205, "learning_rate": 1.2870150291136974e-06, "loss": 0.4336, "step": 2499 }, { "epoch": 0.6666666666666666, "grad_norm": 2.2320358392391015, "learning_rate": 1.2851558492598143e-06, "loss": 0.363, "step": 2500 }, { "epoch": 0.6669333333333334, "grad_norm": 2.350472165455904, "learning_rate": 1.2832975485532811e-06, "loss": 0.3814, "step": 2501 }, { "epoch": 0.6672, "grad_norm": 2.6094880733460615, "learning_rate": 1.2814401283388953e-06, "loss": 0.4269, "step": 2502 }, { "epoch": 0.6674666666666667, "grad_norm": 2.817975911472412, "learning_rate": 1.2795835899608173e-06, "loss": 0.4084, "step": 2503 }, { "epoch": 0.6677333333333333, "grad_norm": 2.4308343371647014, "learning_rate": 1.2777279347625704e-06, "loss": 0.3758, "step": 2504 }, { "epoch": 0.668, "grad_norm": 2.3993714552758463, "learning_rate": 1.275873164087037e-06, "loss": 0.3722, "step": 2505 }, { "epoch": 0.6682666666666667, "grad_norm": 2.7114139574750737, "learning_rate": 1.2740192792764637e-06, "loss": 0.4058, "step": 2506 }, { "epoch": 0.6685333333333333, "grad_norm": 2.475967001525161, "learning_rate": 1.2721662816724487e-06, "loss": 0.4074, "step": 2507 }, { "epoch": 0.6688, "grad_norm": 2.6849059857272155, "learning_rate": 1.2703141726159557e-06, "loss": 0.4292, "step": 2508 }, { "epoch": 0.6690666666666667, "grad_norm": 2.789423621872969, "learning_rate": 1.2684629534473014e-06, "loss": 0.4471, "step": 2509 }, { "epoch": 0.6693333333333333, "grad_norm": 2.7902747820633516, "learning_rate": 1.2666126255061588e-06, "loss": 0.437, "step": 2510 }, { "epoch": 0.6696, "grad_norm": 3.96815769384453, "learning_rate": 1.2647631901315563e-06, "loss": 0.4679, "step": 2511 }, { "epoch": 0.6698666666666667, "grad_norm": 2.595647454100375, "learning_rate": 1.2629146486618768e-06, "loss": 0.3684, "step": 2512 }, { "epoch": 0.6701333333333334, "grad_norm": 2.7336344425918635, "learning_rate": 1.261067002434856e-06, "loss": 0.3944, "step": 2513 }, { "epoch": 0.6704, "grad_norm": 2.8388196014637574, "learning_rate": 1.2592202527875798e-06, "loss": 0.405, "step": 2514 }, { "epoch": 0.6706666666666666, "grad_norm": 2.4857077652772035, "learning_rate": 1.2573744010564903e-06, "loss": 0.3984, "step": 2515 }, { "epoch": 0.6709333333333334, "grad_norm": 2.7017110740739154, "learning_rate": 1.2555294485773753e-06, "loss": 0.4067, "step": 2516 }, { "epoch": 0.6712, "grad_norm": 2.854706789315105, "learning_rate": 1.253685396685373e-06, "loss": 0.4311, "step": 2517 }, { "epoch": 0.6714666666666667, "grad_norm": 2.997063246194408, "learning_rate": 1.2518422467149699e-06, "loss": 0.4493, "step": 2518 }, { "epoch": 0.6717333333333333, "grad_norm": 2.577918632812764, "learning_rate": 1.2500000000000007e-06, "loss": 0.4416, "step": 2519 }, { "epoch": 0.672, "grad_norm": 2.662733966181954, "learning_rate": 1.2481586578736448e-06, "loss": 0.4327, "step": 2520 }, { "epoch": 0.6722666666666667, "grad_norm": 2.713048455673159, "learning_rate": 1.2463182216684277e-06, "loss": 0.4115, "step": 2521 }, { "epoch": 0.6725333333333333, "grad_norm": 2.562335983508874, "learning_rate": 1.2444786927162222e-06, "loss": 0.3874, "step": 2522 }, { "epoch": 0.6728, "grad_norm": 2.8043460316759705, "learning_rate": 1.242640072348238e-06, "loss": 0.4697, "step": 2523 }, { "epoch": 0.6730666666666667, "grad_norm": 2.578561103791658, "learning_rate": 1.2408023618950337e-06, "loss": 0.381, "step": 2524 }, { "epoch": 0.6733333333333333, "grad_norm": 3.3019319135363476, "learning_rate": 1.2389655626865064e-06, "loss": 0.4962, "step": 2525 }, { "epoch": 0.6736, "grad_norm": 3.0710653067217004, "learning_rate": 1.2371296760518935e-06, "loss": 0.4562, "step": 2526 }, { "epoch": 0.6738666666666666, "grad_norm": 2.630908371741785, "learning_rate": 1.2352947033197727e-06, "loss": 0.3999, "step": 2527 }, { "epoch": 0.6741333333333334, "grad_norm": 3.0396277885009324, "learning_rate": 1.2334606458180614e-06, "loss": 0.4649, "step": 2528 }, { "epoch": 0.6744, "grad_norm": 2.627301661901626, "learning_rate": 1.2316275048740133e-06, "loss": 0.4433, "step": 2529 }, { "epoch": 0.6746666666666666, "grad_norm": 2.800786756674229, "learning_rate": 1.2297952818142189e-06, "loss": 0.4399, "step": 2530 }, { "epoch": 0.6749333333333334, "grad_norm": 2.6159759553849455, "learning_rate": 1.227963977964605e-06, "loss": 0.4225, "step": 2531 }, { "epoch": 0.6752, "grad_norm": 2.607686639559331, "learning_rate": 1.226133594650432e-06, "loss": 0.4091, "step": 2532 }, { "epoch": 0.6754666666666667, "grad_norm": 3.0570439010475146, "learning_rate": 1.224304133196296e-06, "loss": 0.4562, "step": 2533 }, { "epoch": 0.6757333333333333, "grad_norm": 2.685125182843672, "learning_rate": 1.2224755949261235e-06, "loss": 0.3903, "step": 2534 }, { "epoch": 0.676, "grad_norm": 3.2880039106894965, "learning_rate": 1.2206479811631774e-06, "loss": 0.4378, "step": 2535 }, { "epoch": 0.6762666666666667, "grad_norm": 2.48134573985429, "learning_rate": 1.218821293230045e-06, "loss": 0.4417, "step": 2536 }, { "epoch": 0.6765333333333333, "grad_norm": 2.94768746182571, "learning_rate": 1.2169955324486497e-06, "loss": 0.4732, "step": 2537 }, { "epoch": 0.6768, "grad_norm": 2.5918749841040465, "learning_rate": 1.2151707001402407e-06, "loss": 0.4524, "step": 2538 }, { "epoch": 0.6770666666666667, "grad_norm": 2.6193616032627856, "learning_rate": 1.213346797625396e-06, "loss": 0.4025, "step": 2539 }, { "epoch": 0.6773333333333333, "grad_norm": 2.469113469912836, "learning_rate": 1.2115238262240205e-06, "loss": 0.3851, "step": 2540 }, { "epoch": 0.6776, "grad_norm": 2.9265869543466225, "learning_rate": 1.209701787255345e-06, "loss": 0.4971, "step": 2541 }, { "epoch": 0.6778666666666666, "grad_norm": 2.7367108849981023, "learning_rate": 1.2078806820379286e-06, "loss": 0.4156, "step": 2542 }, { "epoch": 0.6781333333333334, "grad_norm": 2.744616921001055, "learning_rate": 1.2060605118896484e-06, "loss": 0.4706, "step": 2543 }, { "epoch": 0.6784, "grad_norm": 2.435449471007328, "learning_rate": 1.2042412781277113e-06, "loss": 0.3753, "step": 2544 }, { "epoch": 0.6786666666666666, "grad_norm": 2.64906541118817, "learning_rate": 1.2024229820686434e-06, "loss": 0.4024, "step": 2545 }, { "epoch": 0.6789333333333334, "grad_norm": 2.4080359482396343, "learning_rate": 1.2006056250282921e-06, "loss": 0.4217, "step": 2546 }, { "epoch": 0.6792, "grad_norm": 3.240238449787834, "learning_rate": 1.1987892083218258e-06, "loss": 0.5739, "step": 2547 }, { "epoch": 0.6794666666666667, "grad_norm": 2.792879408925663, "learning_rate": 1.1969737332637326e-06, "loss": 0.4561, "step": 2548 }, { "epoch": 0.6797333333333333, "grad_norm": 2.9988051311487296, "learning_rate": 1.195159201167819e-06, "loss": 0.4817, "step": 2549 }, { "epoch": 0.68, "grad_norm": 2.833191420992992, "learning_rate": 1.193345613347208e-06, "loss": 0.4161, "step": 2550 }, { "epoch": 0.6802666666666667, "grad_norm": 2.391508251747325, "learning_rate": 1.191532971114342e-06, "loss": 0.4079, "step": 2551 }, { "epoch": 0.6805333333333333, "grad_norm": 2.631308968047709, "learning_rate": 1.1897212757809767e-06, "loss": 0.4105, "step": 2552 }, { "epoch": 0.6808, "grad_norm": 2.9259979130959355, "learning_rate": 1.1879105286581833e-06, "loss": 0.5033, "step": 2553 }, { "epoch": 0.6810666666666667, "grad_norm": 2.939265118920854, "learning_rate": 1.1861007310563459e-06, "loss": 0.4107, "step": 2554 }, { "epoch": 0.6813333333333333, "grad_norm": 2.683091807972439, "learning_rate": 1.1842918842851651e-06, "loss": 0.4135, "step": 2555 }, { "epoch": 0.6816, "grad_norm": 2.4505082284844897, "learning_rate": 1.1824839896536466e-06, "loss": 0.3663, "step": 2556 }, { "epoch": 0.6818666666666666, "grad_norm": 2.490245425637884, "learning_rate": 1.1806770484701144e-06, "loss": 0.3895, "step": 2557 }, { "epoch": 0.6821333333333334, "grad_norm": 3.0920897702424748, "learning_rate": 1.1788710620421978e-06, "loss": 0.4187, "step": 2558 }, { "epoch": 0.6824, "grad_norm": 2.202816456921587, "learning_rate": 1.1770660316768374e-06, "loss": 0.3697, "step": 2559 }, { "epoch": 0.6826666666666666, "grad_norm": 3.015703409432662, "learning_rate": 1.1752619586802802e-06, "loss": 0.4526, "step": 2560 }, { "epoch": 0.6829333333333333, "grad_norm": 2.4677795641013307, "learning_rate": 1.173458844358082e-06, "loss": 0.4047, "step": 2561 }, { "epoch": 0.6832, "grad_norm": 2.6728415767150686, "learning_rate": 1.1716566900151036e-06, "loss": 0.3476, "step": 2562 }, { "epoch": 0.6834666666666667, "grad_norm": 2.588180630776306, "learning_rate": 1.1698554969555111e-06, "loss": 0.4142, "step": 2563 }, { "epoch": 0.6837333333333333, "grad_norm": 2.619089723490257, "learning_rate": 1.1680552664827775e-06, "loss": 0.4278, "step": 2564 }, { "epoch": 0.684, "grad_norm": 2.342095975158257, "learning_rate": 1.1662559998996755e-06, "loss": 0.3806, "step": 2565 }, { "epoch": 0.6842666666666667, "grad_norm": 2.623861475446881, "learning_rate": 1.1644576985082828e-06, "loss": 0.464, "step": 2566 }, { "epoch": 0.6845333333333333, "grad_norm": 2.5477427409046958, "learning_rate": 1.1626603636099777e-06, "loss": 0.378, "step": 2567 }, { "epoch": 0.6848, "grad_norm": 2.569817556360192, "learning_rate": 1.1608639965054383e-06, "loss": 0.4436, "step": 2568 }, { "epoch": 0.6850666666666667, "grad_norm": 2.9183388176226375, "learning_rate": 1.159068598494644e-06, "loss": 0.4766, "step": 2569 }, { "epoch": 0.6853333333333333, "grad_norm": 2.8827556431155696, "learning_rate": 1.157274170876871e-06, "loss": 0.4184, "step": 2570 }, { "epoch": 0.6856, "grad_norm": 2.7776315957575726, "learning_rate": 1.155480714950697e-06, "loss": 0.4469, "step": 2571 }, { "epoch": 0.6858666666666666, "grad_norm": 2.6784943917908985, "learning_rate": 1.15368823201399e-06, "loss": 0.4285, "step": 2572 }, { "epoch": 0.6861333333333334, "grad_norm": 2.4117005408674155, "learning_rate": 1.1518967233639207e-06, "loss": 0.3508, "step": 2573 }, { "epoch": 0.6864, "grad_norm": 2.5713113851277565, "learning_rate": 1.150106190296951e-06, "loss": 0.4037, "step": 2574 }, { "epoch": 0.6866666666666666, "grad_norm": 2.6612922097985976, "learning_rate": 1.1483166341088372e-06, "loss": 0.4051, "step": 2575 }, { "epoch": 0.6869333333333333, "grad_norm": 2.4135111737670325, "learning_rate": 1.1465280560946293e-06, "loss": 0.3849, "step": 2576 }, { "epoch": 0.6872, "grad_norm": 2.382718366250647, "learning_rate": 1.1447404575486679e-06, "loss": 0.3863, "step": 2577 }, { "epoch": 0.6874666666666667, "grad_norm": 2.947111685927436, "learning_rate": 1.1429538397645892e-06, "loss": 0.4407, "step": 2578 }, { "epoch": 0.6877333333333333, "grad_norm": 2.353261915560784, "learning_rate": 1.1411682040353126e-06, "loss": 0.3299, "step": 2579 }, { "epoch": 0.688, "grad_norm": 2.7126912272598425, "learning_rate": 1.1393835516530533e-06, "loss": 0.4566, "step": 2580 }, { "epoch": 0.6882666666666667, "grad_norm": 3.3127853302725088, "learning_rate": 1.1375998839093117e-06, "loss": 0.4971, "step": 2581 }, { "epoch": 0.6885333333333333, "grad_norm": 3.1136919341672544, "learning_rate": 1.135817202094876e-06, "loss": 0.4627, "step": 2582 }, { "epoch": 0.6888, "grad_norm": 2.32156441836775, "learning_rate": 1.1340355074998202e-06, "loss": 0.3612, "step": 2583 }, { "epoch": 0.6890666666666667, "grad_norm": 2.67853777652721, "learning_rate": 1.1322548014135077e-06, "loss": 0.3814, "step": 2584 }, { "epoch": 0.6893333333333334, "grad_norm": 2.685710250939222, "learning_rate": 1.1304750851245799e-06, "loss": 0.4122, "step": 2585 }, { "epoch": 0.6896, "grad_norm": 2.4846694233212143, "learning_rate": 1.1286963599209682e-06, "loss": 0.3923, "step": 2586 }, { "epoch": 0.6898666666666666, "grad_norm": 2.703934931449221, "learning_rate": 1.126918627089884e-06, "loss": 0.4555, "step": 2587 }, { "epoch": 0.6901333333333334, "grad_norm": 2.7237874391614176, "learning_rate": 1.1251418879178202e-06, "loss": 0.4393, "step": 2588 }, { "epoch": 0.6904, "grad_norm": 2.4250399690788313, "learning_rate": 1.1233661436905517e-06, "loss": 0.3646, "step": 2589 }, { "epoch": 0.6906666666666667, "grad_norm": 2.456613311674016, "learning_rate": 1.1215913956931313e-06, "loss": 0.3692, "step": 2590 }, { "epoch": 0.6909333333333333, "grad_norm": 2.6184306346282944, "learning_rate": 1.1198176452098958e-06, "loss": 0.4404, "step": 2591 }, { "epoch": 0.6912, "grad_norm": 2.935115884120423, "learning_rate": 1.1180448935244528e-06, "loss": 0.4355, "step": 2592 }, { "epoch": 0.6914666666666667, "grad_norm": 2.262993137751863, "learning_rate": 1.116273141919694e-06, "loss": 0.3498, "step": 2593 }, { "epoch": 0.6917333333333333, "grad_norm": 2.629489284447616, "learning_rate": 1.1145023916777837e-06, "loss": 0.4321, "step": 2594 }, { "epoch": 0.692, "grad_norm": 2.558461887562185, "learning_rate": 1.112732644080162e-06, "loss": 0.4029, "step": 2595 }, { "epoch": 0.6922666666666667, "grad_norm": 3.1959459537558326, "learning_rate": 1.1109639004075437e-06, "loss": 0.4351, "step": 2596 }, { "epoch": 0.6925333333333333, "grad_norm": 3.0184293102797493, "learning_rate": 1.1091961619399174e-06, "loss": 0.479, "step": 2597 }, { "epoch": 0.6928, "grad_norm": 2.3136686367482913, "learning_rate": 1.1074294299565438e-06, "loss": 0.3607, "step": 2598 }, { "epoch": 0.6930666666666667, "grad_norm": 2.513047086849379, "learning_rate": 1.1056637057359547e-06, "loss": 0.3982, "step": 2599 }, { "epoch": 0.6933333333333334, "grad_norm": 2.6277662010187464, "learning_rate": 1.103898990555955e-06, "loss": 0.4225, "step": 2600 }, { "epoch": 0.6936, "grad_norm": 2.3721807904127106, "learning_rate": 1.1021352856936166e-06, "loss": 0.3686, "step": 2601 }, { "epoch": 0.6938666666666666, "grad_norm": 2.6294235724784714, "learning_rate": 1.1003725924252815e-06, "loss": 0.3932, "step": 2602 }, { "epoch": 0.6941333333333334, "grad_norm": 2.824612825578296, "learning_rate": 1.0986109120265587e-06, "loss": 0.4206, "step": 2603 }, { "epoch": 0.6944, "grad_norm": 2.5996795574128857, "learning_rate": 1.0968502457723279e-06, "loss": 0.4115, "step": 2604 }, { "epoch": 0.6946666666666667, "grad_norm": 2.7190550121900445, "learning_rate": 1.0950905949367287e-06, "loss": 0.4369, "step": 2605 }, { "epoch": 0.6949333333333333, "grad_norm": 2.536916857613743, "learning_rate": 1.0933319607931698e-06, "loss": 0.4171, "step": 2606 }, { "epoch": 0.6952, "grad_norm": 2.4639094034858613, "learning_rate": 1.0915743446143258e-06, "loss": 0.3835, "step": 2607 }, { "epoch": 0.6954666666666667, "grad_norm": 2.5498938398878455, "learning_rate": 1.0898177476721294e-06, "loss": 0.3906, "step": 2608 }, { "epoch": 0.6957333333333333, "grad_norm": 2.6351833454169493, "learning_rate": 1.0880621712377807e-06, "loss": 0.4452, "step": 2609 }, { "epoch": 0.696, "grad_norm": 2.621174652795197, "learning_rate": 1.0863076165817386e-06, "loss": 0.4133, "step": 2610 }, { "epoch": 0.6962666666666667, "grad_norm": 2.480684604230722, "learning_rate": 1.0845540849737233e-06, "loss": 0.3782, "step": 2611 }, { "epoch": 0.6965333333333333, "grad_norm": 2.7916036484852023, "learning_rate": 1.0828015776827136e-06, "loss": 0.4412, "step": 2612 }, { "epoch": 0.6968, "grad_norm": 2.5897954001413948, "learning_rate": 1.0810500959769498e-06, "loss": 0.4344, "step": 2613 }, { "epoch": 0.6970666666666666, "grad_norm": 3.095327093991467, "learning_rate": 1.0792996411239273e-06, "loss": 0.4102, "step": 2614 }, { "epoch": 0.6973333333333334, "grad_norm": 2.7183806006766846, "learning_rate": 1.0775502143903995e-06, "loss": 0.4379, "step": 2615 }, { "epoch": 0.6976, "grad_norm": 2.5858177997674066, "learning_rate": 1.0758018170423756e-06, "loss": 0.3412, "step": 2616 }, { "epoch": 0.6978666666666666, "grad_norm": 2.788960113953806, "learning_rate": 1.0740544503451197e-06, "loss": 0.4226, "step": 2617 }, { "epoch": 0.6981333333333334, "grad_norm": 2.3176036164190563, "learning_rate": 1.07230811556315e-06, "loss": 0.3714, "step": 2618 }, { "epoch": 0.6984, "grad_norm": 2.497917772503619, "learning_rate": 1.0705628139602381e-06, "loss": 0.4149, "step": 2619 }, { "epoch": 0.6986666666666667, "grad_norm": 2.6198772312313037, "learning_rate": 1.0688185467994098e-06, "loss": 0.3964, "step": 2620 }, { "epoch": 0.6989333333333333, "grad_norm": 2.4853006158318314, "learning_rate": 1.067075315342937e-06, "loss": 0.4214, "step": 2621 }, { "epoch": 0.6992, "grad_norm": 3.584710129877199, "learning_rate": 1.0653331208523486e-06, "loss": 0.4429, "step": 2622 }, { "epoch": 0.6994666666666667, "grad_norm": 2.834956861126338, "learning_rate": 1.0635919645884187e-06, "loss": 0.4522, "step": 2623 }, { "epoch": 0.6997333333333333, "grad_norm": 2.592269279648097, "learning_rate": 1.061851847811172e-06, "loss": 0.4416, "step": 2624 }, { "epoch": 0.7, "grad_norm": 2.520645361398444, "learning_rate": 1.0601127717798798e-06, "loss": 0.4001, "step": 2625 }, { "epoch": 0.7002666666666667, "grad_norm": 2.710222355230466, "learning_rate": 1.0583747377530604e-06, "loss": 0.4337, "step": 2626 }, { "epoch": 0.7005333333333333, "grad_norm": 3.6963874344519, "learning_rate": 1.0566377469884806e-06, "loss": 0.5179, "step": 2627 }, { "epoch": 0.7008, "grad_norm": 2.322106791211418, "learning_rate": 1.0549018007431467e-06, "loss": 0.3758, "step": 2628 }, { "epoch": 0.7010666666666666, "grad_norm": 3.2978843466056293, "learning_rate": 1.0531669002733152e-06, "loss": 0.4559, "step": 2629 }, { "epoch": 0.7013333333333334, "grad_norm": 2.6057048812147245, "learning_rate": 1.0514330468344825e-06, "loss": 0.3989, "step": 2630 }, { "epoch": 0.7016, "grad_norm": 2.612275331409089, "learning_rate": 1.049700241681387e-06, "loss": 0.4282, "step": 2631 }, { "epoch": 0.7018666666666666, "grad_norm": 2.3197415027051407, "learning_rate": 1.0479684860680091e-06, "loss": 0.386, "step": 2632 }, { "epoch": 0.7021333333333334, "grad_norm": 2.230297514789596, "learning_rate": 1.0462377812475727e-06, "loss": 0.36, "step": 2633 }, { "epoch": 0.7024, "grad_norm": 2.6575545696977807, "learning_rate": 1.0445081284725355e-06, "loss": 0.4113, "step": 2634 }, { "epoch": 0.7026666666666667, "grad_norm": 2.328726260272141, "learning_rate": 1.042779528994597e-06, "loss": 0.3546, "step": 2635 }, { "epoch": 0.7029333333333333, "grad_norm": 2.634534204398383, "learning_rate": 1.0410519840646968e-06, "loss": 0.4362, "step": 2636 }, { "epoch": 0.7032, "grad_norm": 2.812697241351484, "learning_rate": 1.0393254949330056e-06, "loss": 0.4291, "step": 2637 }, { "epoch": 0.7034666666666667, "grad_norm": 2.411825242784883, "learning_rate": 1.0376000628489358e-06, "loss": 0.3965, "step": 2638 }, { "epoch": 0.7037333333333333, "grad_norm": 3.0110060010980138, "learning_rate": 1.0358756890611307e-06, "loss": 0.4557, "step": 2639 }, { "epoch": 0.704, "grad_norm": 2.556046403902193, "learning_rate": 1.034152374817472e-06, "loss": 0.397, "step": 2640 }, { "epoch": 0.7042666666666667, "grad_norm": 2.8024906660225133, "learning_rate": 1.0324301213650686e-06, "loss": 0.4377, "step": 2641 }, { "epoch": 0.7045333333333333, "grad_norm": 2.8188139122445244, "learning_rate": 1.0307089299502679e-06, "loss": 0.4418, "step": 2642 }, { "epoch": 0.7048, "grad_norm": 2.585764764909626, "learning_rate": 1.0289888018186448e-06, "loss": 0.4109, "step": 2643 }, { "epoch": 0.7050666666666666, "grad_norm": 2.6632264310376588, "learning_rate": 1.0272697382150066e-06, "loss": 0.4288, "step": 2644 }, { "epoch": 0.7053333333333334, "grad_norm": 2.6746614674436584, "learning_rate": 1.0255517403833887e-06, "loss": 0.3675, "step": 2645 }, { "epoch": 0.7056, "grad_norm": 2.6034926959796607, "learning_rate": 1.023834809567057e-06, "loss": 0.3753, "step": 2646 }, { "epoch": 0.7058666666666666, "grad_norm": 2.5601701149524416, "learning_rate": 1.022118947008504e-06, "loss": 0.4258, "step": 2647 }, { "epoch": 0.7061333333333333, "grad_norm": 2.346633346778921, "learning_rate": 1.020404153949448e-06, "loss": 0.3621, "step": 2648 }, { "epoch": 0.7064, "grad_norm": 2.3887376267360323, "learning_rate": 1.0186904316308386e-06, "loss": 0.3752, "step": 2649 }, { "epoch": 0.7066666666666667, "grad_norm": 2.598062021598147, "learning_rate": 1.0169777812928425e-06, "loss": 0.4145, "step": 2650 }, { "epoch": 0.7069333333333333, "grad_norm": 2.389001442670961, "learning_rate": 1.0152662041748575e-06, "loss": 0.358, "step": 2651 }, { "epoch": 0.7072, "grad_norm": 2.725601802803552, "learning_rate": 1.0135557015155018e-06, "loss": 0.3993, "step": 2652 }, { "epoch": 0.7074666666666667, "grad_norm": 2.7085217490062687, "learning_rate": 1.0118462745526159e-06, "loss": 0.416, "step": 2653 }, { "epoch": 0.7077333333333333, "grad_norm": 2.3890790109150406, "learning_rate": 1.0101379245232627e-06, "loss": 0.3562, "step": 2654 }, { "epoch": 0.708, "grad_norm": 2.1808688071920623, "learning_rate": 1.0084306526637238e-06, "loss": 0.3226, "step": 2655 }, { "epoch": 0.7082666666666667, "grad_norm": 2.503277763087085, "learning_rate": 1.0067244602095056e-06, "loss": 0.3951, "step": 2656 }, { "epoch": 0.7085333333333333, "grad_norm": 2.6516025963164482, "learning_rate": 1.0050193483953262e-06, "loss": 0.4042, "step": 2657 }, { "epoch": 0.7088, "grad_norm": 2.702021750226041, "learning_rate": 1.0033153184551276e-06, "loss": 0.3856, "step": 2658 }, { "epoch": 0.7090666666666666, "grad_norm": 2.4574472560775327, "learning_rate": 1.001612371622066e-06, "loss": 0.3772, "step": 2659 }, { "epoch": 0.7093333333333334, "grad_norm": 2.3212526681794095, "learning_rate": 9.999105091285149e-07, "loss": 0.3925, "step": 2660 }, { "epoch": 0.7096, "grad_norm": 2.7374882012284427, "learning_rate": 9.982097322060613e-07, "loss": 0.4821, "step": 2661 }, { "epoch": 0.7098666666666666, "grad_norm": 2.6862728529914124, "learning_rate": 9.965100420855098e-07, "loss": 0.4375, "step": 2662 }, { "epoch": 0.7101333333333333, "grad_norm": 2.8495614153240885, "learning_rate": 9.948114399968763e-07, "loss": 0.4358, "step": 2663 }, { "epoch": 0.7104, "grad_norm": 2.485465720808246, "learning_rate": 9.931139271693878e-07, "loss": 0.4207, "step": 2664 }, { "epoch": 0.7106666666666667, "grad_norm": 2.3908598584259626, "learning_rate": 9.914175048314873e-07, "loss": 0.4015, "step": 2665 }, { "epoch": 0.7109333333333333, "grad_norm": 2.5257271629469638, "learning_rate": 9.89722174210825e-07, "loss": 0.3915, "step": 2666 }, { "epoch": 0.7112, "grad_norm": 3.1194273614733987, "learning_rate": 9.880279365342627e-07, "loss": 0.4917, "step": 2667 }, { "epoch": 0.7114666666666667, "grad_norm": 2.52045364344029, "learning_rate": 9.8633479302787e-07, "loss": 0.3891, "step": 2668 }, { "epoch": 0.7117333333333333, "grad_norm": 2.3882431690675268, "learning_rate": 9.846427449169279e-07, "loss": 0.4083, "step": 2669 }, { "epoch": 0.712, "grad_norm": 2.522192773535552, "learning_rate": 9.829517934259192e-07, "loss": 0.3931, "step": 2670 }, { "epoch": 0.7122666666666667, "grad_norm": 2.835009290074308, "learning_rate": 9.812619397785386e-07, "loss": 0.4358, "step": 2671 }, { "epoch": 0.7125333333333334, "grad_norm": 2.51745590754622, "learning_rate": 9.795731851976837e-07, "loss": 0.4051, "step": 2672 }, { "epoch": 0.7128, "grad_norm": 2.415444199702727, "learning_rate": 9.77885530905456e-07, "loss": 0.4205, "step": 2673 }, { "epoch": 0.7130666666666666, "grad_norm": 2.8074907383088075, "learning_rate": 9.761989781231628e-07, "loss": 0.4299, "step": 2674 }, { "epoch": 0.7133333333333334, "grad_norm": 2.5746749115166447, "learning_rate": 9.74513528071312e-07, "loss": 0.4174, "step": 2675 }, { "epoch": 0.7136, "grad_norm": 2.453789428481077, "learning_rate": 9.72829181969617e-07, "loss": 0.3773, "step": 2676 }, { "epoch": 0.7138666666666666, "grad_norm": 2.5535133029771924, "learning_rate": 9.711459410369872e-07, "loss": 0.3903, "step": 2677 }, { "epoch": 0.7141333333333333, "grad_norm": 2.4162505266237897, "learning_rate": 9.694638064915374e-07, "loss": 0.3702, "step": 2678 }, { "epoch": 0.7144, "grad_norm": 2.8646642421309925, "learning_rate": 9.677827795505784e-07, "loss": 0.4219, "step": 2679 }, { "epoch": 0.7146666666666667, "grad_norm": 2.658121225569227, "learning_rate": 9.661028614306204e-07, "loss": 0.4024, "step": 2680 }, { "epoch": 0.7149333333333333, "grad_norm": 2.771105167715981, "learning_rate": 9.644240533473717e-07, "loss": 0.5193, "step": 2681 }, { "epoch": 0.7152, "grad_norm": 2.7775866146622548, "learning_rate": 9.627463565157363e-07, "loss": 0.4391, "step": 2682 }, { "epoch": 0.7154666666666667, "grad_norm": 2.81009541465566, "learning_rate": 9.61069772149815e-07, "loss": 0.4093, "step": 2683 }, { "epoch": 0.7157333333333333, "grad_norm": 2.6811427306242672, "learning_rate": 9.59394301462902e-07, "loss": 0.4523, "step": 2684 }, { "epoch": 0.716, "grad_norm": 2.7103686818269845, "learning_rate": 9.577199456674893e-07, "loss": 0.466, "step": 2685 }, { "epoch": 0.7162666666666667, "grad_norm": 2.814427773107922, "learning_rate": 9.56046705975256e-07, "loss": 0.4374, "step": 2686 }, { "epoch": 0.7165333333333334, "grad_norm": 2.5218769810994854, "learning_rate": 9.543745835970796e-07, "loss": 0.3417, "step": 2687 }, { "epoch": 0.7168, "grad_norm": 2.508127840502462, "learning_rate": 9.527035797430246e-07, "loss": 0.3915, "step": 2688 }, { "epoch": 0.7170666666666666, "grad_norm": 2.335821859733295, "learning_rate": 9.510336956223504e-07, "loss": 0.3578, "step": 2689 }, { "epoch": 0.7173333333333334, "grad_norm": 2.950315918441435, "learning_rate": 9.493649324435003e-07, "loss": 0.4467, "step": 2690 }, { "epoch": 0.7176, "grad_norm": 2.4832762039226286, "learning_rate": 9.476972914141119e-07, "loss": 0.4133, "step": 2691 }, { "epoch": 0.7178666666666667, "grad_norm": 2.8297953030206626, "learning_rate": 9.460307737410077e-07, "loss": 0.4549, "step": 2692 }, { "epoch": 0.7181333333333333, "grad_norm": 2.7857701083667274, "learning_rate": 9.443653806301983e-07, "loss": 0.4349, "step": 2693 }, { "epoch": 0.7184, "grad_norm": 2.5104973921127423, "learning_rate": 9.427011132868799e-07, "loss": 0.4219, "step": 2694 }, { "epoch": 0.7186666666666667, "grad_norm": 2.887037396897826, "learning_rate": 9.410379729154345e-07, "loss": 0.3438, "step": 2695 }, { "epoch": 0.7189333333333333, "grad_norm": 2.7693553043568984, "learning_rate": 9.393759607194283e-07, "loss": 0.4553, "step": 2696 }, { "epoch": 0.7192, "grad_norm": 2.4777987952032525, "learning_rate": 9.377150779016103e-07, "loss": 0.3571, "step": 2697 }, { "epoch": 0.7194666666666667, "grad_norm": 2.272017808221227, "learning_rate": 9.360553256639157e-07, "loss": 0.333, "step": 2698 }, { "epoch": 0.7197333333333333, "grad_norm": 2.6542782728840195, "learning_rate": 9.343967052074551e-07, "loss": 0.3722, "step": 2699 }, { "epoch": 0.72, "grad_norm": 2.4746262337067453, "learning_rate": 9.327392177325271e-07, "loss": 0.3981, "step": 2700 }, { "epoch": 0.7202666666666667, "grad_norm": 2.5535113738596196, "learning_rate": 9.310828644386055e-07, "loss": 0.3783, "step": 2701 }, { "epoch": 0.7205333333333334, "grad_norm": 2.2487246935182923, "learning_rate": 9.294276465243457e-07, "loss": 0.3555, "step": 2702 }, { "epoch": 0.7208, "grad_norm": 2.4113413079331854, "learning_rate": 9.277735651875802e-07, "loss": 0.3662, "step": 2703 }, { "epoch": 0.7210666666666666, "grad_norm": 2.746898877963143, "learning_rate": 9.261206216253188e-07, "loss": 0.4673, "step": 2704 }, { "epoch": 0.7213333333333334, "grad_norm": 2.6779362134163236, "learning_rate": 9.244688170337513e-07, "loss": 0.4045, "step": 2705 }, { "epoch": 0.7216, "grad_norm": 2.3079488808666087, "learning_rate": 9.22818152608237e-07, "loss": 0.38, "step": 2706 }, { "epoch": 0.7218666666666667, "grad_norm": 3.0738814771877205, "learning_rate": 9.211686295433165e-07, "loss": 0.4619, "step": 2707 }, { "epoch": 0.7221333333333333, "grad_norm": 2.4648051688285384, "learning_rate": 9.195202490327005e-07, "loss": 0.4014, "step": 2708 }, { "epoch": 0.7224, "grad_norm": 2.8023987883947177, "learning_rate": 9.178730122692742e-07, "loss": 0.3968, "step": 2709 }, { "epoch": 0.7226666666666667, "grad_norm": 2.6662788312971344, "learning_rate": 9.162269204450947e-07, "loss": 0.42, "step": 2710 }, { "epoch": 0.7229333333333333, "grad_norm": 2.2757717577915026, "learning_rate": 9.145819747513909e-07, "loss": 0.3445, "step": 2711 }, { "epoch": 0.7232, "grad_norm": 2.8958233549832055, "learning_rate": 9.129381763785622e-07, "loss": 0.4428, "step": 2712 }, { "epoch": 0.7234666666666667, "grad_norm": 2.864598810046732, "learning_rate": 9.112955265161766e-07, "loss": 0.4365, "step": 2713 }, { "epoch": 0.7237333333333333, "grad_norm": 2.459637846248904, "learning_rate": 9.096540263529738e-07, "loss": 0.4103, "step": 2714 }, { "epoch": 0.724, "grad_norm": 2.3666230475731047, "learning_rate": 9.080136770768588e-07, "loss": 0.3953, "step": 2715 }, { "epoch": 0.7242666666666666, "grad_norm": 2.674927147756033, "learning_rate": 9.063744798749046e-07, "loss": 0.421, "step": 2716 }, { "epoch": 0.7245333333333334, "grad_norm": 2.691944997901286, "learning_rate": 9.047364359333497e-07, "loss": 0.4244, "step": 2717 }, { "epoch": 0.7248, "grad_norm": 2.27665428067493, "learning_rate": 9.030995464376014e-07, "loss": 0.3456, "step": 2718 }, { "epoch": 0.7250666666666666, "grad_norm": 3.4293704177520317, "learning_rate": 9.014638125722253e-07, "loss": 0.4713, "step": 2719 }, { "epoch": 0.7253333333333334, "grad_norm": 2.4044741176219793, "learning_rate": 8.998292355209574e-07, "loss": 0.3768, "step": 2720 }, { "epoch": 0.7256, "grad_norm": 2.7111171524612487, "learning_rate": 8.981958164666924e-07, "loss": 0.4309, "step": 2721 }, { "epoch": 0.7258666666666667, "grad_norm": 2.2959711943543835, "learning_rate": 8.965635565914879e-07, "loss": 0.359, "step": 2722 }, { "epoch": 0.7261333333333333, "grad_norm": 2.494765106873342, "learning_rate": 8.949324570765633e-07, "loss": 0.3608, "step": 2723 }, { "epoch": 0.7264, "grad_norm": 2.9902046354311134, "learning_rate": 8.933025191022976e-07, "loss": 0.4354, "step": 2724 }, { "epoch": 0.7266666666666667, "grad_norm": 2.743727203258282, "learning_rate": 8.916737438482295e-07, "loss": 0.4114, "step": 2725 }, { "epoch": 0.7269333333333333, "grad_norm": 2.604728633564847, "learning_rate": 8.900461324930553e-07, "loss": 0.4383, "step": 2726 }, { "epoch": 0.7272, "grad_norm": 2.611839174631844, "learning_rate": 8.884196862146319e-07, "loss": 0.4093, "step": 2727 }, { "epoch": 0.7274666666666667, "grad_norm": 2.632831075070098, "learning_rate": 8.867944061899703e-07, "loss": 0.4728, "step": 2728 }, { "epoch": 0.7277333333333333, "grad_norm": 2.4865194380847653, "learning_rate": 8.851702935952377e-07, "loss": 0.4212, "step": 2729 }, { "epoch": 0.728, "grad_norm": 2.4976847986576627, "learning_rate": 8.835473496057581e-07, "loss": 0.4164, "step": 2730 }, { "epoch": 0.7282666666666666, "grad_norm": 2.695638131792631, "learning_rate": 8.819255753960079e-07, "loss": 0.4231, "step": 2731 }, { "epoch": 0.7285333333333334, "grad_norm": 2.260435248012946, "learning_rate": 8.803049721396187e-07, "loss": 0.3791, "step": 2732 }, { "epoch": 0.7288, "grad_norm": 2.366128156267025, "learning_rate": 8.786855410093725e-07, "loss": 0.3851, "step": 2733 }, { "epoch": 0.7290666666666666, "grad_norm": 2.4487026149605375, "learning_rate": 8.770672831772071e-07, "loss": 0.3838, "step": 2734 }, { "epoch": 0.7293333333333333, "grad_norm": 2.9390751907384316, "learning_rate": 8.754501998142053e-07, "loss": 0.4566, "step": 2735 }, { "epoch": 0.7296, "grad_norm": 2.5083174446171133, "learning_rate": 8.738342920906056e-07, "loss": 0.3726, "step": 2736 }, { "epoch": 0.7298666666666667, "grad_norm": 2.9352907682913805, "learning_rate": 8.72219561175793e-07, "loss": 0.4467, "step": 2737 }, { "epoch": 0.7301333333333333, "grad_norm": 2.8768063715705887, "learning_rate": 8.706060082383008e-07, "loss": 0.446, "step": 2738 }, { "epoch": 0.7304, "grad_norm": 2.6347340848687137, "learning_rate": 8.689936344458105e-07, "loss": 0.4302, "step": 2739 }, { "epoch": 0.7306666666666667, "grad_norm": 2.434607110166239, "learning_rate": 8.673824409651493e-07, "loss": 0.3756, "step": 2740 }, { "epoch": 0.7309333333333333, "grad_norm": 2.7811351198713856, "learning_rate": 8.657724289622931e-07, "loss": 0.4357, "step": 2741 }, { "epoch": 0.7312, "grad_norm": 2.5290377700339532, "learning_rate": 8.641635996023582e-07, "loss": 0.4052, "step": 2742 }, { "epoch": 0.7314666666666667, "grad_norm": 2.4501308584671424, "learning_rate": 8.625559540496092e-07, "loss": 0.388, "step": 2743 }, { "epoch": 0.7317333333333333, "grad_norm": 2.9552201674020746, "learning_rate": 8.60949493467452e-07, "loss": 0.4309, "step": 2744 }, { "epoch": 0.732, "grad_norm": 3.1943664810129975, "learning_rate": 8.593442190184353e-07, "loss": 0.4381, "step": 2745 }, { "epoch": 0.7322666666666666, "grad_norm": 2.3941992151378533, "learning_rate": 8.577401318642489e-07, "loss": 0.4197, "step": 2746 }, { "epoch": 0.7325333333333334, "grad_norm": 3.104604203225406, "learning_rate": 8.561372331657261e-07, "loss": 0.4389, "step": 2747 }, { "epoch": 0.7328, "grad_norm": 2.486915803312621, "learning_rate": 8.545355240828346e-07, "loss": 0.3796, "step": 2748 }, { "epoch": 0.7330666666666666, "grad_norm": 2.6777610299670447, "learning_rate": 8.529350057746877e-07, "loss": 0.4581, "step": 2749 }, { "epoch": 0.7333333333333333, "grad_norm": 2.667236842807598, "learning_rate": 8.513356793995326e-07, "loss": 0.3901, "step": 2750 }, { "epoch": 0.7336, "grad_norm": 2.7636554039360344, "learning_rate": 8.497375461147553e-07, "loss": 0.4405, "step": 2751 }, { "epoch": 0.7338666666666667, "grad_norm": 2.5732739762225036, "learning_rate": 8.481406070768785e-07, "loss": 0.4161, "step": 2752 }, { "epoch": 0.7341333333333333, "grad_norm": 2.3564324814576927, "learning_rate": 8.465448634415596e-07, "loss": 0.3683, "step": 2753 }, { "epoch": 0.7344, "grad_norm": 2.5812432250275372, "learning_rate": 8.449503163635944e-07, "loss": 0.4148, "step": 2754 }, { "epoch": 0.7346666666666667, "grad_norm": 2.6363076611183787, "learning_rate": 8.433569669969069e-07, "loss": 0.3984, "step": 2755 }, { "epoch": 0.7349333333333333, "grad_norm": 2.5327700964494846, "learning_rate": 8.4176481649456e-07, "loss": 0.4129, "step": 2756 }, { "epoch": 0.7352, "grad_norm": 2.6440255465051163, "learning_rate": 8.401738660087455e-07, "loss": 0.4742, "step": 2757 }, { "epoch": 0.7354666666666667, "grad_norm": 2.4849178661420774, "learning_rate": 8.385841166907888e-07, "loss": 0.402, "step": 2758 }, { "epoch": 0.7357333333333334, "grad_norm": 2.4586490252234867, "learning_rate": 8.369955696911444e-07, "loss": 0.402, "step": 2759 }, { "epoch": 0.736, "grad_norm": 2.720619905585066, "learning_rate": 8.354082261593982e-07, "loss": 0.4011, "step": 2760 }, { "epoch": 0.7362666666666666, "grad_norm": 4.384956310186125, "learning_rate": 8.338220872442637e-07, "loss": 0.3897, "step": 2761 }, { "epoch": 0.7365333333333334, "grad_norm": 2.8057075586533946, "learning_rate": 8.322371540935836e-07, "loss": 0.4586, "step": 2762 }, { "epoch": 0.7368, "grad_norm": 2.6586854319330873, "learning_rate": 8.306534278543287e-07, "loss": 0.4194, "step": 2763 }, { "epoch": 0.7370666666666666, "grad_norm": 2.349732784209399, "learning_rate": 8.290709096725955e-07, "loss": 0.3739, "step": 2764 }, { "epoch": 0.7373333333333333, "grad_norm": 2.569808707213451, "learning_rate": 8.274896006936056e-07, "loss": 0.372, "step": 2765 }, { "epoch": 0.7376, "grad_norm": 2.3684532613445035, "learning_rate": 8.259095020617066e-07, "loss": 0.3775, "step": 2766 }, { "epoch": 0.7378666666666667, "grad_norm": 2.6078061452446257, "learning_rate": 8.2433061492037e-07, "loss": 0.4117, "step": 2767 }, { "epoch": 0.7381333333333333, "grad_norm": 2.310764562699799, "learning_rate": 8.227529404121903e-07, "loss": 0.3707, "step": 2768 }, { "epoch": 0.7384, "grad_norm": 2.4328178938418894, "learning_rate": 8.211764796788841e-07, "loss": 0.3967, "step": 2769 }, { "epoch": 0.7386666666666667, "grad_norm": 2.7080570268568662, "learning_rate": 8.196012338612922e-07, "loss": 0.4629, "step": 2770 }, { "epoch": 0.7389333333333333, "grad_norm": 3.0059101124219367, "learning_rate": 8.180272040993709e-07, "loss": 0.4244, "step": 2771 }, { "epoch": 0.7392, "grad_norm": 2.845113216755147, "learning_rate": 8.164543915322026e-07, "loss": 0.4226, "step": 2772 }, { "epoch": 0.7394666666666667, "grad_norm": 2.448613091383591, "learning_rate": 8.148827972979848e-07, "loss": 0.369, "step": 2773 }, { "epoch": 0.7397333333333334, "grad_norm": 2.687630002640376, "learning_rate": 8.133124225340344e-07, "loss": 0.4011, "step": 2774 }, { "epoch": 0.74, "grad_norm": 2.852196330609617, "learning_rate": 8.117432683767854e-07, "loss": 0.4302, "step": 2775 }, { "epoch": 0.7402666666666666, "grad_norm": 2.540627553299391, "learning_rate": 8.101753359617903e-07, "loss": 0.3801, "step": 2776 }, { "epoch": 0.7405333333333334, "grad_norm": 2.744990899603702, "learning_rate": 8.086086264237156e-07, "loss": 0.3959, "step": 2777 }, { "epoch": 0.7408, "grad_norm": 2.7859786940682367, "learning_rate": 8.070431408963434e-07, "loss": 0.4451, "step": 2778 }, { "epoch": 0.7410666666666667, "grad_norm": 2.9102290936647233, "learning_rate": 8.054788805125699e-07, "loss": 0.377, "step": 2779 }, { "epoch": 0.7413333333333333, "grad_norm": 2.404319632804378, "learning_rate": 8.039158464044047e-07, "loss": 0.3632, "step": 2780 }, { "epoch": 0.7416, "grad_norm": 2.212079870773194, "learning_rate": 8.023540397029703e-07, "loss": 0.338, "step": 2781 }, { "epoch": 0.7418666666666667, "grad_norm": 2.1933005869590754, "learning_rate": 8.007934615384996e-07, "loss": 0.3216, "step": 2782 }, { "epoch": 0.7421333333333333, "grad_norm": 3.4130506817966775, "learning_rate": 7.992341130403402e-07, "loss": 0.4712, "step": 2783 }, { "epoch": 0.7424, "grad_norm": 2.564058542044049, "learning_rate": 7.976759953369445e-07, "loss": 0.384, "step": 2784 }, { "epoch": 0.7426666666666667, "grad_norm": 2.633866827975255, "learning_rate": 7.961191095558785e-07, "loss": 0.3839, "step": 2785 }, { "epoch": 0.7429333333333333, "grad_norm": 2.214558296409854, "learning_rate": 7.945634568238148e-07, "loss": 0.3075, "step": 2786 }, { "epoch": 0.7432, "grad_norm": 2.5370832992452286, "learning_rate": 7.93009038266534e-07, "loss": 0.3704, "step": 2787 }, { "epoch": 0.7434666666666667, "grad_norm": 2.3511618508818852, "learning_rate": 7.914558550089232e-07, "loss": 0.3462, "step": 2788 }, { "epoch": 0.7437333333333334, "grad_norm": 2.3300930463733764, "learning_rate": 7.899039081749754e-07, "loss": 0.3531, "step": 2789 }, { "epoch": 0.744, "grad_norm": 2.266563256808987, "learning_rate": 7.883531988877921e-07, "loss": 0.3294, "step": 2790 }, { "epoch": 0.7442666666666666, "grad_norm": 2.516984772828089, "learning_rate": 7.868037282695726e-07, "loss": 0.4018, "step": 2791 }, { "epoch": 0.7445333333333334, "grad_norm": 2.5230098982229023, "learning_rate": 7.852554974416263e-07, "loss": 0.4012, "step": 2792 }, { "epoch": 0.7448, "grad_norm": 2.7176021442109715, "learning_rate": 7.837085075243623e-07, "loss": 0.4159, "step": 2793 }, { "epoch": 0.7450666666666667, "grad_norm": 2.6938145783021694, "learning_rate": 7.821627596372916e-07, "loss": 0.4465, "step": 2794 }, { "epoch": 0.7453333333333333, "grad_norm": 2.657033959696116, "learning_rate": 7.806182548990274e-07, "loss": 0.3874, "step": 2795 }, { "epoch": 0.7456, "grad_norm": 2.3547066142727666, "learning_rate": 7.790749944272827e-07, "loss": 0.3847, "step": 2796 }, { "epoch": 0.7458666666666667, "grad_norm": 3.1959701736474404, "learning_rate": 7.775329793388703e-07, "loss": 0.4446, "step": 2797 }, { "epoch": 0.7461333333333333, "grad_norm": 3.13326954148568, "learning_rate": 7.759922107497006e-07, "loss": 0.5241, "step": 2798 }, { "epoch": 0.7464, "grad_norm": 4.024975143007024, "learning_rate": 7.744526897747845e-07, "loss": 0.4155, "step": 2799 }, { "epoch": 0.7466666666666667, "grad_norm": 2.6277966758930877, "learning_rate": 7.729144175282283e-07, "loss": 0.4488, "step": 2800 }, { "epoch": 0.7469333333333333, "grad_norm": 2.3408794295631035, "learning_rate": 7.713773951232342e-07, "loss": 0.3133, "step": 2801 }, { "epoch": 0.7472, "grad_norm": 2.6139259910687134, "learning_rate": 7.698416236721001e-07, "loss": 0.4512, "step": 2802 }, { "epoch": 0.7474666666666666, "grad_norm": 2.5859380530816027, "learning_rate": 7.683071042862214e-07, "loss": 0.4064, "step": 2803 }, { "epoch": 0.7477333333333334, "grad_norm": 2.425563877218714, "learning_rate": 7.66773838076082e-07, "loss": 0.3532, "step": 2804 }, { "epoch": 0.748, "grad_norm": 3.1621432859078005, "learning_rate": 7.65241826151264e-07, "loss": 0.4259, "step": 2805 }, { "epoch": 0.7482666666666666, "grad_norm": 2.4842409081027212, "learning_rate": 7.637110696204397e-07, "loss": 0.3833, "step": 2806 }, { "epoch": 0.7485333333333334, "grad_norm": 2.550549547613148, "learning_rate": 7.621815695913728e-07, "loss": 0.3777, "step": 2807 }, { "epoch": 0.7488, "grad_norm": 2.7991106830113024, "learning_rate": 7.606533271709177e-07, "loss": 0.4538, "step": 2808 }, { "epoch": 0.7490666666666667, "grad_norm": 2.4230686356061795, "learning_rate": 7.591263434650192e-07, "loss": 0.3782, "step": 2809 }, { "epoch": 0.7493333333333333, "grad_norm": 3.030686541115548, "learning_rate": 7.576006195787109e-07, "loss": 0.4347, "step": 2810 }, { "epoch": 0.7496, "grad_norm": 2.4658306494203717, "learning_rate": 7.56076156616114e-07, "loss": 0.3688, "step": 2811 }, { "epoch": 0.7498666666666667, "grad_norm": 2.660438586481405, "learning_rate": 7.545529556804393e-07, "loss": 0.3657, "step": 2812 }, { "epoch": 0.7501333333333333, "grad_norm": 2.9559762368374893, "learning_rate": 7.530310178739828e-07, "loss": 0.4576, "step": 2813 }, { "epoch": 0.7504, "grad_norm": 2.6390952410003865, "learning_rate": 7.515103442981259e-07, "loss": 0.413, "step": 2814 }, { "epoch": 0.7506666666666667, "grad_norm": 2.4921514827124933, "learning_rate": 7.499909360533361e-07, "loss": 0.3676, "step": 2815 }, { "epoch": 0.7509333333333333, "grad_norm": 2.678309786668359, "learning_rate": 7.48472794239165e-07, "loss": 0.4388, "step": 2816 }, { "epoch": 0.7512, "grad_norm": 2.521400194607578, "learning_rate": 7.469559199542475e-07, "loss": 0.3782, "step": 2817 }, { "epoch": 0.7514666666666666, "grad_norm": 2.5739708800028396, "learning_rate": 7.454403142963007e-07, "loss": 0.4135, "step": 2818 }, { "epoch": 0.7517333333333334, "grad_norm": 2.526303369463712, "learning_rate": 7.439259783621267e-07, "loss": 0.3422, "step": 2819 }, { "epoch": 0.752, "grad_norm": 2.414697980697904, "learning_rate": 7.424129132476027e-07, "loss": 0.3806, "step": 2820 }, { "epoch": 0.7522666666666666, "grad_norm": 2.6940734929936436, "learning_rate": 7.409011200476928e-07, "loss": 0.4025, "step": 2821 }, { "epoch": 0.7525333333333334, "grad_norm": 3.6416498413438276, "learning_rate": 7.393905998564369e-07, "loss": 0.478, "step": 2822 }, { "epoch": 0.7528, "grad_norm": 2.4014413364224865, "learning_rate": 7.378813537669543e-07, "loss": 0.3898, "step": 2823 }, { "epoch": 0.7530666666666667, "grad_norm": 3.0153900028476555, "learning_rate": 7.363733828714426e-07, "loss": 0.4624, "step": 2824 }, { "epoch": 0.7533333333333333, "grad_norm": 2.442705582069899, "learning_rate": 7.348666882611752e-07, "loss": 0.4067, "step": 2825 }, { "epoch": 0.7536, "grad_norm": 2.9702435944295145, "learning_rate": 7.333612710265062e-07, "loss": 0.393, "step": 2826 }, { "epoch": 0.7538666666666667, "grad_norm": 2.347824057776328, "learning_rate": 7.318571322568588e-07, "loss": 0.3798, "step": 2827 }, { "epoch": 0.7541333333333333, "grad_norm": 2.789121210217956, "learning_rate": 7.303542730407364e-07, "loss": 0.4448, "step": 2828 }, { "epoch": 0.7544, "grad_norm": 2.666054728566407, "learning_rate": 7.288526944657142e-07, "loss": 0.4006, "step": 2829 }, { "epoch": 0.7546666666666667, "grad_norm": 2.6362514486467195, "learning_rate": 7.27352397618441e-07, "loss": 0.3875, "step": 2830 }, { "epoch": 0.7549333333333333, "grad_norm": 2.730520804131372, "learning_rate": 7.258533835846365e-07, "loss": 0.4307, "step": 2831 }, { "epoch": 0.7552, "grad_norm": 2.3685388400108427, "learning_rate": 7.243556534490967e-07, "loss": 0.3608, "step": 2832 }, { "epoch": 0.7554666666666666, "grad_norm": 2.9539069287047433, "learning_rate": 7.228592082956815e-07, "loss": 0.4399, "step": 2833 }, { "epoch": 0.7557333333333334, "grad_norm": 2.5409076835523896, "learning_rate": 7.213640492073273e-07, "loss": 0.3764, "step": 2834 }, { "epoch": 0.756, "grad_norm": 2.435680796898176, "learning_rate": 7.198701772660363e-07, "loss": 0.4273, "step": 2835 }, { "epoch": 0.7562666666666666, "grad_norm": 2.5065711175229772, "learning_rate": 7.183775935528805e-07, "loss": 0.3834, "step": 2836 }, { "epoch": 0.7565333333333333, "grad_norm": 2.7587235004092063, "learning_rate": 7.168862991479988e-07, "loss": 0.4695, "step": 2837 }, { "epoch": 0.7568, "grad_norm": 2.9995771188163878, "learning_rate": 7.153962951305973e-07, "loss": 0.4776, "step": 2838 }, { "epoch": 0.7570666666666667, "grad_norm": 3.0977232884992474, "learning_rate": 7.139075825789504e-07, "loss": 0.4095, "step": 2839 }, { "epoch": 0.7573333333333333, "grad_norm": 2.6667023587143435, "learning_rate": 7.124201625703933e-07, "loss": 0.4012, "step": 2840 }, { "epoch": 0.7576, "grad_norm": 2.618886875525764, "learning_rate": 7.109340361813305e-07, "loss": 0.3779, "step": 2841 }, { "epoch": 0.7578666666666667, "grad_norm": 3.8046197591597792, "learning_rate": 7.094492044872281e-07, "loss": 0.4269, "step": 2842 }, { "epoch": 0.7581333333333333, "grad_norm": 3.1823659487560123, "learning_rate": 7.079656685626152e-07, "loss": 0.4995, "step": 2843 }, { "epoch": 0.7584, "grad_norm": 2.466349631931825, "learning_rate": 7.064834294810835e-07, "loss": 0.3632, "step": 2844 }, { "epoch": 0.7586666666666667, "grad_norm": 2.5058171602827297, "learning_rate": 7.050024883152867e-07, "loss": 0.374, "step": 2845 }, { "epoch": 0.7589333333333333, "grad_norm": 2.682930014255041, "learning_rate": 7.035228461369384e-07, "loss": 0.4367, "step": 2846 }, { "epoch": 0.7592, "grad_norm": 2.431480244730602, "learning_rate": 7.020445040168122e-07, "loss": 0.3727, "step": 2847 }, { "epoch": 0.7594666666666666, "grad_norm": 2.586182423879681, "learning_rate": 7.005674630247434e-07, "loss": 0.3911, "step": 2848 }, { "epoch": 0.7597333333333334, "grad_norm": 2.9288755873146215, "learning_rate": 6.9909172422962e-07, "loss": 0.4595, "step": 2849 }, { "epoch": 0.76, "grad_norm": 3.040010570022961, "learning_rate": 6.976172886993943e-07, "loss": 0.4599, "step": 2850 }, { "epoch": 0.7602666666666666, "grad_norm": 2.427847682686299, "learning_rate": 6.961441575010703e-07, "loss": 0.3762, "step": 2851 }, { "epoch": 0.7605333333333333, "grad_norm": 2.253222603769582, "learning_rate": 6.946723317007129e-07, "loss": 0.3382, "step": 2852 }, { "epoch": 0.7608, "grad_norm": 2.5276513212740634, "learning_rate": 6.932018123634368e-07, "loss": 0.3905, "step": 2853 }, { "epoch": 0.7610666666666667, "grad_norm": 2.798415268721646, "learning_rate": 6.917326005534145e-07, "loss": 0.4595, "step": 2854 }, { "epoch": 0.7613333333333333, "grad_norm": 2.79655534029136, "learning_rate": 6.902646973338736e-07, "loss": 0.397, "step": 2855 }, { "epoch": 0.7616, "grad_norm": 2.380270333649334, "learning_rate": 6.887981037670905e-07, "loss": 0.3793, "step": 2856 }, { "epoch": 0.7618666666666667, "grad_norm": 2.5067577809792247, "learning_rate": 6.873328209143981e-07, "loss": 0.3508, "step": 2857 }, { "epoch": 0.7621333333333333, "grad_norm": 3.011023964039911, "learning_rate": 6.858688498361785e-07, "loss": 0.5086, "step": 2858 }, { "epoch": 0.7624, "grad_norm": 2.7380345174140093, "learning_rate": 6.844061915918646e-07, "loss": 0.4725, "step": 2859 }, { "epoch": 0.7626666666666667, "grad_norm": 2.7290795967967947, "learning_rate": 6.829448472399388e-07, "loss": 0.4548, "step": 2860 }, { "epoch": 0.7629333333333334, "grad_norm": 2.4176937652267743, "learning_rate": 6.814848178379357e-07, "loss": 0.3791, "step": 2861 }, { "epoch": 0.7632, "grad_norm": 2.3472737991677377, "learning_rate": 6.800261044424344e-07, "loss": 0.3348, "step": 2862 }, { "epoch": 0.7634666666666666, "grad_norm": 3.0686143679969438, "learning_rate": 6.785687081090642e-07, "loss": 0.3918, "step": 2863 }, { "epoch": 0.7637333333333334, "grad_norm": 2.6032249119397455, "learning_rate": 6.771126298924996e-07, "loss": 0.3864, "step": 2864 }, { "epoch": 0.764, "grad_norm": 2.7178457281526054, "learning_rate": 6.756578708464623e-07, "loss": 0.4811, "step": 2865 }, { "epoch": 0.7642666666666666, "grad_norm": 4.10140119634581, "learning_rate": 6.742044320237193e-07, "loss": 0.4098, "step": 2866 }, { "epoch": 0.7645333333333333, "grad_norm": 2.751376038321396, "learning_rate": 6.727523144760812e-07, "loss": 0.4351, "step": 2867 }, { "epoch": 0.7648, "grad_norm": 2.943271192272596, "learning_rate": 6.713015192544051e-07, "loss": 0.4574, "step": 2868 }, { "epoch": 0.7650666666666667, "grad_norm": 2.602594648232443, "learning_rate": 6.698520474085865e-07, "loss": 0.4523, "step": 2869 }, { "epoch": 0.7653333333333333, "grad_norm": 2.496545918502756, "learning_rate": 6.684038999875683e-07, "loss": 0.4019, "step": 2870 }, { "epoch": 0.7656, "grad_norm": 2.8356012410622964, "learning_rate": 6.669570780393317e-07, "loss": 0.4242, "step": 2871 }, { "epoch": 0.7658666666666667, "grad_norm": 2.3898107992025848, "learning_rate": 6.655115826108999e-07, "loss": 0.3994, "step": 2872 }, { "epoch": 0.7661333333333333, "grad_norm": 2.836990126795909, "learning_rate": 6.640674147483356e-07, "loss": 0.4516, "step": 2873 }, { "epoch": 0.7664, "grad_norm": 3.009453051218367, "learning_rate": 6.626245754967403e-07, "loss": 0.4449, "step": 2874 }, { "epoch": 0.7666666666666667, "grad_norm": 2.3258995417936466, "learning_rate": 6.611830659002572e-07, "loss": 0.3673, "step": 2875 }, { "epoch": 0.7669333333333334, "grad_norm": 2.979081208704945, "learning_rate": 6.597428870020617e-07, "loss": 0.4194, "step": 2876 }, { "epoch": 0.7672, "grad_norm": 2.6867556498332315, "learning_rate": 6.583040398443716e-07, "loss": 0.4314, "step": 2877 }, { "epoch": 0.7674666666666666, "grad_norm": 2.909911953120662, "learning_rate": 6.568665254684382e-07, "loss": 0.4467, "step": 2878 }, { "epoch": 0.7677333333333334, "grad_norm": 2.8960689147012255, "learning_rate": 6.554303449145483e-07, "loss": 0.4355, "step": 2879 }, { "epoch": 0.768, "grad_norm": 2.984410631845472, "learning_rate": 6.539954992220235e-07, "loss": 0.4033, "step": 2880 }, { "epoch": 0.7682666666666667, "grad_norm": 2.9991775047115747, "learning_rate": 6.525619894292224e-07, "loss": 0.5272, "step": 2881 }, { "epoch": 0.7685333333333333, "grad_norm": 2.5506311800580703, "learning_rate": 6.511298165735317e-07, "loss": 0.3911, "step": 2882 }, { "epoch": 0.7688, "grad_norm": 2.347810907149197, "learning_rate": 6.496989816913732e-07, "loss": 0.3847, "step": 2883 }, { "epoch": 0.7690666666666667, "grad_norm": 3.364365954641429, "learning_rate": 6.482694858182029e-07, "loss": 0.4728, "step": 2884 }, { "epoch": 0.7693333333333333, "grad_norm": 2.940417494012912, "learning_rate": 6.46841329988502e-07, "loss": 0.4601, "step": 2885 }, { "epoch": 0.7696, "grad_norm": 3.3834053532970936, "learning_rate": 6.45414515235788e-07, "loss": 0.5226, "step": 2886 }, { "epoch": 0.7698666666666667, "grad_norm": 2.798554801307848, "learning_rate": 6.439890425926035e-07, "loss": 0.4251, "step": 2887 }, { "epoch": 0.7701333333333333, "grad_norm": 2.3729133800489643, "learning_rate": 6.425649130905237e-07, "loss": 0.361, "step": 2888 }, { "epoch": 0.7704, "grad_norm": 2.9662567913832945, "learning_rate": 6.411421277601468e-07, "loss": 0.4689, "step": 2889 }, { "epoch": 0.7706666666666667, "grad_norm": 2.659865370379998, "learning_rate": 6.397206876311032e-07, "loss": 0.4312, "step": 2890 }, { "epoch": 0.7709333333333334, "grad_norm": 2.4570112800680306, "learning_rate": 6.383005937320474e-07, "loss": 0.3736, "step": 2891 }, { "epoch": 0.7712, "grad_norm": 2.6078482205038807, "learning_rate": 6.368818470906598e-07, "loss": 0.4167, "step": 2892 }, { "epoch": 0.7714666666666666, "grad_norm": 2.4789616319321865, "learning_rate": 6.354644487336459e-07, "loss": 0.3992, "step": 2893 }, { "epoch": 0.7717333333333334, "grad_norm": 2.5598297468900992, "learning_rate": 6.340483996867356e-07, "loss": 0.4321, "step": 2894 }, { "epoch": 0.772, "grad_norm": 2.6744405032089413, "learning_rate": 6.326337009746828e-07, "loss": 0.3812, "step": 2895 }, { "epoch": 0.7722666666666667, "grad_norm": 2.811962695917034, "learning_rate": 6.312203536212625e-07, "loss": 0.4133, "step": 2896 }, { "epoch": 0.7725333333333333, "grad_norm": 2.8969582810853636, "learning_rate": 6.298083586492757e-07, "loss": 0.4346, "step": 2897 }, { "epoch": 0.7728, "grad_norm": 2.663028285155219, "learning_rate": 6.283977170805386e-07, "loss": 0.3979, "step": 2898 }, { "epoch": 0.7730666666666667, "grad_norm": 2.7050132071365525, "learning_rate": 6.269884299358942e-07, "loss": 0.41, "step": 2899 }, { "epoch": 0.7733333333333333, "grad_norm": 2.705984935195955, "learning_rate": 6.255804982352015e-07, "loss": 0.4209, "step": 2900 }, { "epoch": 0.7736, "grad_norm": 2.7446412264383384, "learning_rate": 6.2417392299734e-07, "loss": 0.4238, "step": 2901 }, { "epoch": 0.7738666666666667, "grad_norm": 2.774258686857121, "learning_rate": 6.227687052402071e-07, "loss": 0.4445, "step": 2902 }, { "epoch": 0.7741333333333333, "grad_norm": 2.4375222113069968, "learning_rate": 6.21364845980717e-07, "loss": 0.3635, "step": 2903 }, { "epoch": 0.7744, "grad_norm": 2.571474148453655, "learning_rate": 6.199623462348042e-07, "loss": 0.3739, "step": 2904 }, { "epoch": 0.7746666666666666, "grad_norm": 2.947001029914485, "learning_rate": 6.18561207017414e-07, "loss": 0.4687, "step": 2905 }, { "epoch": 0.7749333333333334, "grad_norm": 2.7833175361661486, "learning_rate": 6.171614293425124e-07, "loss": 0.4199, "step": 2906 }, { "epoch": 0.7752, "grad_norm": 2.959306159040219, "learning_rate": 6.157630142230767e-07, "loss": 0.4115, "step": 2907 }, { "epoch": 0.7754666666666666, "grad_norm": 2.613815185402988, "learning_rate": 6.143659626710996e-07, "loss": 0.4179, "step": 2908 }, { "epoch": 0.7757333333333334, "grad_norm": 2.5819532665634575, "learning_rate": 6.129702756975856e-07, "loss": 0.4153, "step": 2909 }, { "epoch": 0.776, "grad_norm": 2.7624106584780033, "learning_rate": 6.115759543125552e-07, "loss": 0.3734, "step": 2910 }, { "epoch": 0.7762666666666667, "grad_norm": 3.0743968604390313, "learning_rate": 6.101829995250355e-07, "loss": 0.4665, "step": 2911 }, { "epoch": 0.7765333333333333, "grad_norm": 2.9343329283504813, "learning_rate": 6.08791412343068e-07, "loss": 0.4616, "step": 2912 }, { "epoch": 0.7768, "grad_norm": 2.860965148425165, "learning_rate": 6.074011937737049e-07, "loss": 0.4599, "step": 2913 }, { "epoch": 0.7770666666666667, "grad_norm": 2.562995630251855, "learning_rate": 6.060123448230062e-07, "loss": 0.4255, "step": 2914 }, { "epoch": 0.7773333333333333, "grad_norm": 2.4784623209611305, "learning_rate": 6.046248664960417e-07, "loss": 0.3989, "step": 2915 }, { "epoch": 0.7776, "grad_norm": 2.4508932392214082, "learning_rate": 6.032387597968881e-07, "loss": 0.3476, "step": 2916 }, { "epoch": 0.7778666666666667, "grad_norm": 3.0301032095312643, "learning_rate": 6.018540257286326e-07, "loss": 0.4129, "step": 2917 }, { "epoch": 0.7781333333333333, "grad_norm": 2.5781891361399945, "learning_rate": 6.004706652933643e-07, "loss": 0.3924, "step": 2918 }, { "epoch": 0.7784, "grad_norm": 2.2026528115853923, "learning_rate": 5.990886794921827e-07, "loss": 0.3442, "step": 2919 }, { "epoch": 0.7786666666666666, "grad_norm": 2.4984988439674383, "learning_rate": 5.977080693251902e-07, "loss": 0.3761, "step": 2920 }, { "epoch": 0.7789333333333334, "grad_norm": 3.009557861218217, "learning_rate": 5.963288357914943e-07, "loss": 0.4665, "step": 2921 }, { "epoch": 0.7792, "grad_norm": 2.7553385348744173, "learning_rate": 5.949509798892058e-07, "loss": 0.4441, "step": 2922 }, { "epoch": 0.7794666666666666, "grad_norm": 2.538373118963494, "learning_rate": 5.935745026154394e-07, "loss": 0.3991, "step": 2923 }, { "epoch": 0.7797333333333333, "grad_norm": 2.6812763501307812, "learning_rate": 5.921994049663113e-07, "loss": 0.4243, "step": 2924 }, { "epoch": 0.78, "grad_norm": 2.6328954231959374, "learning_rate": 5.90825687936939e-07, "loss": 0.3674, "step": 2925 }, { "epoch": 0.7802666666666667, "grad_norm": 2.514843997260084, "learning_rate": 5.89453352521443e-07, "loss": 0.3698, "step": 2926 }, { "epoch": 0.7805333333333333, "grad_norm": 2.212848318311014, "learning_rate": 5.880823997129417e-07, "loss": 0.3427, "step": 2927 }, { "epoch": 0.7808, "grad_norm": 2.680059977579938, "learning_rate": 5.867128305035538e-07, "loss": 0.445, "step": 2928 }, { "epoch": 0.7810666666666667, "grad_norm": 2.6246933147637104, "learning_rate": 5.853446458843964e-07, "loss": 0.4042, "step": 2929 }, { "epoch": 0.7813333333333333, "grad_norm": 2.622882319448965, "learning_rate": 5.839778468455853e-07, "loss": 0.4213, "step": 2930 }, { "epoch": 0.7816, "grad_norm": 2.689720568330337, "learning_rate": 5.826124343762332e-07, "loss": 0.4254, "step": 2931 }, { "epoch": 0.7818666666666667, "grad_norm": 2.488571267107362, "learning_rate": 5.812484094644483e-07, "loss": 0.3826, "step": 2932 }, { "epoch": 0.7821333333333333, "grad_norm": 2.7307527569016674, "learning_rate": 5.798857730973379e-07, "loss": 0.3942, "step": 2933 }, { "epoch": 0.7824, "grad_norm": 2.282197771200289, "learning_rate": 5.785245262609995e-07, "loss": 0.3404, "step": 2934 }, { "epoch": 0.7826666666666666, "grad_norm": 2.684711451114457, "learning_rate": 5.7716466994053e-07, "loss": 0.4397, "step": 2935 }, { "epoch": 0.7829333333333334, "grad_norm": 2.2845538094564652, "learning_rate": 5.758062051200166e-07, "loss": 0.3555, "step": 2936 }, { "epoch": 0.7832, "grad_norm": 2.502563991123121, "learning_rate": 5.744491327825425e-07, "loss": 0.3764, "step": 2937 }, { "epoch": 0.7834666666666666, "grad_norm": 2.7425445697830577, "learning_rate": 5.73093453910179e-07, "loss": 0.3861, "step": 2938 }, { "epoch": 0.7837333333333333, "grad_norm": 2.7859393727939854, "learning_rate": 5.71739169483993e-07, "loss": 0.4288, "step": 2939 }, { "epoch": 0.784, "grad_norm": 2.623564064765194, "learning_rate": 5.703862804840408e-07, "loss": 0.3895, "step": 2940 }, { "epoch": 0.7842666666666667, "grad_norm": 2.7692085006850906, "learning_rate": 5.690347878893679e-07, "loss": 0.3867, "step": 2941 }, { "epoch": 0.7845333333333333, "grad_norm": 2.654590511241293, "learning_rate": 5.676846926780108e-07, "loss": 0.4028, "step": 2942 }, { "epoch": 0.7848, "grad_norm": 2.8091491084267664, "learning_rate": 5.663359958269937e-07, "loss": 0.4562, "step": 2943 }, { "epoch": 0.7850666666666667, "grad_norm": 2.6835488910866703, "learning_rate": 5.649886983123298e-07, "loss": 0.4337, "step": 2944 }, { "epoch": 0.7853333333333333, "grad_norm": 2.978481290463809, "learning_rate": 5.636428011090178e-07, "loss": 0.4823, "step": 2945 }, { "epoch": 0.7856, "grad_norm": 2.565605902092165, "learning_rate": 5.622983051910466e-07, "loss": 0.3983, "step": 2946 }, { "epoch": 0.7858666666666667, "grad_norm": 2.3041766355102284, "learning_rate": 5.609552115313863e-07, "loss": 0.352, "step": 2947 }, { "epoch": 0.7861333333333334, "grad_norm": 2.5266509773924124, "learning_rate": 5.596135211019962e-07, "loss": 0.4039, "step": 2948 }, { "epoch": 0.7864, "grad_norm": 2.767004925648691, "learning_rate": 5.582732348738185e-07, "loss": 0.4245, "step": 2949 }, { "epoch": 0.7866666666666666, "grad_norm": 2.3175753214763484, "learning_rate": 5.569343538167791e-07, "loss": 0.3618, "step": 2950 }, { "epoch": 0.7869333333333334, "grad_norm": 2.5264844354839173, "learning_rate": 5.55596878899787e-07, "loss": 0.3512, "step": 2951 }, { "epoch": 0.7872, "grad_norm": 2.3100655843978393, "learning_rate": 5.542608110907333e-07, "loss": 0.3241, "step": 2952 }, { "epoch": 0.7874666666666666, "grad_norm": 3.1487539711308767, "learning_rate": 5.529261513564938e-07, "loss": 0.4613, "step": 2953 }, { "epoch": 0.7877333333333333, "grad_norm": 2.805973870717925, "learning_rate": 5.515929006629194e-07, "loss": 0.4399, "step": 2954 }, { "epoch": 0.788, "grad_norm": 2.4809670219099185, "learning_rate": 5.502610599748478e-07, "loss": 0.3494, "step": 2955 }, { "epoch": 0.7882666666666667, "grad_norm": 2.8674142864338634, "learning_rate": 5.48930630256092e-07, "loss": 0.4538, "step": 2956 }, { "epoch": 0.7885333333333333, "grad_norm": 2.7233729273836422, "learning_rate": 5.476016124694455e-07, "loss": 0.4162, "step": 2957 }, { "epoch": 0.7888, "grad_norm": 2.8273509285087255, "learning_rate": 5.462740075766798e-07, "loss": 0.4133, "step": 2958 }, { "epoch": 0.7890666666666667, "grad_norm": 2.5336598412029225, "learning_rate": 5.449478165385439e-07, "loss": 0.3822, "step": 2959 }, { "epoch": 0.7893333333333333, "grad_norm": 2.5665999779840667, "learning_rate": 5.436230403147635e-07, "loss": 0.3762, "step": 2960 }, { "epoch": 0.7896, "grad_norm": 2.3938459829887684, "learning_rate": 5.422996798640401e-07, "loss": 0.3853, "step": 2961 }, { "epoch": 0.7898666666666667, "grad_norm": 2.9201155764312614, "learning_rate": 5.409777361440524e-07, "loss": 0.4318, "step": 2962 }, { "epoch": 0.7901333333333334, "grad_norm": 2.5158948189122303, "learning_rate": 5.39657210111452e-07, "loss": 0.348, "step": 2963 }, { "epoch": 0.7904, "grad_norm": 2.695232212215225, "learning_rate": 5.383381027218648e-07, "loss": 0.3763, "step": 2964 }, { "epoch": 0.7906666666666666, "grad_norm": 3.228999205365549, "learning_rate": 5.370204149298902e-07, "loss": 0.4951, "step": 2965 }, { "epoch": 0.7909333333333334, "grad_norm": 2.9758506651321612, "learning_rate": 5.357041476891025e-07, "loss": 0.4361, "step": 2966 }, { "epoch": 0.7912, "grad_norm": 3.0650764051653505, "learning_rate": 5.34389301952043e-07, "loss": 0.4341, "step": 2967 }, { "epoch": 0.7914666666666667, "grad_norm": 2.4142176909934183, "learning_rate": 5.330758786702295e-07, "loss": 0.4066, "step": 2968 }, { "epoch": 0.7917333333333333, "grad_norm": 5.07257596862862, "learning_rate": 5.317638787941474e-07, "loss": 0.4056, "step": 2969 }, { "epoch": 0.792, "grad_norm": 2.7645878276192324, "learning_rate": 5.304533032732529e-07, "loss": 0.3889, "step": 2970 }, { "epoch": 0.7922666666666667, "grad_norm": 2.5345797919802573, "learning_rate": 5.291441530559713e-07, "loss": 0.3808, "step": 2971 }, { "epoch": 0.7925333333333333, "grad_norm": 2.502018317581386, "learning_rate": 5.278364290896964e-07, "loss": 0.3633, "step": 2972 }, { "epoch": 0.7928, "grad_norm": 2.4136393498617554, "learning_rate": 5.265301323207905e-07, "loss": 0.3959, "step": 2973 }, { "epoch": 0.7930666666666667, "grad_norm": 2.2407331911040633, "learning_rate": 5.252252636945812e-07, "loss": 0.3461, "step": 2974 }, { "epoch": 0.7933333333333333, "grad_norm": 2.44336393258173, "learning_rate": 5.239218241553656e-07, "loss": 0.3929, "step": 2975 }, { "epoch": 0.7936, "grad_norm": 2.59498690903291, "learning_rate": 5.226198146464043e-07, "loss": 0.3822, "step": 2976 }, { "epoch": 0.7938666666666667, "grad_norm": 2.659270098768909, "learning_rate": 5.213192361099237e-07, "loss": 0.4021, "step": 2977 }, { "epoch": 0.7941333333333334, "grad_norm": 2.5671665662050827, "learning_rate": 5.200200894871146e-07, "loss": 0.4142, "step": 2978 }, { "epoch": 0.7944, "grad_norm": 2.7138657641736055, "learning_rate": 5.187223757181314e-07, "loss": 0.449, "step": 2979 }, { "epoch": 0.7946666666666666, "grad_norm": 2.3178298984056527, "learning_rate": 5.17426095742092e-07, "loss": 0.3481, "step": 2980 }, { "epoch": 0.7949333333333334, "grad_norm": 5.227212483964543, "learning_rate": 5.161312504970759e-07, "loss": 0.4401, "step": 2981 }, { "epoch": 0.7952, "grad_norm": 2.873513553342811, "learning_rate": 5.148378409201266e-07, "loss": 0.437, "step": 2982 }, { "epoch": 0.7954666666666667, "grad_norm": 3.1268114854186133, "learning_rate": 5.135458679472443e-07, "loss": 0.476, "step": 2983 }, { "epoch": 0.7957333333333333, "grad_norm": 2.6041157829282398, "learning_rate": 5.122553325133947e-07, "loss": 0.4023, "step": 2984 }, { "epoch": 0.796, "grad_norm": 2.8273639657731624, "learning_rate": 5.109662355524997e-07, "loss": 0.4279, "step": 2985 }, { "epoch": 0.7962666666666667, "grad_norm": 2.778178574714288, "learning_rate": 5.096785779974411e-07, "loss": 0.4197, "step": 2986 }, { "epoch": 0.7965333333333333, "grad_norm": 2.56448282555024, "learning_rate": 5.083923607800597e-07, "loss": 0.4038, "step": 2987 }, { "epoch": 0.7968, "grad_norm": 2.874080034341411, "learning_rate": 5.071075848311524e-07, "loss": 0.4532, "step": 2988 }, { "epoch": 0.7970666666666667, "grad_norm": 2.5442419440181583, "learning_rate": 5.058242510804762e-07, "loss": 0.3899, "step": 2989 }, { "epoch": 0.7973333333333333, "grad_norm": 2.6950831538067743, "learning_rate": 5.045423604567396e-07, "loss": 0.3972, "step": 2990 }, { "epoch": 0.7976, "grad_norm": 2.900638543258604, "learning_rate": 5.032619138876119e-07, "loss": 0.4117, "step": 2991 }, { "epoch": 0.7978666666666666, "grad_norm": 2.4529848944791373, "learning_rate": 5.019829122997139e-07, "loss": 0.4092, "step": 2992 }, { "epoch": 0.7981333333333334, "grad_norm": 2.3295934635292626, "learning_rate": 5.007053566186223e-07, "loss": 0.3469, "step": 2993 }, { "epoch": 0.7984, "grad_norm": 2.6783059938592717, "learning_rate": 4.994292477688658e-07, "loss": 0.4365, "step": 2994 }, { "epoch": 0.7986666666666666, "grad_norm": 2.5653132769475167, "learning_rate": 4.981545866739295e-07, "loss": 0.3626, "step": 2995 }, { "epoch": 0.7989333333333334, "grad_norm": 2.9164522461623155, "learning_rate": 4.968813742562461e-07, "loss": 0.406, "step": 2996 }, { "epoch": 0.7992, "grad_norm": 2.793201889802583, "learning_rate": 4.956096114372039e-07, "loss": 0.4351, "step": 2997 }, { "epoch": 0.7994666666666667, "grad_norm": 2.6691039188528114, "learning_rate": 4.943392991371402e-07, "loss": 0.4168, "step": 2998 }, { "epoch": 0.7997333333333333, "grad_norm": 2.838472088491379, "learning_rate": 4.930704382753429e-07, "loss": 0.4066, "step": 2999 }, { "epoch": 0.8, "grad_norm": 2.8853687991618755, "learning_rate": 4.918030297700499e-07, "loss": 0.4265, "step": 3000 }, { "epoch": 0.8002666666666667, "grad_norm": 2.326677008495504, "learning_rate": 4.905370745384469e-07, "loss": 0.3534, "step": 3001 }, { "epoch": 0.8005333333333333, "grad_norm": 2.4923901285980805, "learning_rate": 4.892725734966711e-07, "loss": 0.3831, "step": 3002 }, { "epoch": 0.8008, "grad_norm": 2.7622948679972525, "learning_rate": 4.880095275598023e-07, "loss": 0.432, "step": 3003 }, { "epoch": 0.8010666666666667, "grad_norm": 2.5722089106329262, "learning_rate": 4.867479376418721e-07, "loss": 0.3944, "step": 3004 }, { "epoch": 0.8013333333333333, "grad_norm": 2.510194299436287, "learning_rate": 4.854878046558556e-07, "loss": 0.3566, "step": 3005 }, { "epoch": 0.8016, "grad_norm": 2.6242055253807464, "learning_rate": 4.842291295136747e-07, "loss": 0.3781, "step": 3006 }, { "epoch": 0.8018666666666666, "grad_norm": 2.491862037001128, "learning_rate": 4.829719131261957e-07, "loss": 0.3843, "step": 3007 }, { "epoch": 0.8021333333333334, "grad_norm": 2.9676691606500314, "learning_rate": 4.817161564032294e-07, "loss": 0.4451, "step": 3008 }, { "epoch": 0.8024, "grad_norm": 2.4929893694377108, "learning_rate": 4.804618602535308e-07, "loss": 0.3871, "step": 3009 }, { "epoch": 0.8026666666666666, "grad_norm": 2.6700055602887294, "learning_rate": 4.792090255847964e-07, "loss": 0.37, "step": 3010 }, { "epoch": 0.8029333333333334, "grad_norm": 2.583160012755656, "learning_rate": 4.779576533036676e-07, "loss": 0.4318, "step": 3011 }, { "epoch": 0.8032, "grad_norm": 2.2216132078632587, "learning_rate": 4.767077443157259e-07, "loss": 0.3366, "step": 3012 }, { "epoch": 0.8034666666666667, "grad_norm": 2.770968989138659, "learning_rate": 4.7545929952549336e-07, "loss": 0.4489, "step": 3013 }, { "epoch": 0.8037333333333333, "grad_norm": 2.343797322210326, "learning_rate": 4.7421231983643345e-07, "loss": 0.4089, "step": 3014 }, { "epoch": 0.804, "grad_norm": 2.4275736202610116, "learning_rate": 4.729668061509493e-07, "loss": 0.3677, "step": 3015 }, { "epoch": 0.8042666666666667, "grad_norm": 2.9789658513554276, "learning_rate": 4.717227593703824e-07, "loss": 0.3984, "step": 3016 }, { "epoch": 0.8045333333333333, "grad_norm": 2.6344563538365686, "learning_rate": 4.704801803950132e-07, "loss": 0.3961, "step": 3017 }, { "epoch": 0.8048, "grad_norm": 2.5063916914208746, "learning_rate": 4.692390701240612e-07, "loss": 0.3911, "step": 3018 }, { "epoch": 0.8050666666666667, "grad_norm": 2.547390941228231, "learning_rate": 4.6799942945567943e-07, "loss": 0.3834, "step": 3019 }, { "epoch": 0.8053333333333333, "grad_norm": 2.4228022194702445, "learning_rate": 4.667612592869622e-07, "loss": 0.3877, "step": 3020 }, { "epoch": 0.8056, "grad_norm": 2.967942825005316, "learning_rate": 4.655245605139358e-07, "loss": 0.399, "step": 3021 }, { "epoch": 0.8058666666666666, "grad_norm": 2.657279575770166, "learning_rate": 4.642893340315635e-07, "loss": 0.3919, "step": 3022 }, { "epoch": 0.8061333333333334, "grad_norm": 2.984625456682371, "learning_rate": 4.6305558073374195e-07, "loss": 0.411, "step": 3023 }, { "epoch": 0.8064, "grad_norm": 2.2307335765286527, "learning_rate": 4.618233015133042e-07, "loss": 0.3511, "step": 3024 }, { "epoch": 0.8066666666666666, "grad_norm": 3.0627782305824405, "learning_rate": 4.605924972620138e-07, "loss": 0.4915, "step": 3025 }, { "epoch": 0.8069333333333333, "grad_norm": 2.3881060939763543, "learning_rate": 4.59363168870568e-07, "loss": 0.3636, "step": 3026 }, { "epoch": 0.8072, "grad_norm": 2.5342760026421582, "learning_rate": 4.58135317228596e-07, "loss": 0.3996, "step": 3027 }, { "epoch": 0.8074666666666667, "grad_norm": 2.6921049753262625, "learning_rate": 4.5690894322465845e-07, "loss": 0.3997, "step": 3028 }, { "epoch": 0.8077333333333333, "grad_norm": 2.516530192127829, "learning_rate": 4.5568404774624654e-07, "loss": 0.3581, "step": 3029 }, { "epoch": 0.808, "grad_norm": 2.725364717450899, "learning_rate": 4.544606316797806e-07, "loss": 0.4011, "step": 3030 }, { "epoch": 0.8082666666666667, "grad_norm": 3.710758305491939, "learning_rate": 4.53238695910613e-07, "loss": 0.501, "step": 3031 }, { "epoch": 0.8085333333333333, "grad_norm": 2.500296097235069, "learning_rate": 4.5201824132302117e-07, "loss": 0.386, "step": 3032 }, { "epoch": 0.8088, "grad_norm": 2.5854979449298936, "learning_rate": 4.5079926880021387e-07, "loss": 0.387, "step": 3033 }, { "epoch": 0.8090666666666667, "grad_norm": 2.786619690918435, "learning_rate": 4.4958177922432564e-07, "loss": 0.4357, "step": 3034 }, { "epoch": 0.8093333333333333, "grad_norm": 2.8933251986305515, "learning_rate": 4.4836577347641824e-07, "loss": 0.41, "step": 3035 }, { "epoch": 0.8096, "grad_norm": 2.6829285440101804, "learning_rate": 4.471512524364796e-07, "loss": 0.4338, "step": 3036 }, { "epoch": 0.8098666666666666, "grad_norm": 2.7417552122326487, "learning_rate": 4.4593821698342253e-07, "loss": 0.4688, "step": 3037 }, { "epoch": 0.8101333333333334, "grad_norm": 2.3299775019748203, "learning_rate": 4.447266679950876e-07, "loss": 0.3606, "step": 3038 }, { "epoch": 0.8104, "grad_norm": 2.693854033340989, "learning_rate": 4.435166063482349e-07, "loss": 0.4062, "step": 3039 }, { "epoch": 0.8106666666666666, "grad_norm": 2.924354761825199, "learning_rate": 4.423080329185525e-07, "loss": 0.4106, "step": 3040 }, { "epoch": 0.8109333333333333, "grad_norm": 2.19407633352933, "learning_rate": 4.411009485806497e-07, "loss": 0.337, "step": 3041 }, { "epoch": 0.8112, "grad_norm": 2.939573484499129, "learning_rate": 4.398953542080578e-07, "loss": 0.4025, "step": 3042 }, { "epoch": 0.8114666666666667, "grad_norm": 2.3629579234453306, "learning_rate": 4.3869125067323047e-07, "loss": 0.3698, "step": 3043 }, { "epoch": 0.8117333333333333, "grad_norm": 2.5232786982893862, "learning_rate": 4.3748863884754246e-07, "loss": 0.4061, "step": 3044 }, { "epoch": 0.812, "grad_norm": 2.4516802934773727, "learning_rate": 4.362875196012889e-07, "loss": 0.3609, "step": 3045 }, { "epoch": 0.8122666666666667, "grad_norm": 2.597731896345142, "learning_rate": 4.350878938036843e-07, "loss": 0.3845, "step": 3046 }, { "epoch": 0.8125333333333333, "grad_norm": 3.0035944337575415, "learning_rate": 4.3388976232286494e-07, "loss": 0.4532, "step": 3047 }, { "epoch": 0.8128, "grad_norm": 2.7385798688500937, "learning_rate": 4.326931260258807e-07, "loss": 0.4059, "step": 3048 }, { "epoch": 0.8130666666666667, "grad_norm": 2.3654460744559165, "learning_rate": 4.3149798577870467e-07, "loss": 0.3503, "step": 3049 }, { "epoch": 0.8133333333333334, "grad_norm": 2.8081383972611595, "learning_rate": 4.303043424462239e-07, "loss": 0.43, "step": 3050 }, { "epoch": 0.8136, "grad_norm": 2.5506635281520134, "learning_rate": 4.2911219689224485e-07, "loss": 0.3765, "step": 3051 }, { "epoch": 0.8138666666666666, "grad_norm": 2.938556887959325, "learning_rate": 4.2792154997948613e-07, "loss": 0.3905, "step": 3052 }, { "epoch": 0.8141333333333334, "grad_norm": 2.622108981670773, "learning_rate": 4.2673240256958655e-07, "loss": 0.4333, "step": 3053 }, { "epoch": 0.8144, "grad_norm": 2.480598879686512, "learning_rate": 4.255447555230963e-07, "loss": 0.4001, "step": 3054 }, { "epoch": 0.8146666666666667, "grad_norm": 2.9731198255108153, "learning_rate": 4.2435860969948146e-07, "loss": 0.4714, "step": 3055 }, { "epoch": 0.8149333333333333, "grad_norm": 2.8509175360397077, "learning_rate": 4.2317396595712074e-07, "loss": 0.4117, "step": 3056 }, { "epoch": 0.8152, "grad_norm": 2.594576027249067, "learning_rate": 4.219908251533067e-07, "loss": 0.3923, "step": 3057 }, { "epoch": 0.8154666666666667, "grad_norm": 2.5622566314245594, "learning_rate": 4.208091881442439e-07, "loss": 0.4133, "step": 3058 }, { "epoch": 0.8157333333333333, "grad_norm": 2.9836903571628928, "learning_rate": 4.196290557850477e-07, "loss": 0.3815, "step": 3059 }, { "epoch": 0.816, "grad_norm": 2.509290184470619, "learning_rate": 4.1845042892974726e-07, "loss": 0.3831, "step": 3060 }, { "epoch": 0.8162666666666667, "grad_norm": 2.420320941088841, "learning_rate": 4.172733084312794e-07, "loss": 0.3424, "step": 3061 }, { "epoch": 0.8165333333333333, "grad_norm": 2.6306784667680034, "learning_rate": 4.1609769514149217e-07, "loss": 0.409, "step": 3062 }, { "epoch": 0.8168, "grad_norm": 2.8701124687929034, "learning_rate": 4.1492358991114287e-07, "loss": 0.4854, "step": 3063 }, { "epoch": 0.8170666666666667, "grad_norm": 2.5606675707134765, "learning_rate": 4.13750993589897e-07, "loss": 0.4003, "step": 3064 }, { "epoch": 0.8173333333333334, "grad_norm": 2.5795083889327075, "learning_rate": 4.125799070263287e-07, "loss": 0.4001, "step": 3065 }, { "epoch": 0.8176, "grad_norm": 3.1367159565639646, "learning_rate": 4.114103310679182e-07, "loss": 0.4206, "step": 3066 }, { "epoch": 0.8178666666666666, "grad_norm": 2.4348193773609585, "learning_rate": 4.102422665610556e-07, "loss": 0.3978, "step": 3067 }, { "epoch": 0.8181333333333334, "grad_norm": 2.667006359814481, "learning_rate": 4.090757143510329e-07, "loss": 0.4002, "step": 3068 }, { "epoch": 0.8184, "grad_norm": 2.4983942727555544, "learning_rate": 4.079106752820516e-07, "loss": 0.3721, "step": 3069 }, { "epoch": 0.8186666666666667, "grad_norm": 2.501974179099744, "learning_rate": 4.0674715019721616e-07, "loss": 0.3977, "step": 3070 }, { "epoch": 0.8189333333333333, "grad_norm": 2.7377578912880813, "learning_rate": 4.0558513993853576e-07, "loss": 0.395, "step": 3071 }, { "epoch": 0.8192, "grad_norm": 2.3838281278017854, "learning_rate": 4.044246453469231e-07, "loss": 0.3838, "step": 3072 }, { "epoch": 0.8194666666666667, "grad_norm": 2.4265977352448176, "learning_rate": 4.03265667262194e-07, "loss": 0.3784, "step": 3073 }, { "epoch": 0.8197333333333333, "grad_norm": 2.85866944555653, "learning_rate": 4.021082065230689e-07, "loss": 0.3959, "step": 3074 }, { "epoch": 0.82, "grad_norm": 2.620549900827815, "learning_rate": 4.009522639671662e-07, "loss": 0.3752, "step": 3075 }, { "epoch": 0.8202666666666667, "grad_norm": 2.4070090700511706, "learning_rate": 3.997978404310096e-07, "loss": 0.3655, "step": 3076 }, { "epoch": 0.8205333333333333, "grad_norm": 2.819236120858561, "learning_rate": 3.986449367500209e-07, "loss": 0.4356, "step": 3077 }, { "epoch": 0.8208, "grad_norm": 2.9312860664860185, "learning_rate": 3.9749355375852337e-07, "loss": 0.4122, "step": 3078 }, { "epoch": 0.8210666666666666, "grad_norm": 2.6163283117185943, "learning_rate": 3.9634369228973843e-07, "loss": 0.4043, "step": 3079 }, { "epoch": 0.8213333333333334, "grad_norm": 3.02480936824398, "learning_rate": 3.951953531757893e-07, "loss": 0.4875, "step": 3080 }, { "epoch": 0.8216, "grad_norm": 2.6242500143340384, "learning_rate": 3.940485372476935e-07, "loss": 0.4066, "step": 3081 }, { "epoch": 0.8218666666666666, "grad_norm": 3.2621169393405496, "learning_rate": 3.9290324533536956e-07, "loss": 0.4267, "step": 3082 }, { "epoch": 0.8221333333333334, "grad_norm": 2.723887224925732, "learning_rate": 3.917594782676315e-07, "loss": 0.3949, "step": 3083 }, { "epoch": 0.8224, "grad_norm": 2.7268344743094444, "learning_rate": 3.9061723687219027e-07, "loss": 0.4708, "step": 3084 }, { "epoch": 0.8226666666666667, "grad_norm": 2.585996997022254, "learning_rate": 3.89476521975653e-07, "loss": 0.3968, "step": 3085 }, { "epoch": 0.8229333333333333, "grad_norm": 2.6572303318828294, "learning_rate": 3.88337334403521e-07, "loss": 0.3732, "step": 3086 }, { "epoch": 0.8232, "grad_norm": 2.7585012689731774, "learning_rate": 3.871996749801926e-07, "loss": 0.4069, "step": 3087 }, { "epoch": 0.8234666666666667, "grad_norm": 2.550543893582769, "learning_rate": 3.8606354452895704e-07, "loss": 0.4014, "step": 3088 }, { "epoch": 0.8237333333333333, "grad_norm": 2.868433247658423, "learning_rate": 3.8492894387200054e-07, "loss": 0.4409, "step": 3089 }, { "epoch": 0.824, "grad_norm": 2.8248107784611864, "learning_rate": 3.8379587383039954e-07, "loss": 0.444, "step": 3090 }, { "epoch": 0.8242666666666667, "grad_norm": 2.5574405571198358, "learning_rate": 3.826643352241241e-07, "loss": 0.4073, "step": 3091 }, { "epoch": 0.8245333333333333, "grad_norm": 2.5555259571320437, "learning_rate": 3.8153432887203607e-07, "loss": 0.3885, "step": 3092 }, { "epoch": 0.8248, "grad_norm": 2.3388020678340613, "learning_rate": 3.8040585559188767e-07, "loss": 0.3636, "step": 3093 }, { "epoch": 0.8250666666666666, "grad_norm": 2.2967082289989205, "learning_rate": 3.792789162003224e-07, "loss": 0.3138, "step": 3094 }, { "epoch": 0.8253333333333334, "grad_norm": 2.308334622689365, "learning_rate": 3.781535115128729e-07, "loss": 0.349, "step": 3095 }, { "epoch": 0.8256, "grad_norm": 2.7053456274361625, "learning_rate": 3.7702964234396346e-07, "loss": 0.391, "step": 3096 }, { "epoch": 0.8258666666666666, "grad_norm": 2.380889868981662, "learning_rate": 3.7590730950690323e-07, "loss": 0.3629, "step": 3097 }, { "epoch": 0.8261333333333334, "grad_norm": 4.416567937637563, "learning_rate": 3.7478651381389367e-07, "loss": 0.4894, "step": 3098 }, { "epoch": 0.8264, "grad_norm": 2.4978557966411805, "learning_rate": 3.736672560760207e-07, "loss": 0.4035, "step": 3099 }, { "epoch": 0.8266666666666667, "grad_norm": 3.2144386017983764, "learning_rate": 3.7254953710326004e-07, "loss": 0.4192, "step": 3100 }, { "epoch": 0.8269333333333333, "grad_norm": 2.8216710605380038, "learning_rate": 3.7143335770447125e-07, "loss": 0.4092, "step": 3101 }, { "epoch": 0.8272, "grad_norm": 2.8284581622908003, "learning_rate": 3.703187186874002e-07, "loss": 0.4681, "step": 3102 }, { "epoch": 0.8274666666666667, "grad_norm": 2.5989415874622894, "learning_rate": 3.692056208586808e-07, "loss": 0.3938, "step": 3103 }, { "epoch": 0.8277333333333333, "grad_norm": 2.5659075092004113, "learning_rate": 3.680940650238274e-07, "loss": 0.3859, "step": 3104 }, { "epoch": 0.828, "grad_norm": 2.5778274473874716, "learning_rate": 3.6698405198724194e-07, "loss": 0.4014, "step": 3105 }, { "epoch": 0.8282666666666667, "grad_norm": 2.664668665616601, "learning_rate": 3.658755825522084e-07, "loss": 0.4181, "step": 3106 }, { "epoch": 0.8285333333333333, "grad_norm": 2.5515120133364646, "learning_rate": 3.6476865752089334e-07, "loss": 0.4132, "step": 3107 }, { "epoch": 0.8288, "grad_norm": 2.291801599071358, "learning_rate": 3.6366327769434604e-07, "loss": 0.3268, "step": 3108 }, { "epoch": 0.8290666666666666, "grad_norm": 2.804153688942232, "learning_rate": 3.6255944387249913e-07, "loss": 0.4156, "step": 3109 }, { "epoch": 0.8293333333333334, "grad_norm": 2.360114603549388, "learning_rate": 3.614571568541631e-07, "loss": 0.3771, "step": 3110 }, { "epoch": 0.8296, "grad_norm": 2.682158449660243, "learning_rate": 3.603564174370322e-07, "loss": 0.3853, "step": 3111 }, { "epoch": 0.8298666666666666, "grad_norm": 2.9674502907576707, "learning_rate": 3.5925722641767914e-07, "loss": 0.4565, "step": 3112 }, { "epoch": 0.8301333333333333, "grad_norm": 2.365076192769702, "learning_rate": 3.581595845915567e-07, "loss": 0.3386, "step": 3113 }, { "epoch": 0.8304, "grad_norm": 2.737684350924757, "learning_rate": 3.570634927529959e-07, "loss": 0.424, "step": 3114 }, { "epoch": 0.8306666666666667, "grad_norm": 2.361359012041748, "learning_rate": 3.559689516952064e-07, "loss": 0.4041, "step": 3115 }, { "epoch": 0.8309333333333333, "grad_norm": 2.8012083757485504, "learning_rate": 3.548759622102768e-07, "loss": 0.4265, "step": 3116 }, { "epoch": 0.8312, "grad_norm": 3.222833508115907, "learning_rate": 3.5378452508917027e-07, "loss": 0.4664, "step": 3117 }, { "epoch": 0.8314666666666667, "grad_norm": 3.1713210185302287, "learning_rate": 3.5269464112172913e-07, "loss": 0.4806, "step": 3118 }, { "epoch": 0.8317333333333333, "grad_norm": 2.6809857873627574, "learning_rate": 3.5160631109667025e-07, "loss": 0.4121, "step": 3119 }, { "epoch": 0.832, "grad_norm": 2.6563191798330346, "learning_rate": 3.505195358015867e-07, "loss": 0.4414, "step": 3120 }, { "epoch": 0.8322666666666667, "grad_norm": 2.462385355001219, "learning_rate": 3.4943431602294576e-07, "loss": 0.4086, "step": 3121 }, { "epoch": 0.8325333333333333, "grad_norm": 2.5389160994101827, "learning_rate": 3.4835065254608977e-07, "loss": 0.3945, "step": 3122 }, { "epoch": 0.8328, "grad_norm": 2.6081717866942924, "learning_rate": 3.472685461552341e-07, "loss": 0.3864, "step": 3123 }, { "epoch": 0.8330666666666666, "grad_norm": 2.4964666544468983, "learning_rate": 3.461879976334673e-07, "loss": 0.3604, "step": 3124 }, { "epoch": 0.8333333333333334, "grad_norm": 2.576607366791878, "learning_rate": 3.4510900776275195e-07, "loss": 0.4174, "step": 3125 }, { "epoch": 0.8336, "grad_norm": 2.5227918491243124, "learning_rate": 3.4403157732392085e-07, "loss": 0.4229, "step": 3126 }, { "epoch": 0.8338666666666666, "grad_norm": 2.7455066808412267, "learning_rate": 3.429557070966794e-07, "loss": 0.4058, "step": 3127 }, { "epoch": 0.8341333333333333, "grad_norm": 2.7615162160329483, "learning_rate": 3.418813978596025e-07, "loss": 0.3818, "step": 3128 }, { "epoch": 0.8344, "grad_norm": 2.569269209166574, "learning_rate": 3.4080865039013895e-07, "loss": 0.3807, "step": 3129 }, { "epoch": 0.8346666666666667, "grad_norm": 2.865299459252496, "learning_rate": 3.397374654646024e-07, "loss": 0.4264, "step": 3130 }, { "epoch": 0.8349333333333333, "grad_norm": 2.397822667116492, "learning_rate": 3.3866784385817864e-07, "loss": 0.3731, "step": 3131 }, { "epoch": 0.8352, "grad_norm": 2.6873816056609803, "learning_rate": 3.3759978634492317e-07, "loss": 0.4155, "step": 3132 }, { "epoch": 0.8354666666666667, "grad_norm": 2.601571200087339, "learning_rate": 3.365332936977558e-07, "loss": 0.3672, "step": 3133 }, { "epoch": 0.8357333333333333, "grad_norm": 2.7118279285290554, "learning_rate": 3.354683666884684e-07, "loss": 0.4542, "step": 3134 }, { "epoch": 0.836, "grad_norm": 2.366282468178098, "learning_rate": 3.3440500608771575e-07, "loss": 0.3553, "step": 3135 }, { "epoch": 0.8362666666666667, "grad_norm": 2.460329834389282, "learning_rate": 3.333432126650235e-07, "loss": 0.4447, "step": 3136 }, { "epoch": 0.8365333333333334, "grad_norm": 2.5706420983425433, "learning_rate": 3.3228298718877785e-07, "loss": 0.3841, "step": 3137 }, { "epoch": 0.8368, "grad_norm": 2.3918113243602903, "learning_rate": 3.312243304262347e-07, "loss": 0.351, "step": 3138 }, { "epoch": 0.8370666666666666, "grad_norm": 2.918347869990177, "learning_rate": 3.3016724314351295e-07, "loss": 0.3955, "step": 3139 }, { "epoch": 0.8373333333333334, "grad_norm": 3.2729718953952442, "learning_rate": 3.2911172610559565e-07, "loss": 0.3897, "step": 3140 }, { "epoch": 0.8376, "grad_norm": 2.479814068796348, "learning_rate": 3.2805778007633014e-07, "loss": 0.3621, "step": 3141 }, { "epoch": 0.8378666666666666, "grad_norm": 2.411715832950565, "learning_rate": 3.2700540581842576e-07, "loss": 0.3963, "step": 3142 }, { "epoch": 0.8381333333333333, "grad_norm": 2.4617793964870693, "learning_rate": 3.259546040934558e-07, "loss": 0.3774, "step": 3143 }, { "epoch": 0.8384, "grad_norm": 2.9830554410385886, "learning_rate": 3.249053756618542e-07, "loss": 0.4386, "step": 3144 }, { "epoch": 0.8386666666666667, "grad_norm": 2.3713761528017283, "learning_rate": 3.238577212829183e-07, "loss": 0.3632, "step": 3145 }, { "epoch": 0.8389333333333333, "grad_norm": 2.4355016139520274, "learning_rate": 3.2281164171480336e-07, "loss": 0.3795, "step": 3146 }, { "epoch": 0.8392, "grad_norm": 3.215455766737583, "learning_rate": 3.2176713771452787e-07, "loss": 0.4678, "step": 3147 }, { "epoch": 0.8394666666666667, "grad_norm": 2.759713613774461, "learning_rate": 3.20724210037969e-07, "loss": 0.4395, "step": 3148 }, { "epoch": 0.8397333333333333, "grad_norm": 2.5773859344354024, "learning_rate": 3.196828594398627e-07, "loss": 0.3723, "step": 3149 }, { "epoch": 0.84, "grad_norm": 2.5402271485147025, "learning_rate": 3.186430866738041e-07, "loss": 0.3781, "step": 3150 }, { "epoch": 0.8402666666666667, "grad_norm": 2.5978140916738406, "learning_rate": 3.176048924922462e-07, "loss": 0.4426, "step": 3151 }, { "epoch": 0.8405333333333334, "grad_norm": 2.5337671778157342, "learning_rate": 3.165682776465015e-07, "loss": 0.4071, "step": 3152 }, { "epoch": 0.8408, "grad_norm": 2.7556990892821505, "learning_rate": 3.1553324288673553e-07, "loss": 0.4035, "step": 3153 }, { "epoch": 0.8410666666666666, "grad_norm": 2.75717621289889, "learning_rate": 3.14499788961975e-07, "loss": 0.3619, "step": 3154 }, { "epoch": 0.8413333333333334, "grad_norm": 2.744218217867386, "learning_rate": 3.134679166200991e-07, "loss": 0.4254, "step": 3155 }, { "epoch": 0.8416, "grad_norm": 2.3570127728530905, "learning_rate": 3.1243762660784464e-07, "loss": 0.3532, "step": 3156 }, { "epoch": 0.8418666666666667, "grad_norm": 2.3502959213930588, "learning_rate": 3.114089196708012e-07, "loss": 0.3465, "step": 3157 }, { "epoch": 0.8421333333333333, "grad_norm": 2.5970925979204056, "learning_rate": 3.103817965534162e-07, "loss": 0.3903, "step": 3158 }, { "epoch": 0.8424, "grad_norm": 2.83321717764484, "learning_rate": 3.09356257998987e-07, "loss": 0.4455, "step": 3159 }, { "epoch": 0.8426666666666667, "grad_norm": 2.6255353912864825, "learning_rate": 3.083323047496659e-07, "loss": 0.4055, "step": 3160 }, { "epoch": 0.8429333333333333, "grad_norm": 2.5693294645387192, "learning_rate": 3.0730993754645944e-07, "loss": 0.4167, "step": 3161 }, { "epoch": 0.8432, "grad_norm": 2.45655143872533, "learning_rate": 3.0628915712922397e-07, "loss": 0.3732, "step": 3162 }, { "epoch": 0.8434666666666667, "grad_norm": 2.4156117932980585, "learning_rate": 3.0526996423666885e-07, "loss": 0.3834, "step": 3163 }, { "epoch": 0.8437333333333333, "grad_norm": 2.5552803857079684, "learning_rate": 3.0425235960635375e-07, "loss": 0.3635, "step": 3164 }, { "epoch": 0.844, "grad_norm": 2.5033856805816557, "learning_rate": 3.0323634397469106e-07, "loss": 0.3572, "step": 3165 }, { "epoch": 0.8442666666666667, "grad_norm": 3.2490823948465968, "learning_rate": 3.022219180769398e-07, "loss": 0.4586, "step": 3166 }, { "epoch": 0.8445333333333334, "grad_norm": 2.9836344362619163, "learning_rate": 3.0120908264721167e-07, "loss": 0.4447, "step": 3167 }, { "epoch": 0.8448, "grad_norm": 2.84311963701449, "learning_rate": 3.001978384184662e-07, "loss": 0.4243, "step": 3168 }, { "epoch": 0.8450666666666666, "grad_norm": 2.340818222499845, "learning_rate": 2.991881861225107e-07, "loss": 0.3912, "step": 3169 }, { "epoch": 0.8453333333333334, "grad_norm": 3.259921225251522, "learning_rate": 2.9818012649000165e-07, "loss": 0.487, "step": 3170 }, { "epoch": 0.8456, "grad_norm": 3.1490295656905394, "learning_rate": 2.971736602504427e-07, "loss": 0.4634, "step": 3171 }, { "epoch": 0.8458666666666667, "grad_norm": 2.5343155004980997, "learning_rate": 2.961687881321834e-07, "loss": 0.4063, "step": 3172 }, { "epoch": 0.8461333333333333, "grad_norm": 2.8965422252981936, "learning_rate": 2.9516551086242045e-07, "loss": 0.412, "step": 3173 }, { "epoch": 0.8464, "grad_norm": 2.713395224107103, "learning_rate": 2.941638291671975e-07, "loss": 0.3895, "step": 3174 }, { "epoch": 0.8466666666666667, "grad_norm": 2.527737100275072, "learning_rate": 2.931637437714016e-07, "loss": 0.4173, "step": 3175 }, { "epoch": 0.8469333333333333, "grad_norm": 2.58815073951803, "learning_rate": 2.921652553987656e-07, "loss": 0.4118, "step": 3176 }, { "epoch": 0.8472, "grad_norm": 2.8500476354364825, "learning_rate": 2.911683647718666e-07, "loss": 0.3892, "step": 3177 }, { "epoch": 0.8474666666666667, "grad_norm": 2.530030167768666, "learning_rate": 2.901730726121252e-07, "loss": 0.3962, "step": 3178 }, { "epoch": 0.8477333333333333, "grad_norm": 2.607657078722488, "learning_rate": 2.8917937963980514e-07, "loss": 0.4016, "step": 3179 }, { "epoch": 0.848, "grad_norm": 2.3016263591525923, "learning_rate": 2.881872865740129e-07, "loss": 0.3512, "step": 3180 }, { "epoch": 0.8482666666666666, "grad_norm": 2.740969014957987, "learning_rate": 2.8719679413269893e-07, "loss": 0.4095, "step": 3181 }, { "epoch": 0.8485333333333334, "grad_norm": 2.5372907902587793, "learning_rate": 2.8620790303265146e-07, "loss": 0.3743, "step": 3182 }, { "epoch": 0.8488, "grad_norm": 2.2551871317153043, "learning_rate": 2.852206139895039e-07, "loss": 0.3442, "step": 3183 }, { "epoch": 0.8490666666666666, "grad_norm": 2.624883711843122, "learning_rate": 2.842349277177281e-07, "loss": 0.394, "step": 3184 }, { "epoch": 0.8493333333333334, "grad_norm": 2.390725969531797, "learning_rate": 2.8325084493063647e-07, "loss": 0.4332, "step": 3185 }, { "epoch": 0.8496, "grad_norm": 2.4827245843317094, "learning_rate": 2.822683663403805e-07, "loss": 0.3913, "step": 3186 }, { "epoch": 0.8498666666666667, "grad_norm": 2.8375786612161678, "learning_rate": 2.812874926579523e-07, "loss": 0.42, "step": 3187 }, { "epoch": 0.8501333333333333, "grad_norm": 2.5132237433747275, "learning_rate": 2.8030822459318153e-07, "loss": 0.3432, "step": 3188 }, { "epoch": 0.8504, "grad_norm": 2.9405221441596323, "learning_rate": 2.7933056285473547e-07, "loss": 0.393, "step": 3189 }, { "epoch": 0.8506666666666667, "grad_norm": 2.6404572843665104, "learning_rate": 2.783545081501196e-07, "loss": 0.397, "step": 3190 }, { "epoch": 0.8509333333333333, "grad_norm": 2.9467121204287707, "learning_rate": 2.773800611856764e-07, "loss": 0.433, "step": 3191 }, { "epoch": 0.8512, "grad_norm": 2.593027181216789, "learning_rate": 2.764072226665848e-07, "loss": 0.4044, "step": 3192 }, { "epoch": 0.8514666666666667, "grad_norm": 2.8045863289834774, "learning_rate": 2.754359932968592e-07, "loss": 0.4061, "step": 3193 }, { "epoch": 0.8517333333333333, "grad_norm": 2.2862490468445245, "learning_rate": 2.7446637377935154e-07, "loss": 0.3337, "step": 3194 }, { "epoch": 0.852, "grad_norm": 2.7609880121654706, "learning_rate": 2.734983648157452e-07, "loss": 0.3588, "step": 3195 }, { "epoch": 0.8522666666666666, "grad_norm": 3.105710449291612, "learning_rate": 2.7253196710656125e-07, "loss": 0.4354, "step": 3196 }, { "epoch": 0.8525333333333334, "grad_norm": 2.5491667449638387, "learning_rate": 2.7156718135115364e-07, "loss": 0.3919, "step": 3197 }, { "epoch": 0.8528, "grad_norm": 2.9832830441031155, "learning_rate": 2.706040082477096e-07, "loss": 0.4276, "step": 3198 }, { "epoch": 0.8530666666666666, "grad_norm": 3.1185849860093366, "learning_rate": 2.6964244849324916e-07, "loss": 0.4255, "step": 3199 }, { "epoch": 0.8533333333333334, "grad_norm": 2.420668436275142, "learning_rate": 2.686825027836248e-07, "loss": 0.394, "step": 3200 }, { "epoch": 0.8536, "grad_norm": 2.7588708294361277, "learning_rate": 2.6772417181352317e-07, "loss": 0.4122, "step": 3201 }, { "epoch": 0.8538666666666667, "grad_norm": 3.0378298219973168, "learning_rate": 2.667674562764577e-07, "loss": 0.4597, "step": 3202 }, { "epoch": 0.8541333333333333, "grad_norm": 2.953098241616933, "learning_rate": 2.6581235686477775e-07, "loss": 0.4273, "step": 3203 }, { "epoch": 0.8544, "grad_norm": 2.220901665153803, "learning_rate": 2.6485887426966035e-07, "loss": 0.3221, "step": 3204 }, { "epoch": 0.8546666666666667, "grad_norm": 2.9688675082340064, "learning_rate": 2.6390700918111273e-07, "loss": 0.4369, "step": 3205 }, { "epoch": 0.8549333333333333, "grad_norm": 2.946793869626384, "learning_rate": 2.629567622879722e-07, "loss": 0.4924, "step": 3206 }, { "epoch": 0.8552, "grad_norm": 2.4549354658499665, "learning_rate": 2.620081342779049e-07, "loss": 0.3798, "step": 3207 }, { "epoch": 0.8554666666666667, "grad_norm": 2.823715269468484, "learning_rate": 2.610611258374052e-07, "loss": 0.3982, "step": 3208 }, { "epoch": 0.8557333333333333, "grad_norm": 2.6574765008532046, "learning_rate": 2.6011573765179516e-07, "loss": 0.4088, "step": 3209 }, { "epoch": 0.856, "grad_norm": 3.2365971847082595, "learning_rate": 2.5917197040522534e-07, "loss": 0.4715, "step": 3210 }, { "epoch": 0.8562666666666666, "grad_norm": 2.366620120190183, "learning_rate": 2.582298247806722e-07, "loss": 0.3743, "step": 3211 }, { "epoch": 0.8565333333333334, "grad_norm": 2.5157695430117126, "learning_rate": 2.5728930145993953e-07, "loss": 0.3972, "step": 3212 }, { "epoch": 0.8568, "grad_norm": 2.78905654216402, "learning_rate": 2.563504011236556e-07, "loss": 0.3922, "step": 3213 }, { "epoch": 0.8570666666666666, "grad_norm": 2.7114847284683714, "learning_rate": 2.554131244512773e-07, "loss": 0.3948, "step": 3214 }, { "epoch": 0.8573333333333333, "grad_norm": 3.6862462961209146, "learning_rate": 2.5447747212108217e-07, "loss": 0.4548, "step": 3215 }, { "epoch": 0.8576, "grad_norm": 2.8536544587845474, "learning_rate": 2.535434448101762e-07, "loss": 0.4233, "step": 3216 }, { "epoch": 0.8578666666666667, "grad_norm": 2.8874281192398192, "learning_rate": 2.52611043194487e-07, "loss": 0.4439, "step": 3217 }, { "epoch": 0.8581333333333333, "grad_norm": 2.632760331963513, "learning_rate": 2.5168026794876674e-07, "loss": 0.4066, "step": 3218 }, { "epoch": 0.8584, "grad_norm": 2.628455455892437, "learning_rate": 2.5075111974659006e-07, "loss": 0.4125, "step": 3219 }, { "epoch": 0.8586666666666667, "grad_norm": 2.665657105638292, "learning_rate": 2.498235992603551e-07, "loss": 0.3656, "step": 3220 }, { "epoch": 0.8589333333333333, "grad_norm": 2.787755822598452, "learning_rate": 2.488977071612808e-07, "loss": 0.4197, "step": 3221 }, { "epoch": 0.8592, "grad_norm": 2.5844344152607235, "learning_rate": 2.4797344411940816e-07, "loss": 0.4015, "step": 3222 }, { "epoch": 0.8594666666666667, "grad_norm": 2.2227151175803503, "learning_rate": 2.470508108036002e-07, "loss": 0.3186, "step": 3223 }, { "epoch": 0.8597333333333333, "grad_norm": 2.9097907037870647, "learning_rate": 2.461298078815394e-07, "loss": 0.4134, "step": 3224 }, { "epoch": 0.86, "grad_norm": 2.518293007913514, "learning_rate": 2.4521043601972883e-07, "loss": 0.3822, "step": 3225 }, { "epoch": 0.8602666666666666, "grad_norm": 2.473582797653398, "learning_rate": 2.4429269588349126e-07, "loss": 0.3619, "step": 3226 }, { "epoch": 0.8605333333333334, "grad_norm": 2.7305338771572036, "learning_rate": 2.433765881369682e-07, "loss": 0.3676, "step": 3227 }, { "epoch": 0.8608, "grad_norm": 2.729718231708357, "learning_rate": 2.424621134431204e-07, "loss": 0.3814, "step": 3228 }, { "epoch": 0.8610666666666666, "grad_norm": 2.4772336263131027, "learning_rate": 2.4154927246372613e-07, "loss": 0.4237, "step": 3229 }, { "epoch": 0.8613333333333333, "grad_norm": 2.382496645237156, "learning_rate": 2.4063806585938294e-07, "loss": 0.364, "step": 3230 }, { "epoch": 0.8616, "grad_norm": 2.683073744669998, "learning_rate": 2.397284942895028e-07, "loss": 0.4111, "step": 3231 }, { "epoch": 0.8618666666666667, "grad_norm": 2.173941578625788, "learning_rate": 2.3882055841231767e-07, "loss": 0.3278, "step": 3232 }, { "epoch": 0.8621333333333333, "grad_norm": 3.2307718866962354, "learning_rate": 2.3791425888487402e-07, "loss": 0.4164, "step": 3233 }, { "epoch": 0.8624, "grad_norm": 2.7462881297684354, "learning_rate": 2.3700959636303395e-07, "loss": 0.3875, "step": 3234 }, { "epoch": 0.8626666666666667, "grad_norm": 2.5325930243671326, "learning_rate": 2.3610657150147597e-07, "loss": 0.3936, "step": 3235 }, { "epoch": 0.8629333333333333, "grad_norm": 2.552196951051083, "learning_rate": 2.352051849536918e-07, "loss": 0.3932, "step": 3236 }, { "epoch": 0.8632, "grad_norm": 2.709236053574483, "learning_rate": 2.343054373719905e-07, "loss": 0.4177, "step": 3237 }, { "epoch": 0.8634666666666667, "grad_norm": 3.0142186955914516, "learning_rate": 2.3340732940749121e-07, "loss": 0.4532, "step": 3238 }, { "epoch": 0.8637333333333334, "grad_norm": 2.5597273790363078, "learning_rate": 2.3251086171013014e-07, "loss": 0.3767, "step": 3239 }, { "epoch": 0.864, "grad_norm": 2.417005513752467, "learning_rate": 2.3161603492865393e-07, "loss": 0.3806, "step": 3240 }, { "epoch": 0.8642666666666666, "grad_norm": 2.813745128487116, "learning_rate": 2.3072284971062287e-07, "loss": 0.4306, "step": 3241 }, { "epoch": 0.8645333333333334, "grad_norm": 2.2542280975325446, "learning_rate": 2.2983130670240883e-07, "loss": 0.339, "step": 3242 }, { "epoch": 0.8648, "grad_norm": 2.596730022161963, "learning_rate": 2.2894140654919655e-07, "loss": 0.4037, "step": 3243 }, { "epoch": 0.8650666666666667, "grad_norm": 2.735814658184686, "learning_rate": 2.280531498949795e-07, "loss": 0.4342, "step": 3244 }, { "epoch": 0.8653333333333333, "grad_norm": 2.818711396167196, "learning_rate": 2.2716653738256405e-07, "loss": 0.4461, "step": 3245 }, { "epoch": 0.8656, "grad_norm": 2.9865059352920533, "learning_rate": 2.2628156965356584e-07, "loss": 0.4084, "step": 3246 }, { "epoch": 0.8658666666666667, "grad_norm": 2.7533812916210207, "learning_rate": 2.253982473484101e-07, "loss": 0.4022, "step": 3247 }, { "epoch": 0.8661333333333333, "grad_norm": 2.7688582985521943, "learning_rate": 2.245165711063313e-07, "loss": 0.4263, "step": 3248 }, { "epoch": 0.8664, "grad_norm": 3.553065175127651, "learning_rate": 2.236365415653727e-07, "loss": 0.4793, "step": 3249 }, { "epoch": 0.8666666666666667, "grad_norm": 3.3426862030283657, "learning_rate": 2.2275815936238704e-07, "loss": 0.4449, "step": 3250 }, { "epoch": 0.8669333333333333, "grad_norm": 2.5530246241242303, "learning_rate": 2.2188142513303257e-07, "loss": 0.368, "step": 3251 }, { "epoch": 0.8672, "grad_norm": 2.586223109832651, "learning_rate": 2.2100633951177757e-07, "loss": 0.3955, "step": 3252 }, { "epoch": 0.8674666666666667, "grad_norm": 2.8074215691670488, "learning_rate": 2.2013290313189523e-07, "loss": 0.4224, "step": 3253 }, { "epoch": 0.8677333333333334, "grad_norm": 3.3556540010673555, "learning_rate": 2.1926111662546656e-07, "loss": 0.4414, "step": 3254 }, { "epoch": 0.868, "grad_norm": 2.416985881526, "learning_rate": 2.1839098062337776e-07, "loss": 0.3683, "step": 3255 }, { "epoch": 0.8682666666666666, "grad_norm": 2.4796291351031603, "learning_rate": 2.1752249575532096e-07, "loss": 0.4001, "step": 3256 }, { "epoch": 0.8685333333333334, "grad_norm": 2.485063862454248, "learning_rate": 2.1665566264979343e-07, "loss": 0.3685, "step": 3257 }, { "epoch": 0.8688, "grad_norm": 2.4844249211658336, "learning_rate": 2.1579048193409642e-07, "loss": 0.3512, "step": 3258 }, { "epoch": 0.8690666666666667, "grad_norm": 2.3575417304239763, "learning_rate": 2.1492695423433714e-07, "loss": 0.3524, "step": 3259 }, { "epoch": 0.8693333333333333, "grad_norm": 3.0226692812516256, "learning_rate": 2.1406508017542516e-07, "loss": 0.3845, "step": 3260 }, { "epoch": 0.8696, "grad_norm": 3.346540784755848, "learning_rate": 2.1320486038107324e-07, "loss": 0.4666, "step": 3261 }, { "epoch": 0.8698666666666667, "grad_norm": 2.6924440375670757, "learning_rate": 2.1234629547379786e-07, "loss": 0.379, "step": 3262 }, { "epoch": 0.8701333333333333, "grad_norm": 2.5946764765432704, "learning_rate": 2.1148938607491675e-07, "loss": 0.4079, "step": 3263 }, { "epoch": 0.8704, "grad_norm": 2.4232063739446894, "learning_rate": 2.1063413280455108e-07, "loss": 0.371, "step": 3264 }, { "epoch": 0.8706666666666667, "grad_norm": 2.50350477860827, "learning_rate": 2.0978053628162186e-07, "loss": 0.3721, "step": 3265 }, { "epoch": 0.8709333333333333, "grad_norm": 2.449648838620864, "learning_rate": 2.089285971238536e-07, "loss": 0.3922, "step": 3266 }, { "epoch": 0.8712, "grad_norm": 2.4816124323728976, "learning_rate": 2.080783159477681e-07, "loss": 0.3547, "step": 3267 }, { "epoch": 0.8714666666666666, "grad_norm": 2.954675936932765, "learning_rate": 2.0722969336869016e-07, "loss": 0.4529, "step": 3268 }, { "epoch": 0.8717333333333334, "grad_norm": 2.5351630070701336, "learning_rate": 2.0638273000074288e-07, "loss": 0.3377, "step": 3269 }, { "epoch": 0.872, "grad_norm": 2.4394057394340947, "learning_rate": 2.055374264568491e-07, "loss": 0.3387, "step": 3270 }, { "epoch": 0.8722666666666666, "grad_norm": 2.995368904037047, "learning_rate": 2.0469378334872974e-07, "loss": 0.4506, "step": 3271 }, { "epoch": 0.8725333333333334, "grad_norm": 2.682256026018375, "learning_rate": 2.038518012869059e-07, "loss": 0.3835, "step": 3272 }, { "epoch": 0.8728, "grad_norm": 2.578518445735943, "learning_rate": 2.0301148088069516e-07, "loss": 0.3913, "step": 3273 }, { "epoch": 0.8730666666666667, "grad_norm": 2.7256926841374844, "learning_rate": 2.021728227382125e-07, "loss": 0.4754, "step": 3274 }, { "epoch": 0.8733333333333333, "grad_norm": 2.4672584790950145, "learning_rate": 2.013358274663707e-07, "loss": 0.4147, "step": 3275 }, { "epoch": 0.8736, "grad_norm": 2.736156278616206, "learning_rate": 2.0050049567087892e-07, "loss": 0.3942, "step": 3276 }, { "epoch": 0.8738666666666667, "grad_norm": 2.7631538331491527, "learning_rate": 1.996668279562422e-07, "loss": 0.4034, "step": 3277 }, { "epoch": 0.8741333333333333, "grad_norm": 2.7192513079360707, "learning_rate": 1.9883482492576155e-07, "loss": 0.4097, "step": 3278 }, { "epoch": 0.8744, "grad_norm": 2.6614119416911906, "learning_rate": 1.9800448718153425e-07, "loss": 0.4343, "step": 3279 }, { "epoch": 0.8746666666666667, "grad_norm": 2.6506002807558433, "learning_rate": 1.971758153244499e-07, "loss": 0.3578, "step": 3280 }, { "epoch": 0.8749333333333333, "grad_norm": 2.286961878753403, "learning_rate": 1.9634880995419575e-07, "loss": 0.3552, "step": 3281 }, { "epoch": 0.8752, "grad_norm": 2.7515542520859286, "learning_rate": 1.9552347166925085e-07, "loss": 0.4256, "step": 3282 }, { "epoch": 0.8754666666666666, "grad_norm": 2.6239285556393455, "learning_rate": 1.946998010668885e-07, "loss": 0.4008, "step": 3283 }, { "epoch": 0.8757333333333334, "grad_norm": 2.689213622248854, "learning_rate": 1.938777987431753e-07, "loss": 0.4445, "step": 3284 }, { "epoch": 0.876, "grad_norm": 2.854569097440557, "learning_rate": 1.9305746529296982e-07, "loss": 0.3776, "step": 3285 }, { "epoch": 0.8762666666666666, "grad_norm": 2.9473523680846165, "learning_rate": 1.9223880130992496e-07, "loss": 0.4057, "step": 3286 }, { "epoch": 0.8765333333333334, "grad_norm": 2.9810099158710983, "learning_rate": 1.914218073864821e-07, "loss": 0.3865, "step": 3287 }, { "epoch": 0.8768, "grad_norm": 2.899832788166525, "learning_rate": 1.9060648411387716e-07, "loss": 0.4628, "step": 3288 }, { "epoch": 0.8770666666666667, "grad_norm": 2.5696976333679897, "learning_rate": 1.8979283208213574e-07, "loss": 0.3727, "step": 3289 }, { "epoch": 0.8773333333333333, "grad_norm": 2.3659503604995695, "learning_rate": 1.88980851880074e-07, "loss": 0.3316, "step": 3290 }, { "epoch": 0.8776, "grad_norm": 3.0483522255100977, "learning_rate": 1.8817054409529829e-07, "loss": 0.4363, "step": 3291 }, { "epoch": 0.8778666666666667, "grad_norm": 2.8973268628196998, "learning_rate": 1.8736190931420483e-07, "loss": 0.4097, "step": 3292 }, { "epoch": 0.8781333333333333, "grad_norm": 2.5749209399786808, "learning_rate": 1.8655494812197917e-07, "loss": 0.3847, "step": 3293 }, { "epoch": 0.8784, "grad_norm": 2.4956485631830736, "learning_rate": 1.8574966110259524e-07, "loss": 0.3751, "step": 3294 }, { "epoch": 0.8786666666666667, "grad_norm": 2.836166671107596, "learning_rate": 1.849460488388169e-07, "loss": 0.3946, "step": 3295 }, { "epoch": 0.8789333333333333, "grad_norm": 2.437373653164744, "learning_rate": 1.8414411191219312e-07, "loss": 0.3483, "step": 3296 }, { "epoch": 0.8792, "grad_norm": 4.4001050917141455, "learning_rate": 1.8334385090306385e-07, "loss": 0.3623, "step": 3297 }, { "epoch": 0.8794666666666666, "grad_norm": 2.8218945947842613, "learning_rate": 1.8254526639055388e-07, "loss": 0.4098, "step": 3298 }, { "epoch": 0.8797333333333334, "grad_norm": 2.7341414951431826, "learning_rate": 1.8174835895257674e-07, "loss": 0.4042, "step": 3299 }, { "epoch": 0.88, "grad_norm": 2.9820462361986024, "learning_rate": 1.8095312916582953e-07, "loss": 0.4304, "step": 3300 }, { "epoch": 0.8802666666666666, "grad_norm": 2.8704081686487983, "learning_rate": 1.8015957760579793e-07, "loss": 0.4291, "step": 3301 }, { "epoch": 0.8805333333333333, "grad_norm": 2.3191127221331964, "learning_rate": 1.7936770484675208e-07, "loss": 0.342, "step": 3302 }, { "epoch": 0.8808, "grad_norm": 2.5420975974787927, "learning_rate": 1.7857751146174662e-07, "loss": 0.3914, "step": 3303 }, { "epoch": 0.8810666666666667, "grad_norm": 2.761893747434971, "learning_rate": 1.7778899802262218e-07, "loss": 0.4065, "step": 3304 }, { "epoch": 0.8813333333333333, "grad_norm": 2.653899220475779, "learning_rate": 1.7700216510000286e-07, "loss": 0.3794, "step": 3305 }, { "epoch": 0.8816, "grad_norm": 2.397647539378242, "learning_rate": 1.762170132632962e-07, "loss": 0.3481, "step": 3306 }, { "epoch": 0.8818666666666667, "grad_norm": 2.7382435809717, "learning_rate": 1.7543354308069388e-07, "loss": 0.3971, "step": 3307 }, { "epoch": 0.8821333333333333, "grad_norm": 2.6345579984001115, "learning_rate": 1.7465175511917148e-07, "loss": 0.3963, "step": 3308 }, { "epoch": 0.8824, "grad_norm": 2.71966778470371, "learning_rate": 1.7387164994448452e-07, "loss": 0.3756, "step": 3309 }, { "epoch": 0.8826666666666667, "grad_norm": 2.553220433235879, "learning_rate": 1.730932281211739e-07, "loss": 0.3916, "step": 3310 }, { "epoch": 0.8829333333333333, "grad_norm": 2.626528930144365, "learning_rate": 1.7231649021256014e-07, "loss": 0.416, "step": 3311 }, { "epoch": 0.8832, "grad_norm": 2.435365881193696, "learning_rate": 1.715414367807458e-07, "loss": 0.3745, "step": 3312 }, { "epoch": 0.8834666666666666, "grad_norm": 2.756721368443525, "learning_rate": 1.7076806838661476e-07, "loss": 0.3914, "step": 3313 }, { "epoch": 0.8837333333333334, "grad_norm": 3.0911877913026515, "learning_rate": 1.6999638558983068e-07, "loss": 0.4642, "step": 3314 }, { "epoch": 0.884, "grad_norm": 2.7243545735863086, "learning_rate": 1.692263889488391e-07, "loss": 0.3923, "step": 3315 }, { "epoch": 0.8842666666666666, "grad_norm": 2.982793099159781, "learning_rate": 1.684580790208626e-07, "loss": 0.4726, "step": 3316 }, { "epoch": 0.8845333333333333, "grad_norm": 2.5734635395359264, "learning_rate": 1.6769145636190587e-07, "loss": 0.4198, "step": 3317 }, { "epoch": 0.8848, "grad_norm": 2.69342679931977, "learning_rate": 1.6692652152675127e-07, "loss": 0.3762, "step": 3318 }, { "epoch": 0.8850666666666667, "grad_norm": 2.7311225255079568, "learning_rate": 1.6616327506895957e-07, "loss": 0.3796, "step": 3319 }, { "epoch": 0.8853333333333333, "grad_norm": 2.617327940622262, "learning_rate": 1.6540171754087008e-07, "loss": 0.3601, "step": 3320 }, { "epoch": 0.8856, "grad_norm": 2.8466761803327194, "learning_rate": 1.6464184949359975e-07, "loss": 0.437, "step": 3321 }, { "epoch": 0.8858666666666667, "grad_norm": 3.1325066307895852, "learning_rate": 1.638836714770431e-07, "loss": 0.439, "step": 3322 }, { "epoch": 0.8861333333333333, "grad_norm": 2.798294801607777, "learning_rate": 1.6312718403987128e-07, "loss": 0.4361, "step": 3323 }, { "epoch": 0.8864, "grad_norm": 2.4285928816262556, "learning_rate": 1.6237238772953274e-07, "loss": 0.3922, "step": 3324 }, { "epoch": 0.8866666666666667, "grad_norm": 2.3838343372646946, "learning_rate": 1.616192830922511e-07, "loss": 0.3531, "step": 3325 }, { "epoch": 0.8869333333333334, "grad_norm": 2.6196981748091708, "learning_rate": 1.6086787067302656e-07, "loss": 0.415, "step": 3326 }, { "epoch": 0.8872, "grad_norm": 3.025861789977464, "learning_rate": 1.6011815101563382e-07, "loss": 0.4562, "step": 3327 }, { "epoch": 0.8874666666666666, "grad_norm": 2.733991576853505, "learning_rate": 1.5937012466262448e-07, "loss": 0.3993, "step": 3328 }, { "epoch": 0.8877333333333334, "grad_norm": 2.626373421540736, "learning_rate": 1.586237921553216e-07, "loss": 0.3983, "step": 3329 }, { "epoch": 0.888, "grad_norm": 2.622431557515372, "learning_rate": 1.5787915403382593e-07, "loss": 0.386, "step": 3330 }, { "epoch": 0.8882666666666666, "grad_norm": 2.755973686013132, "learning_rate": 1.5713621083700975e-07, "loss": 0.4588, "step": 3331 }, { "epoch": 0.8885333333333333, "grad_norm": 2.7959380702711223, "learning_rate": 1.563949631025194e-07, "loss": 0.446, "step": 3332 }, { "epoch": 0.8888, "grad_norm": 2.5426345710504044, "learning_rate": 1.556554113667741e-07, "loss": 0.3759, "step": 3333 }, { "epoch": 0.8890666666666667, "grad_norm": 2.3726044367473236, "learning_rate": 1.54917556164966e-07, "loss": 0.3552, "step": 3334 }, { "epoch": 0.8893333333333333, "grad_norm": 3.3638424151360735, "learning_rate": 1.5418139803106026e-07, "loss": 0.3853, "step": 3335 }, { "epoch": 0.8896, "grad_norm": 2.837031981247287, "learning_rate": 1.534469374977915e-07, "loss": 0.3991, "step": 3336 }, { "epoch": 0.8898666666666667, "grad_norm": 2.5325314998020114, "learning_rate": 1.5271417509666904e-07, "loss": 0.3844, "step": 3337 }, { "epoch": 0.8901333333333333, "grad_norm": 2.4328728452682022, "learning_rate": 1.5198311135797063e-07, "loss": 0.3685, "step": 3338 }, { "epoch": 0.8904, "grad_norm": 2.2891976696162146, "learning_rate": 1.512537468107464e-07, "loss": 0.3614, "step": 3339 }, { "epoch": 0.8906666666666667, "grad_norm": 2.6150837289053483, "learning_rate": 1.505260819828158e-07, "loss": 0.4053, "step": 3340 }, { "epoch": 0.8909333333333334, "grad_norm": 2.661284016916046, "learning_rate": 1.4980011740076904e-07, "loss": 0.4661, "step": 3341 }, { "epoch": 0.8912, "grad_norm": 2.7881469193319863, "learning_rate": 1.4907585358996557e-07, "loss": 0.3946, "step": 3342 }, { "epoch": 0.8914666666666666, "grad_norm": 2.2708031500062478, "learning_rate": 1.4835329107453334e-07, "loss": 0.3425, "step": 3343 }, { "epoch": 0.8917333333333334, "grad_norm": 3.006631117734822, "learning_rate": 1.4763243037737102e-07, "loss": 0.4348, "step": 3344 }, { "epoch": 0.892, "grad_norm": 2.6322624004041355, "learning_rate": 1.46913272020143e-07, "loss": 0.4403, "step": 3345 }, { "epoch": 0.8922666666666667, "grad_norm": 3.034436348951999, "learning_rate": 1.4619581652328464e-07, "loss": 0.4484, "step": 3346 }, { "epoch": 0.8925333333333333, "grad_norm": 2.6479433244930948, "learning_rate": 1.454800644059967e-07, "loss": 0.3963, "step": 3347 }, { "epoch": 0.8928, "grad_norm": 2.6592143660551106, "learning_rate": 1.447660161862491e-07, "loss": 0.4366, "step": 3348 }, { "epoch": 0.8930666666666667, "grad_norm": 2.857430218240617, "learning_rate": 1.44053672380777e-07, "loss": 0.4677, "step": 3349 }, { "epoch": 0.8933333333333333, "grad_norm": 2.3409012105315012, "learning_rate": 1.4334303350508255e-07, "loss": 0.3419, "step": 3350 }, { "epoch": 0.8936, "grad_norm": 2.380427044738951, "learning_rate": 1.4263410007343548e-07, "loss": 0.3934, "step": 3351 }, { "epoch": 0.8938666666666667, "grad_norm": 2.285527343225356, "learning_rate": 1.41926872598869e-07, "loss": 0.3436, "step": 3352 }, { "epoch": 0.8941333333333333, "grad_norm": 2.707059352609682, "learning_rate": 1.412213515931843e-07, "loss": 0.4038, "step": 3353 }, { "epoch": 0.8944, "grad_norm": 3.096255427952246, "learning_rate": 1.405175375669457e-07, "loss": 0.4347, "step": 3354 }, { "epoch": 0.8946666666666667, "grad_norm": 2.319392266836252, "learning_rate": 1.3981543102948303e-07, "loss": 0.3197, "step": 3355 }, { "epoch": 0.8949333333333334, "grad_norm": 2.5439902993770054, "learning_rate": 1.3911503248888986e-07, "loss": 0.3715, "step": 3356 }, { "epoch": 0.8952, "grad_norm": 3.058159056595082, "learning_rate": 1.3841634245202573e-07, "loss": 0.4645, "step": 3357 }, { "epoch": 0.8954666666666666, "grad_norm": 2.3788514844379267, "learning_rate": 1.3771936142451036e-07, "loss": 0.3666, "step": 3358 }, { "epoch": 0.8957333333333334, "grad_norm": 2.586415407701313, "learning_rate": 1.370240899107303e-07, "loss": 0.3397, "step": 3359 }, { "epoch": 0.896, "grad_norm": 2.5889802722260655, "learning_rate": 1.363305284138322e-07, "loss": 0.4181, "step": 3360 }, { "epoch": 0.8962666666666667, "grad_norm": 2.58753154828537, "learning_rate": 1.3563867743572683e-07, "loss": 0.396, "step": 3361 }, { "epoch": 0.8965333333333333, "grad_norm": 2.6117172869281737, "learning_rate": 1.3494853747708648e-07, "loss": 0.3946, "step": 3362 }, { "epoch": 0.8968, "grad_norm": 2.8419953775246176, "learning_rate": 1.3426010903734493e-07, "loss": 0.3889, "step": 3363 }, { "epoch": 0.8970666666666667, "grad_norm": 2.922662754886384, "learning_rate": 1.3357339261469898e-07, "loss": 0.4161, "step": 3364 }, { "epoch": 0.8973333333333333, "grad_norm": 2.4244757542974553, "learning_rate": 1.3288838870610387e-07, "loss": 0.3692, "step": 3365 }, { "epoch": 0.8976, "grad_norm": 2.593254195411819, "learning_rate": 1.322050978072778e-07, "loss": 0.4152, "step": 3366 }, { "epoch": 0.8978666666666667, "grad_norm": 2.5728700777044473, "learning_rate": 1.3152352041269855e-07, "loss": 0.4407, "step": 3367 }, { "epoch": 0.8981333333333333, "grad_norm": 2.619119198503521, "learning_rate": 1.308436570156038e-07, "loss": 0.3865, "step": 3368 }, { "epoch": 0.8984, "grad_norm": 2.4982547164075766, "learning_rate": 1.3016550810799055e-07, "loss": 0.3892, "step": 3369 }, { "epoch": 0.8986666666666666, "grad_norm": 2.5855167453568337, "learning_rate": 1.2948907418061567e-07, "loss": 0.3949, "step": 3370 }, { "epoch": 0.8989333333333334, "grad_norm": 2.489761094976563, "learning_rate": 1.2881435572299484e-07, "loss": 0.3648, "step": 3371 }, { "epoch": 0.8992, "grad_norm": 3.146979133712614, "learning_rate": 1.2814135322340133e-07, "loss": 0.4978, "step": 3372 }, { "epoch": 0.8994666666666666, "grad_norm": 2.861896902391274, "learning_rate": 1.274700671688686e-07, "loss": 0.4141, "step": 3373 }, { "epoch": 0.8997333333333334, "grad_norm": 2.7960668299964326, "learning_rate": 1.2680049804518646e-07, "loss": 0.4566, "step": 3374 }, { "epoch": 0.9, "grad_norm": 2.863694618219217, "learning_rate": 1.2613264633690253e-07, "loss": 0.4113, "step": 3375 }, { "epoch": 0.9002666666666667, "grad_norm": 2.5267883230819583, "learning_rate": 1.2546651252732105e-07, "loss": 0.3434, "step": 3376 }, { "epoch": 0.9005333333333333, "grad_norm": 2.960681132662007, "learning_rate": 1.2480209709850505e-07, "loss": 0.3834, "step": 3377 }, { "epoch": 0.9008, "grad_norm": 2.5384814626267476, "learning_rate": 1.2413940053127155e-07, "loss": 0.3828, "step": 3378 }, { "epoch": 0.9010666666666667, "grad_norm": 2.8196944094856815, "learning_rate": 1.2347842330519472e-07, "loss": 0.4084, "step": 3379 }, { "epoch": 0.9013333333333333, "grad_norm": 2.7155647373352165, "learning_rate": 1.2281916589860526e-07, "loss": 0.39, "step": 3380 }, { "epoch": 0.9016, "grad_norm": 2.434928462235479, "learning_rate": 1.2216162878858768e-07, "loss": 0.3675, "step": 3381 }, { "epoch": 0.9018666666666667, "grad_norm": 3.1284034212858707, "learning_rate": 1.2150581245098325e-07, "loss": 0.4432, "step": 3382 }, { "epoch": 0.9021333333333333, "grad_norm": 2.6063873223418654, "learning_rate": 1.2085171736038653e-07, "loss": 0.3902, "step": 3383 }, { "epoch": 0.9024, "grad_norm": 2.794509924817432, "learning_rate": 1.2019934399014777e-07, "loss": 0.4347, "step": 3384 }, { "epoch": 0.9026666666666666, "grad_norm": 2.7101681800261233, "learning_rate": 1.1954869281236958e-07, "loss": 0.3932, "step": 3385 }, { "epoch": 0.9029333333333334, "grad_norm": 2.6013375780671555, "learning_rate": 1.1889976429791061e-07, "loss": 0.3889, "step": 3386 }, { "epoch": 0.9032, "grad_norm": 2.3364503476879737, "learning_rate": 1.1825255891638049e-07, "loss": 0.3435, "step": 3387 }, { "epoch": 0.9034666666666666, "grad_norm": 2.410736223372257, "learning_rate": 1.1760707713614345e-07, "loss": 0.3518, "step": 3388 }, { "epoch": 0.9037333333333334, "grad_norm": 3.361837081925775, "learning_rate": 1.1696331942431555e-07, "loss": 0.3909, "step": 3389 }, { "epoch": 0.904, "grad_norm": 2.4815445704670966, "learning_rate": 1.1632128624676581e-07, "loss": 0.3615, "step": 3390 }, { "epoch": 0.9042666666666667, "grad_norm": 2.7974774796299053, "learning_rate": 1.1568097806811451e-07, "loss": 0.4272, "step": 3391 }, { "epoch": 0.9045333333333333, "grad_norm": 2.2485781536799263, "learning_rate": 1.1504239535173433e-07, "loss": 0.3143, "step": 3392 }, { "epoch": 0.9048, "grad_norm": 3.0654899957357222, "learning_rate": 1.1440553855974923e-07, "loss": 0.4818, "step": 3393 }, { "epoch": 0.9050666666666667, "grad_norm": 2.8456851962552165, "learning_rate": 1.1377040815303331e-07, "loss": 0.3832, "step": 3394 }, { "epoch": 0.9053333333333333, "grad_norm": 2.5238224163275795, "learning_rate": 1.1313700459121252e-07, "loss": 0.3868, "step": 3395 }, { "epoch": 0.9056, "grad_norm": 2.659958590481764, "learning_rate": 1.1250532833266242e-07, "loss": 0.3974, "step": 3396 }, { "epoch": 0.9058666666666667, "grad_norm": 2.441922683948359, "learning_rate": 1.1187537983450874e-07, "loss": 0.3414, "step": 3397 }, { "epoch": 0.9061333333333333, "grad_norm": 2.921254762702188, "learning_rate": 1.1124715955262683e-07, "loss": 0.4322, "step": 3398 }, { "epoch": 0.9064, "grad_norm": 2.3936480313115944, "learning_rate": 1.1062066794164105e-07, "loss": 0.3571, "step": 3399 }, { "epoch": 0.9066666666666666, "grad_norm": 2.6925571803484027, "learning_rate": 1.09995905454926e-07, "loss": 0.373, "step": 3400 }, { "epoch": 0.9069333333333334, "grad_norm": 2.702355588578171, "learning_rate": 1.0937287254460332e-07, "loss": 0.4149, "step": 3401 }, { "epoch": 0.9072, "grad_norm": 2.805335816573016, "learning_rate": 1.0875156966154404e-07, "loss": 0.4211, "step": 3402 }, { "epoch": 0.9074666666666666, "grad_norm": 2.387774702256839, "learning_rate": 1.081319972553671e-07, "loss": 0.3584, "step": 3403 }, { "epoch": 0.9077333333333333, "grad_norm": 2.8267727458230314, "learning_rate": 1.0751415577443914e-07, "loss": 0.4183, "step": 3404 }, { "epoch": 0.908, "grad_norm": 2.636510039685159, "learning_rate": 1.0689804566587331e-07, "loss": 0.4118, "step": 3405 }, { "epoch": 0.9082666666666667, "grad_norm": 3.247981796949848, "learning_rate": 1.0628366737553187e-07, "loss": 0.4054, "step": 3406 }, { "epoch": 0.9085333333333333, "grad_norm": 2.3588600363838927, "learning_rate": 1.0567102134802081e-07, "loss": 0.3501, "step": 3407 }, { "epoch": 0.9088, "grad_norm": 2.41911462033397, "learning_rate": 1.050601080266958e-07, "loss": 0.344, "step": 3408 }, { "epoch": 0.9090666666666667, "grad_norm": 2.5982730323845797, "learning_rate": 1.0445092785365624e-07, "loss": 0.3907, "step": 3409 }, { "epoch": 0.9093333333333333, "grad_norm": 2.2989077542464758, "learning_rate": 1.0384348126974808e-07, "loss": 0.3545, "step": 3410 }, { "epoch": 0.9096, "grad_norm": 2.5437183493347226, "learning_rate": 1.0323776871456304e-07, "loss": 0.3719, "step": 3411 }, { "epoch": 0.9098666666666667, "grad_norm": 2.9509192480647033, "learning_rate": 1.0263379062643714e-07, "loss": 0.4444, "step": 3412 }, { "epoch": 0.9101333333333333, "grad_norm": 2.619200035625233, "learning_rate": 1.0203154744245298e-07, "loss": 0.4037, "step": 3413 }, { "epoch": 0.9104, "grad_norm": 2.623231820536228, "learning_rate": 1.0143103959843443e-07, "loss": 0.3709, "step": 3414 }, { "epoch": 0.9106666666666666, "grad_norm": 2.584262219727804, "learning_rate": 1.0083226752895331e-07, "loss": 0.4076, "step": 3415 }, { "epoch": 0.9109333333333334, "grad_norm": 2.5577806408042787, "learning_rate": 1.0023523166732275e-07, "loss": 0.3774, "step": 3416 }, { "epoch": 0.9112, "grad_norm": 2.7619905024418276, "learning_rate": 9.963993244560044e-08, "loss": 0.3673, "step": 3417 }, { "epoch": 0.9114666666666666, "grad_norm": 3.0253022026766, "learning_rate": 9.90463702945868e-08, "loss": 0.4375, "step": 3418 }, { "epoch": 0.9117333333333333, "grad_norm": 2.5096595069216434, "learning_rate": 9.8454545643826e-08, "loss": 0.3793, "step": 3419 }, { "epoch": 0.912, "grad_norm": 2.547525360077352, "learning_rate": 9.786445892160378e-08, "loss": 0.3845, "step": 3420 }, { "epoch": 0.9122666666666667, "grad_norm": 2.1691048007126916, "learning_rate": 9.727611055494857e-08, "loss": 0.3384, "step": 3421 }, { "epoch": 0.9125333333333333, "grad_norm": 2.5521228519820216, "learning_rate": 9.66895009696317e-08, "loss": 0.3999, "step": 3422 }, { "epoch": 0.9128, "grad_norm": 2.18151585229125, "learning_rate": 9.610463059016528e-08, "loss": 0.3133, "step": 3423 }, { "epoch": 0.9130666666666667, "grad_norm": 2.844254398132889, "learning_rate": 9.552149983980242e-08, "loss": 0.4323, "step": 3424 }, { "epoch": 0.9133333333333333, "grad_norm": 3.19263139155863, "learning_rate": 9.494010914053858e-08, "loss": 0.4903, "step": 3425 }, { "epoch": 0.9136, "grad_norm": 2.8925850230724492, "learning_rate": 9.436045891310864e-08, "loss": 0.432, "step": 3426 }, { "epoch": 0.9138666666666667, "grad_norm": 2.8549749058082345, "learning_rate": 9.378254957698924e-08, "loss": 0.4401, "step": 3427 }, { "epoch": 0.9141333333333334, "grad_norm": 2.5052938142427648, "learning_rate": 9.320638155039558e-08, "loss": 0.3636, "step": 3428 }, { "epoch": 0.9144, "grad_norm": 2.8610015793484216, "learning_rate": 9.263195525028495e-08, "loss": 0.448, "step": 3429 }, { "epoch": 0.9146666666666666, "grad_norm": 2.761085256404884, "learning_rate": 9.20592710923518e-08, "loss": 0.4089, "step": 3430 }, { "epoch": 0.9149333333333334, "grad_norm": 2.1171333834238983, "learning_rate": 9.148832949103181e-08, "loss": 0.3254, "step": 3431 }, { "epoch": 0.9152, "grad_norm": 2.803970698659416, "learning_rate": 9.091913085949838e-08, "loss": 0.3997, "step": 3432 }, { "epoch": 0.9154666666666667, "grad_norm": 2.4172146441875153, "learning_rate": 9.035167560966395e-08, "loss": 0.371, "step": 3433 }, { "epoch": 0.9157333333333333, "grad_norm": 2.830538389089287, "learning_rate": 8.97859641521795e-08, "loss": 0.4415, "step": 3434 }, { "epoch": 0.916, "grad_norm": 2.254215023438137, "learning_rate": 8.922199689643391e-08, "loss": 0.3227, "step": 3435 }, { "epoch": 0.9162666666666667, "grad_norm": 2.8424771568857996, "learning_rate": 8.865977425055433e-08, "loss": 0.4152, "step": 3436 }, { "epoch": 0.9165333333333333, "grad_norm": 2.5920601441654907, "learning_rate": 8.80992966214042e-08, "loss": 0.385, "step": 3437 }, { "epoch": 0.9168, "grad_norm": 2.7446165435150216, "learning_rate": 8.75405644145852e-08, "loss": 0.4681, "step": 3438 }, { "epoch": 0.9170666666666667, "grad_norm": 2.4311609978021678, "learning_rate": 8.698357803443525e-08, "loss": 0.3621, "step": 3439 }, { "epoch": 0.9173333333333333, "grad_norm": 3.025017649897863, "learning_rate": 8.642833788402971e-08, "loss": 0.5049, "step": 3440 }, { "epoch": 0.9176, "grad_norm": 2.538114834410985, "learning_rate": 8.58748443651794e-08, "loss": 0.416, "step": 3441 }, { "epoch": 0.9178666666666667, "grad_norm": 2.6384190691599825, "learning_rate": 8.532309787843169e-08, "loss": 0.411, "step": 3442 }, { "epoch": 0.9181333333333334, "grad_norm": 2.9431096992146584, "learning_rate": 8.477309882306884e-08, "loss": 0.41, "step": 3443 }, { "epoch": 0.9184, "grad_norm": 2.7046316601626468, "learning_rate": 8.422484759710998e-08, "loss": 0.3878, "step": 3444 }, { "epoch": 0.9186666666666666, "grad_norm": 2.3145507171301367, "learning_rate": 8.367834459730828e-08, "loss": 0.362, "step": 3445 }, { "epoch": 0.9189333333333334, "grad_norm": 2.9003135186101714, "learning_rate": 8.313359021915157e-08, "loss": 0.3985, "step": 3446 }, { "epoch": 0.9192, "grad_norm": 2.6322328485430115, "learning_rate": 8.259058485686339e-08, "loss": 0.405, "step": 3447 }, { "epoch": 0.9194666666666667, "grad_norm": 2.7196512863031024, "learning_rate": 8.204932890340051e-08, "loss": 0.3928, "step": 3448 }, { "epoch": 0.9197333333333333, "grad_norm": 2.8147696268366382, "learning_rate": 8.15098227504546e-08, "loss": 0.412, "step": 3449 }, { "epoch": 0.92, "grad_norm": 2.7528155451027185, "learning_rate": 8.097206678844948e-08, "loss": 0.412, "step": 3450 }, { "epoch": 0.9202666666666667, "grad_norm": 2.7987675394840124, "learning_rate": 8.04360614065447e-08, "loss": 0.4487, "step": 3451 }, { "epoch": 0.9205333333333333, "grad_norm": 2.45156031176913, "learning_rate": 7.990180699263134e-08, "loss": 0.3802, "step": 3452 }, { "epoch": 0.9208, "grad_norm": 2.999165550381656, "learning_rate": 7.936930393333347e-08, "loss": 0.3689, "step": 3453 }, { "epoch": 0.9210666666666667, "grad_norm": 3.1520590875717724, "learning_rate": 7.883855261400841e-08, "loss": 0.4113, "step": 3454 }, { "epoch": 0.9213333333333333, "grad_norm": 2.531865832510428, "learning_rate": 7.83095534187453e-08, "loss": 0.3433, "step": 3455 }, { "epoch": 0.9216, "grad_norm": 2.810804561507447, "learning_rate": 7.778230673036541e-08, "loss": 0.3953, "step": 3456 }, { "epoch": 0.9218666666666666, "grad_norm": 3.1716900512500246, "learning_rate": 7.725681293042159e-08, "loss": 0.4341, "step": 3457 }, { "epoch": 0.9221333333333334, "grad_norm": 2.8089539162471078, "learning_rate": 7.673307239919908e-08, "loss": 0.4121, "step": 3458 }, { "epoch": 0.9224, "grad_norm": 2.4763963910461806, "learning_rate": 7.621108551571332e-08, "loss": 0.3986, "step": 3459 }, { "epoch": 0.9226666666666666, "grad_norm": 2.7080164522178483, "learning_rate": 7.569085265771075e-08, "loss": 0.4444, "step": 3460 }, { "epoch": 0.9229333333333334, "grad_norm": 2.6750155246602367, "learning_rate": 7.517237420166884e-08, "loss": 0.3668, "step": 3461 }, { "epoch": 0.9232, "grad_norm": 2.69090942696542, "learning_rate": 7.465565052279578e-08, "loss": 0.3821, "step": 3462 }, { "epoch": 0.9234666666666667, "grad_norm": 2.43826772922536, "learning_rate": 7.414068199502883e-08, "loss": 0.3992, "step": 3463 }, { "epoch": 0.9237333333333333, "grad_norm": 3.0173972222526797, "learning_rate": 7.362746899103628e-08, "loss": 0.4358, "step": 3464 }, { "epoch": 0.924, "grad_norm": 2.551490552116599, "learning_rate": 7.311601188221523e-08, "loss": 0.3883, "step": 3465 }, { "epoch": 0.9242666666666667, "grad_norm": 2.623588527232749, "learning_rate": 7.260631103869237e-08, "loss": 0.38, "step": 3466 }, { "epoch": 0.9245333333333333, "grad_norm": 2.6032401902176576, "learning_rate": 7.20983668293232e-08, "loss": 0.3649, "step": 3467 }, { "epoch": 0.9248, "grad_norm": 2.871728504368792, "learning_rate": 7.15921796216923e-08, "loss": 0.4523, "step": 3468 }, { "epoch": 0.9250666666666667, "grad_norm": 2.7157085095104314, "learning_rate": 7.108774978211247e-08, "loss": 0.3794, "step": 3469 }, { "epoch": 0.9253333333333333, "grad_norm": 2.370499585293355, "learning_rate": 7.058507767562451e-08, "loss": 0.3347, "step": 3470 }, { "epoch": 0.9256, "grad_norm": 2.5437726606972926, "learning_rate": 7.008416366599852e-08, "loss": 0.4211, "step": 3471 }, { "epoch": 0.9258666666666666, "grad_norm": 3.065449052123195, "learning_rate": 6.958500811573093e-08, "loss": 0.4366, "step": 3472 }, { "epoch": 0.9261333333333334, "grad_norm": 3.1096906092667878, "learning_rate": 6.908761138604614e-08, "loss": 0.4673, "step": 3473 }, { "epoch": 0.9264, "grad_norm": 2.871346866590779, "learning_rate": 6.859197383689565e-08, "loss": 0.4312, "step": 3474 }, { "epoch": 0.9266666666666666, "grad_norm": 2.831796956224638, "learning_rate": 6.809809582695781e-08, "loss": 0.4152, "step": 3475 }, { "epoch": 0.9269333333333334, "grad_norm": 2.6782879978647234, "learning_rate": 6.760597771363786e-08, "loss": 0.3701, "step": 3476 }, { "epoch": 0.9272, "grad_norm": 2.5239185630345284, "learning_rate": 6.71156198530673e-08, "loss": 0.4164, "step": 3477 }, { "epoch": 0.9274666666666667, "grad_norm": 3.1085036090476166, "learning_rate": 6.662702260010423e-08, "loss": 0.488, "step": 3478 }, { "epoch": 0.9277333333333333, "grad_norm": 3.8905487417775833, "learning_rate": 6.614018630833136e-08, "loss": 0.4527, "step": 3479 }, { "epoch": 0.928, "grad_norm": 3.3651765133555585, "learning_rate": 6.565511133005881e-08, "loss": 0.446, "step": 3480 }, { "epoch": 0.9282666666666667, "grad_norm": 3.911233270513516, "learning_rate": 6.517179801632106e-08, "loss": 0.4294, "step": 3481 }, { "epoch": 0.9285333333333333, "grad_norm": 2.986727019024398, "learning_rate": 6.469024671687752e-08, "loss": 0.4118, "step": 3482 }, { "epoch": 0.9288, "grad_norm": 2.6822196165518872, "learning_rate": 6.421045778021301e-08, "loss": 0.4006, "step": 3483 }, { "epoch": 0.9290666666666667, "grad_norm": 2.4858390150764693, "learning_rate": 6.373243155353675e-08, "loss": 0.3883, "step": 3484 }, { "epoch": 0.9293333333333333, "grad_norm": 2.558705842177176, "learning_rate": 6.325616838278314e-08, "loss": 0.4013, "step": 3485 }, { "epoch": 0.9296, "grad_norm": 2.56235673326509, "learning_rate": 6.27816686126087e-08, "loss": 0.3613, "step": 3486 }, { "epoch": 0.9298666666666666, "grad_norm": 2.76051848927449, "learning_rate": 6.230893258639597e-08, "loss": 0.4134, "step": 3487 }, { "epoch": 0.9301333333333334, "grad_norm": 2.4983606332299138, "learning_rate": 6.18379606462502e-08, "loss": 0.3788, "step": 3488 }, { "epoch": 0.9304, "grad_norm": 2.387748908536571, "learning_rate": 6.136875313299983e-08, "loss": 0.3878, "step": 3489 }, { "epoch": 0.9306666666666666, "grad_norm": 2.529213017836541, "learning_rate": 6.090131038619662e-08, "loss": 0.3557, "step": 3490 }, { "epoch": 0.9309333333333333, "grad_norm": 2.967960833527445, "learning_rate": 6.043563274411606e-08, "loss": 0.4228, "step": 3491 }, { "epoch": 0.9312, "grad_norm": 2.758488638663761, "learning_rate": 5.997172054375417e-08, "loss": 0.3874, "step": 3492 }, { "epoch": 0.9314666666666667, "grad_norm": 2.6011313996101135, "learning_rate": 5.9509574120831524e-08, "loss": 0.3875, "step": 3493 }, { "epoch": 0.9317333333333333, "grad_norm": 2.526990720938518, "learning_rate": 5.9049193809790073e-08, "loss": 0.3834, "step": 3494 }, { "epoch": 0.932, "grad_norm": 2.265408261916482, "learning_rate": 5.859057994379358e-08, "loss": 0.3319, "step": 3495 }, { "epoch": 0.9322666666666667, "grad_norm": 2.4260163819313876, "learning_rate": 5.81337328547274e-08, "loss": 0.3525, "step": 3496 }, { "epoch": 0.9325333333333333, "grad_norm": 2.7099420887296475, "learning_rate": 5.7678652873198184e-08, "loss": 0.4024, "step": 3497 }, { "epoch": 0.9328, "grad_norm": 2.5684076577443458, "learning_rate": 5.7225340328535e-08, "loss": 0.3919, "step": 3498 }, { "epoch": 0.9330666666666667, "grad_norm": 2.597777133154891, "learning_rate": 5.6773795548785705e-08, "loss": 0.3856, "step": 3499 }, { "epoch": 0.9333333333333333, "grad_norm": 2.79589455937171, "learning_rate": 5.632401886072114e-08, "loss": 0.437, "step": 3500 }, { "epoch": 0.9336, "grad_norm": 2.6906090145247097, "learning_rate": 5.58760105898315e-08, "loss": 0.4175, "step": 3501 }, { "epoch": 0.9338666666666666, "grad_norm": 2.4448463575094967, "learning_rate": 5.54297710603266e-08, "loss": 0.3837, "step": 3502 }, { "epoch": 0.9341333333333334, "grad_norm": 2.8513827252225434, "learning_rate": 5.4985300595137844e-08, "loss": 0.4026, "step": 3503 }, { "epoch": 0.9344, "grad_norm": 2.849224293494483, "learning_rate": 5.454259951591489e-08, "loss": 0.3948, "step": 3504 }, { "epoch": 0.9346666666666666, "grad_norm": 2.5350827895482184, "learning_rate": 5.410166814302814e-08, "loss": 0.3972, "step": 3505 }, { "epoch": 0.9349333333333333, "grad_norm": 2.52152727939573, "learning_rate": 5.366250679556623e-08, "loss": 0.3743, "step": 3506 }, { "epoch": 0.9352, "grad_norm": 2.7432756228897586, "learning_rate": 5.322511579133826e-08, "loss": 0.4383, "step": 3507 }, { "epoch": 0.9354666666666667, "grad_norm": 3.30667210798587, "learning_rate": 5.278949544687023e-08, "loss": 0.5007, "step": 3508 }, { "epoch": 0.9357333333333333, "grad_norm": 2.6818935204694427, "learning_rate": 5.235564607740912e-08, "loss": 0.4296, "step": 3509 }, { "epoch": 0.936, "grad_norm": 2.483357539450612, "learning_rate": 5.19235679969185e-08, "loss": 0.3129, "step": 3510 }, { "epoch": 0.9362666666666667, "grad_norm": 2.4808157202379117, "learning_rate": 5.1493261518080486e-08, "loss": 0.4148, "step": 3511 }, { "epoch": 0.9365333333333333, "grad_norm": 2.7475254864039864, "learning_rate": 5.1064726952295697e-08, "loss": 0.4831, "step": 3512 }, { "epoch": 0.9368, "grad_norm": 3.147850733379495, "learning_rate": 5.06379646096819e-08, "loss": 0.438, "step": 3513 }, { "epoch": 0.9370666666666667, "grad_norm": 2.613731743025861, "learning_rate": 5.021297479907511e-08, "loss": 0.4102, "step": 3514 }, { "epoch": 0.9373333333333334, "grad_norm": 2.7142094260277467, "learning_rate": 4.9789757828027086e-08, "loss": 0.412, "step": 3515 }, { "epoch": 0.9376, "grad_norm": 2.584430348731399, "learning_rate": 4.936831400280867e-08, "loss": 0.4082, "step": 3516 }, { "epoch": 0.9378666666666666, "grad_norm": 2.431962040197288, "learning_rate": 4.89486436284059e-08, "loss": 0.3556, "step": 3517 }, { "epoch": 0.9381333333333334, "grad_norm": 2.73954023952469, "learning_rate": 4.8530747008522225e-08, "loss": 0.408, "step": 3518 }, { "epoch": 0.9384, "grad_norm": 2.694715052980313, "learning_rate": 4.811462444557713e-08, "loss": 0.4088, "step": 3519 }, { "epoch": 0.9386666666666666, "grad_norm": 2.3743808119759953, "learning_rate": 4.770027624070639e-08, "loss": 0.3618, "step": 3520 }, { "epoch": 0.9389333333333333, "grad_norm": 2.688037677899341, "learning_rate": 4.7287702693761817e-08, "loss": 0.3861, "step": 3521 }, { "epoch": 0.9392, "grad_norm": 2.6440097762669827, "learning_rate": 4.6876904103310973e-08, "loss": 0.3766, "step": 3522 }, { "epoch": 0.9394666666666667, "grad_norm": 2.6554018557477694, "learning_rate": 4.6467880766636886e-08, "loss": 0.4088, "step": 3523 }, { "epoch": 0.9397333333333333, "grad_norm": 2.7800349420179407, "learning_rate": 4.6060632979737506e-08, "loss": 0.4562, "step": 3524 }, { "epoch": 0.94, "grad_norm": 2.731552335299105, "learning_rate": 4.5655161037326256e-08, "loss": 0.4082, "step": 3525 }, { "epoch": 0.9402666666666667, "grad_norm": 2.7018000938516757, "learning_rate": 4.525146523283147e-08, "loss": 0.3655, "step": 3526 }, { "epoch": 0.9405333333333333, "grad_norm": 2.4991761899371987, "learning_rate": 4.484954585839668e-08, "loss": 0.3496, "step": 3527 }, { "epoch": 0.9408, "grad_norm": 2.6089104041006492, "learning_rate": 4.444940320487784e-08, "loss": 0.374, "step": 3528 }, { "epoch": 0.9410666666666667, "grad_norm": 2.562748701125774, "learning_rate": 4.405103756184775e-08, "loss": 0.3868, "step": 3529 }, { "epoch": 0.9413333333333334, "grad_norm": 2.4422018904046023, "learning_rate": 4.3654449217591656e-08, "loss": 0.3797, "step": 3530 }, { "epoch": 0.9416, "grad_norm": 2.830603140975244, "learning_rate": 4.325963845910913e-08, "loss": 0.441, "step": 3531 }, { "epoch": 0.9418666666666666, "grad_norm": 2.8760333976602723, "learning_rate": 4.286660557211275e-08, "loss": 0.3979, "step": 3532 }, { "epoch": 0.9421333333333334, "grad_norm": 2.443509106990942, "learning_rate": 4.247535084102916e-08, "loss": 0.3969, "step": 3533 }, { "epoch": 0.9424, "grad_norm": 2.9041088745308543, "learning_rate": 4.2085874548998816e-08, "loss": 0.4558, "step": 3534 }, { "epoch": 0.9426666666666667, "grad_norm": 2.81021974520016, "learning_rate": 4.1698176977872926e-08, "loss": 0.4627, "step": 3535 }, { "epoch": 0.9429333333333333, "grad_norm": 2.91555006318277, "learning_rate": 4.1312258408218174e-08, "loss": 0.4121, "step": 3536 }, { "epoch": 0.9432, "grad_norm": 2.6167236655453348, "learning_rate": 4.092811911931199e-08, "loss": 0.3839, "step": 3537 }, { "epoch": 0.9434666666666667, "grad_norm": 2.9654545109487174, "learning_rate": 4.0545759389145065e-08, "loss": 0.4444, "step": 3538 }, { "epoch": 0.9437333333333333, "grad_norm": 2.460211189099431, "learning_rate": 4.016517949441995e-08, "loss": 0.42, "step": 3539 }, { "epoch": 0.944, "grad_norm": 2.4217900192465516, "learning_rate": 3.9786379710551046e-08, "loss": 0.3949, "step": 3540 }, { "epoch": 0.9442666666666667, "grad_norm": 4.188016039028772, "learning_rate": 3.940936031166492e-08, "loss": 0.4628, "step": 3541 }, { "epoch": 0.9445333333333333, "grad_norm": 3.2323993543594884, "learning_rate": 3.903412157059916e-08, "loss": 0.4774, "step": 3542 }, { "epoch": 0.9448, "grad_norm": 3.1386982751614143, "learning_rate": 3.866066375890404e-08, "loss": 0.4552, "step": 3543 }, { "epoch": 0.9450666666666667, "grad_norm": 3.0698475548499866, "learning_rate": 3.828898714683893e-08, "loss": 0.4409, "step": 3544 }, { "epoch": 0.9453333333333334, "grad_norm": 2.8499645233368636, "learning_rate": 3.791909200337618e-08, "loss": 0.4243, "step": 3545 }, { "epoch": 0.9456, "grad_norm": 3.103431491781728, "learning_rate": 3.75509785961975e-08, "loss": 0.399, "step": 3546 }, { "epoch": 0.9458666666666666, "grad_norm": 2.974620680435709, "learning_rate": 3.718464719169701e-08, "loss": 0.4405, "step": 3547 }, { "epoch": 0.9461333333333334, "grad_norm": 2.5965490099613793, "learning_rate": 3.6820098054976825e-08, "loss": 0.4052, "step": 3548 }, { "epoch": 0.9464, "grad_norm": 2.244068274494723, "learning_rate": 3.6457331449851194e-08, "loss": 0.3602, "step": 3549 }, { "epoch": 0.9466666666666667, "grad_norm": 2.5603168782878245, "learning_rate": 3.6096347638843455e-08, "loss": 0.3857, "step": 3550 }, { "epoch": 0.9469333333333333, "grad_norm": 2.390944421008176, "learning_rate": 3.5737146883187415e-08, "loss": 0.3442, "step": 3551 }, { "epoch": 0.9472, "grad_norm": 2.5181936305676706, "learning_rate": 3.537972944282597e-08, "loss": 0.4011, "step": 3552 }, { "epoch": 0.9474666666666667, "grad_norm": 2.7249424719220032, "learning_rate": 3.5024095576411675e-08, "loss": 0.4159, "step": 3553 }, { "epoch": 0.9477333333333333, "grad_norm": 2.7901473501148377, "learning_rate": 3.4670245541306716e-08, "loss": 0.4324, "step": 3554 }, { "epoch": 0.948, "grad_norm": 2.536619242901851, "learning_rate": 3.431817959358152e-08, "loss": 0.366, "step": 3555 }, { "epoch": 0.9482666666666667, "grad_norm": 2.778767344082939, "learning_rate": 3.396789798801647e-08, "loss": 0.4314, "step": 3556 }, { "epoch": 0.9485333333333333, "grad_norm": 2.650223941834241, "learning_rate": 3.36194009780999e-08, "loss": 0.3978, "step": 3557 }, { "epoch": 0.9488, "grad_norm": 2.4679137164102403, "learning_rate": 3.327268881602924e-08, "loss": 0.3662, "step": 3558 }, { "epoch": 0.9490666666666666, "grad_norm": 2.388868948333549, "learning_rate": 3.292776175270962e-08, "loss": 0.3393, "step": 3559 }, { "epoch": 0.9493333333333334, "grad_norm": 2.5238553025838253, "learning_rate": 3.258462003775498e-08, "loss": 0.3802, "step": 3560 }, { "epoch": 0.9496, "grad_norm": 2.6217591812389385, "learning_rate": 3.224326391948668e-08, "loss": 0.3848, "step": 3561 }, { "epoch": 0.9498666666666666, "grad_norm": 2.6900662558378317, "learning_rate": 3.190369364493462e-08, "loss": 0.4007, "step": 3562 }, { "epoch": 0.9501333333333334, "grad_norm": 3.022265643654705, "learning_rate": 3.1565909459835844e-08, "loss": 0.4789, "step": 3563 }, { "epoch": 0.9504, "grad_norm": 2.9972209200813333, "learning_rate": 3.1229911608634535e-08, "loss": 0.4153, "step": 3564 }, { "epoch": 0.9506666666666667, "grad_norm": 2.748641489315122, "learning_rate": 3.089570033448286e-08, "loss": 0.3879, "step": 3565 }, { "epoch": 0.9509333333333333, "grad_norm": 2.553944940506227, "learning_rate": 3.056327587923985e-08, "loss": 0.4069, "step": 3566 }, { "epoch": 0.9512, "grad_norm": 2.62511887644279, "learning_rate": 3.023263848347141e-08, "loss": 0.3759, "step": 3567 }, { "epoch": 0.9514666666666667, "grad_norm": 2.4349140115587637, "learning_rate": 2.990378838645003e-08, "loss": 0.3322, "step": 3568 }, { "epoch": 0.9517333333333333, "grad_norm": 3.0008154865237735, "learning_rate": 2.9576725826155063e-08, "loss": 0.4407, "step": 3569 }, { "epoch": 0.952, "grad_norm": 3.0507481497298072, "learning_rate": 2.9251451039272183e-08, "loss": 0.4413, "step": 3570 }, { "epoch": 0.9522666666666667, "grad_norm": 2.30170497465666, "learning_rate": 2.892796426119282e-08, "loss": 0.3312, "step": 3571 }, { "epoch": 0.9525333333333333, "grad_norm": 2.5810805844408815, "learning_rate": 2.8606265726015825e-08, "loss": 0.3666, "step": 3572 }, { "epoch": 0.9528, "grad_norm": 2.6485006922742778, "learning_rate": 2.8286355666544417e-08, "loss": 0.412, "step": 3573 }, { "epoch": 0.9530666666666666, "grad_norm": 2.7597786198914065, "learning_rate": 2.7968234314288413e-08, "loss": 0.3905, "step": 3574 }, { "epoch": 0.9533333333333334, "grad_norm": 2.589103519900476, "learning_rate": 2.7651901899462818e-08, "loss": 0.3786, "step": 3575 }, { "epoch": 0.9536, "grad_norm": 2.883312384585019, "learning_rate": 2.7337358650988687e-08, "loss": 0.426, "step": 3576 }, { "epoch": 0.9538666666666666, "grad_norm": 3.460702879198339, "learning_rate": 2.7024604796490883e-08, "loss": 0.5208, "step": 3577 }, { "epoch": 0.9541333333333334, "grad_norm": 2.687687211373116, "learning_rate": 2.6713640562301136e-08, "loss": 0.4145, "step": 3578 }, { "epoch": 0.9544, "grad_norm": 2.558298983393364, "learning_rate": 2.640446617345499e-08, "loss": 0.3684, "step": 3579 }, { "epoch": 0.9546666666666667, "grad_norm": 2.858427850731316, "learning_rate": 2.609708185369264e-08, "loss": 0.4396, "step": 3580 }, { "epoch": 0.9549333333333333, "grad_norm": 2.4676851412387504, "learning_rate": 2.5791487825459483e-08, "loss": 0.3928, "step": 3581 }, { "epoch": 0.9552, "grad_norm": 2.495549059476647, "learning_rate": 2.5487684309905005e-08, "loss": 0.3869, "step": 3582 }, { "epoch": 0.9554666666666667, "grad_norm": 2.5995109160094656, "learning_rate": 2.5185671526882782e-08, "loss": 0.3864, "step": 3583 }, { "epoch": 0.9557333333333333, "grad_norm": 2.645572343276888, "learning_rate": 2.488544969495077e-08, "loss": 0.4221, "step": 3584 }, { "epoch": 0.956, "grad_norm": 2.079628903806613, "learning_rate": 2.458701903137073e-08, "loss": 0.3096, "step": 3585 }, { "epoch": 0.9562666666666667, "grad_norm": 2.245424431234214, "learning_rate": 2.429037975210824e-08, "loss": 0.3471, "step": 3586 }, { "epoch": 0.9565333333333333, "grad_norm": 2.541356187555057, "learning_rate": 2.3995532071832694e-08, "loss": 0.383, "step": 3587 }, { "epoch": 0.9568, "grad_norm": 2.8872736044943967, "learning_rate": 2.3702476203916746e-08, "loss": 0.4312, "step": 3588 }, { "epoch": 0.9570666666666666, "grad_norm": 2.5252058399429953, "learning_rate": 2.341121236043603e-08, "loss": 0.3752, "step": 3589 }, { "epoch": 0.9573333333333334, "grad_norm": 2.497246133617172, "learning_rate": 2.3121740752170273e-08, "loss": 0.4448, "step": 3590 }, { "epoch": 0.9576, "grad_norm": 2.541316798993406, "learning_rate": 2.2834061588600797e-08, "loss": 0.3699, "step": 3591 }, { "epoch": 0.9578666666666666, "grad_norm": 3.2514435780898783, "learning_rate": 2.2548175077913847e-08, "loss": 0.4182, "step": 3592 }, { "epoch": 0.9581333333333333, "grad_norm": 2.9837026460259404, "learning_rate": 2.2264081426996154e-08, "loss": 0.4447, "step": 3593 }, { "epoch": 0.9584, "grad_norm": 2.6157638585327296, "learning_rate": 2.1981780841438537e-08, "loss": 0.4402, "step": 3594 }, { "epoch": 0.9586666666666667, "grad_norm": 2.730157352278339, "learning_rate": 2.1701273525533417e-08, "loss": 0.4136, "step": 3595 }, { "epoch": 0.9589333333333333, "grad_norm": 3.3907173040400806, "learning_rate": 2.142255968227619e-08, "loss": 0.4062, "step": 3596 }, { "epoch": 0.9592, "grad_norm": 3.0933563431059388, "learning_rate": 2.1145639513363293e-08, "loss": 0.4986, "step": 3597 }, { "epoch": 0.9594666666666667, "grad_norm": 2.626161408702991, "learning_rate": 2.087051321919442e-08, "loss": 0.387, "step": 3598 }, { "epoch": 0.9597333333333333, "grad_norm": 3.131452866694248, "learning_rate": 2.0597180998870313e-08, "loss": 0.4577, "step": 3599 }, { "epoch": 0.96, "grad_norm": 3.0663741897703343, "learning_rate": 2.03256430501933e-08, "loss": 0.4514, "step": 3600 }, { "epoch": 0.9602666666666667, "grad_norm": 2.3379985300628583, "learning_rate": 2.005589956966758e-08, "loss": 0.3442, "step": 3601 }, { "epoch": 0.9605333333333334, "grad_norm": 2.375919010390897, "learning_rate": 1.9787950752498676e-08, "loss": 0.368, "step": 3602 }, { "epoch": 0.9608, "grad_norm": 2.5520296359104506, "learning_rate": 1.9521796792593695e-08, "loss": 0.38, "step": 3603 }, { "epoch": 0.9610666666666666, "grad_norm": 2.743424005727974, "learning_rate": 1.925743788255996e-08, "loss": 0.4119, "step": 3604 }, { "epoch": 0.9613333333333334, "grad_norm": 2.6308999778328186, "learning_rate": 1.899487421370666e-08, "loss": 0.3928, "step": 3605 }, { "epoch": 0.9616, "grad_norm": 2.4986363518122343, "learning_rate": 1.8734105976043193e-08, "loss": 0.342, "step": 3606 }, { "epoch": 0.9618666666666666, "grad_norm": 2.670163668196974, "learning_rate": 1.8475133358280273e-08, "loss": 0.3821, "step": 3607 }, { "epoch": 0.9621333333333333, "grad_norm": 2.7679187958291203, "learning_rate": 1.821795654782882e-08, "loss": 0.4158, "step": 3608 }, { "epoch": 0.9624, "grad_norm": 2.9202983823307362, "learning_rate": 1.796257573079996e-08, "loss": 0.4303, "step": 3609 }, { "epoch": 0.9626666666666667, "grad_norm": 2.896779982942162, "learning_rate": 1.770899109200558e-08, "loss": 0.4251, "step": 3610 }, { "epoch": 0.9629333333333333, "grad_norm": 2.4528119830189348, "learning_rate": 1.745720281495722e-08, "loss": 0.3435, "step": 3611 }, { "epoch": 0.9632, "grad_norm": 2.751236833707184, "learning_rate": 1.720721108186718e-08, "loss": 0.3993, "step": 3612 }, { "epoch": 0.9634666666666667, "grad_norm": 2.7818600378446967, "learning_rate": 1.6959016073646585e-08, "loss": 0.4484, "step": 3613 }, { "epoch": 0.9637333333333333, "grad_norm": 2.60616443094772, "learning_rate": 1.6712617969907586e-08, "loss": 0.4131, "step": 3614 }, { "epoch": 0.964, "grad_norm": 2.9930127700850098, "learning_rate": 1.6468016948960886e-08, "loss": 0.3601, "step": 3615 }, { "epoch": 0.9642666666666667, "grad_norm": 2.560932712364199, "learning_rate": 1.622521318781739e-08, "loss": 0.4002, "step": 3616 }, { "epoch": 0.9645333333333334, "grad_norm": 2.45618318397649, "learning_rate": 1.5984206862186825e-08, "loss": 0.4041, "step": 3617 }, { "epoch": 0.9648, "grad_norm": 2.7383178177152727, "learning_rate": 1.574499814647884e-08, "loss": 0.3998, "step": 3618 }, { "epoch": 0.9650666666666666, "grad_norm": 3.001823962828929, "learning_rate": 1.5507587213801356e-08, "loss": 0.4573, "step": 3619 }, { "epoch": 0.9653333333333334, "grad_norm": 2.9737819449008756, "learning_rate": 1.527197423596194e-08, "loss": 0.4427, "step": 3620 }, { "epoch": 0.9656, "grad_norm": 2.258535342063506, "learning_rate": 1.5038159383466976e-08, "loss": 0.3149, "step": 3621 }, { "epoch": 0.9658666666666667, "grad_norm": 2.6075591106563065, "learning_rate": 1.4806142825521397e-08, "loss": 0.3849, "step": 3622 }, { "epoch": 0.9661333333333333, "grad_norm": 2.500157593761285, "learning_rate": 1.4575924730028946e-08, "loss": 0.3999, "step": 3623 }, { "epoch": 0.9664, "grad_norm": 2.4595814543232946, "learning_rate": 1.4347505263591354e-08, "loss": 0.3798, "step": 3624 }, { "epoch": 0.9666666666666667, "grad_norm": 2.6112277782482707, "learning_rate": 1.4120884591509731e-08, "loss": 0.3906, "step": 3625 }, { "epoch": 0.9669333333333333, "grad_norm": 2.334783502741938, "learning_rate": 1.3896062877782335e-08, "loss": 0.3334, "step": 3626 }, { "epoch": 0.9672, "grad_norm": 2.8591409834388464, "learning_rate": 1.3673040285106243e-08, "loss": 0.4493, "step": 3627 }, { "epoch": 0.9674666666666667, "grad_norm": 2.5906665633471935, "learning_rate": 1.3451816974876797e-08, "loss": 0.4241, "step": 3628 }, { "epoch": 0.9677333333333333, "grad_norm": 2.391084489332109, "learning_rate": 1.3232393107186214e-08, "loss": 0.3325, "step": 3629 }, { "epoch": 0.968, "grad_norm": 2.3578945791678008, "learning_rate": 1.301476884082553e-08, "loss": 0.3396, "step": 3630 }, { "epoch": 0.9682666666666667, "grad_norm": 2.2769133764454046, "learning_rate": 1.2798944333283215e-08, "loss": 0.3534, "step": 3631 }, { "epoch": 0.9685333333333334, "grad_norm": 2.441507137985032, "learning_rate": 1.2584919740744883e-08, "loss": 0.3505, "step": 3632 }, { "epoch": 0.9688, "grad_norm": 2.5339922316123373, "learning_rate": 1.2372695218094144e-08, "loss": 0.3454, "step": 3633 }, { "epoch": 0.9690666666666666, "grad_norm": 2.3275817706031443, "learning_rate": 1.2162270918911478e-08, "loss": 0.3304, "step": 3634 }, { "epoch": 0.9693333333333334, "grad_norm": 3.0345874660646457, "learning_rate": 1.1953646995475076e-08, "loss": 0.4143, "step": 3635 }, { "epoch": 0.9696, "grad_norm": 2.5157489731630758, "learning_rate": 1.1746823598759726e-08, "loss": 0.3701, "step": 3636 }, { "epoch": 0.9698666666666667, "grad_norm": 2.1862842771842264, "learning_rate": 1.1541800878437925e-08, "loss": 0.3457, "step": 3637 }, { "epoch": 0.9701333333333333, "grad_norm": 2.5046672219681, "learning_rate": 1.1338578982878213e-08, "loss": 0.3801, "step": 3638 }, { "epoch": 0.9704, "grad_norm": 2.6226410841290932, "learning_rate": 1.1137158059146559e-08, "loss": 0.3917, "step": 3639 }, { "epoch": 0.9706666666666667, "grad_norm": 2.5419758606264384, "learning_rate": 1.0937538253004976e-08, "loss": 0.4015, "step": 3640 }, { "epoch": 0.9709333333333333, "grad_norm": 2.4684808002032104, "learning_rate": 1.0739719708913466e-08, "loss": 0.344, "step": 3641 }, { "epoch": 0.9712, "grad_norm": 2.7310209307367384, "learning_rate": 1.0543702570026682e-08, "loss": 0.4139, "step": 3642 }, { "epoch": 0.9714666666666667, "grad_norm": 2.9285947210870935, "learning_rate": 1.0349486978196987e-08, "loss": 0.4607, "step": 3643 }, { "epoch": 0.9717333333333333, "grad_norm": 3.0471708776548785, "learning_rate": 1.0157073073972234e-08, "loss": 0.4674, "step": 3644 }, { "epoch": 0.972, "grad_norm": 2.904230669985872, "learning_rate": 9.966460996597149e-09, "loss": 0.4336, "step": 3645 }, { "epoch": 0.9722666666666666, "grad_norm": 2.848900495714319, "learning_rate": 9.777650884011669e-09, "loss": 0.4229, "step": 3646 }, { "epoch": 0.9725333333333334, "grad_norm": 3.000860142498328, "learning_rate": 9.590642872852607e-09, "loss": 0.4196, "step": 3647 }, { "epoch": 0.9728, "grad_norm": 2.510482231333724, "learning_rate": 9.405437098451985e-09, "loss": 0.3563, "step": 3648 }, { "epoch": 0.9730666666666666, "grad_norm": 2.591547991172249, "learning_rate": 9.222033694837872e-09, "loss": 0.4076, "step": 3649 }, { "epoch": 0.9733333333333334, "grad_norm": 2.786829276950838, "learning_rate": 9.0404327947341e-09, "loss": 0.3939, "step": 3650 }, { "epoch": 0.9736, "grad_norm": 2.5272076039558877, "learning_rate": 8.860634529559708e-09, "loss": 0.3757, "step": 3651 }, { "epoch": 0.9738666666666667, "grad_norm": 2.215401993536567, "learning_rate": 8.682639029429784e-09, "loss": 0.3337, "step": 3652 }, { "epoch": 0.9741333333333333, "grad_norm": 2.561378777758312, "learning_rate": 8.50644642315407e-09, "loss": 0.4023, "step": 3653 }, { "epoch": 0.9744, "grad_norm": 2.287779115524206, "learning_rate": 8.332056838238344e-09, "loss": 0.3488, "step": 3654 }, { "epoch": 0.9746666666666667, "grad_norm": 2.9486470591776097, "learning_rate": 8.15947040088333e-09, "loss": 0.4185, "step": 3655 }, { "epoch": 0.9749333333333333, "grad_norm": 2.752952880088581, "learning_rate": 7.988687235984394e-09, "loss": 0.4181, "step": 3656 }, { "epoch": 0.9752, "grad_norm": 2.6305667360538507, "learning_rate": 7.819707467132954e-09, "loss": 0.4217, "step": 3657 }, { "epoch": 0.9754666666666667, "grad_norm": 2.8636296242834507, "learning_rate": 7.652531216614245e-09, "loss": 0.3985, "step": 3658 }, { "epoch": 0.9757333333333333, "grad_norm": 2.928734057716164, "learning_rate": 7.487158605408996e-09, "loss": 0.4205, "step": 3659 }, { "epoch": 0.976, "grad_norm": 2.9216581029601225, "learning_rate": 7.323589753192584e-09, "loss": 0.4716, "step": 3660 }, { "epoch": 0.9762666666666666, "grad_norm": 2.4521911940521397, "learning_rate": 7.161824778335047e-09, "loss": 0.3854, "step": 3661 }, { "epoch": 0.9765333333333334, "grad_norm": 2.534250692745915, "learning_rate": 7.001863797901076e-09, "loss": 0.3884, "step": 3662 }, { "epoch": 0.9768, "grad_norm": 2.7002574910558654, "learning_rate": 6.843706927649462e-09, "loss": 0.3963, "step": 3663 }, { "epoch": 0.9770666666666666, "grad_norm": 2.5581559547874213, "learning_rate": 6.687354282033931e-09, "loss": 0.3949, "step": 3664 }, { "epoch": 0.9773333333333334, "grad_norm": 2.455892002952352, "learning_rate": 6.532805974202583e-09, "loss": 0.3668, "step": 3665 }, { "epoch": 0.9776, "grad_norm": 3.0358431089730087, "learning_rate": 6.380062115997066e-09, "loss": 0.5026, "step": 3666 }, { "epoch": 0.9778666666666667, "grad_norm": 3.5574504221720358, "learning_rate": 6.229122817953959e-09, "loss": 0.5412, "step": 3667 }, { "epoch": 0.9781333333333333, "grad_norm": 2.504434291927375, "learning_rate": 6.079988189303665e-09, "loss": 0.3841, "step": 3668 }, { "epoch": 0.9784, "grad_norm": 2.7441477877403315, "learning_rate": 5.9326583379701316e-09, "loss": 0.4022, "step": 3669 }, { "epoch": 0.9786666666666667, "grad_norm": 2.6191878050475337, "learning_rate": 5.78713337057224e-09, "loss": 0.3987, "step": 3670 }, { "epoch": 0.9789333333333333, "grad_norm": 2.5845675033137443, "learning_rate": 5.643413392421859e-09, "loss": 0.3838, "step": 3671 }, { "epoch": 0.9792, "grad_norm": 2.9130359453268806, "learning_rate": 5.5014985075252384e-09, "loss": 0.4444, "step": 3672 }, { "epoch": 0.9794666666666667, "grad_norm": 2.773265838138167, "learning_rate": 5.361388818581892e-09, "loss": 0.3978, "step": 3673 }, { "epoch": 0.9797333333333333, "grad_norm": 2.674837228546706, "learning_rate": 5.223084426984881e-09, "loss": 0.4317, "step": 3674 }, { "epoch": 0.98, "grad_norm": 3.585218872591551, "learning_rate": 5.086585432821367e-09, "loss": 0.4461, "step": 3675 }, { "epoch": 0.9802666666666666, "grad_norm": 2.702632414355289, "learning_rate": 4.9518919348715e-09, "loss": 0.4213, "step": 3676 }, { "epoch": 0.9805333333333334, "grad_norm": 2.5258357989302547, "learning_rate": 4.819004030609531e-09, "loss": 0.3893, "step": 3677 }, { "epoch": 0.9808, "grad_norm": 2.291380428992264, "learning_rate": 4.687921816201868e-09, "loss": 0.3772, "step": 3678 }, { "epoch": 0.9810666666666666, "grad_norm": 2.441480828326725, "learning_rate": 4.558645386509297e-09, "loss": 0.3692, "step": 3679 }, { "epoch": 0.9813333333333333, "grad_norm": 2.7611910022386796, "learning_rate": 4.431174835085317e-09, "loss": 0.419, "step": 3680 }, { "epoch": 0.9816, "grad_norm": 2.962621664257772, "learning_rate": 4.305510254176692e-09, "loss": 0.4424, "step": 3681 }, { "epoch": 0.9818666666666667, "grad_norm": 3.1700626332121917, "learning_rate": 4.181651734722903e-09, "loss": 0.4358, "step": 3682 }, { "epoch": 0.9821333333333333, "grad_norm": 2.5054422202957287, "learning_rate": 4.059599366357525e-09, "loss": 0.3578, "step": 3683 }, { "epoch": 0.9824, "grad_norm": 2.6289468771216815, "learning_rate": 3.939353237405464e-09, "loss": 0.3655, "step": 3684 }, { "epoch": 0.9826666666666667, "grad_norm": 2.7984813175440753, "learning_rate": 3.820913434885998e-09, "loss": 0.423, "step": 3685 }, { "epoch": 0.9829333333333333, "grad_norm": 2.8166781397418763, "learning_rate": 3.7042800445100113e-09, "loss": 0.396, "step": 3686 }, { "epoch": 0.9832, "grad_norm": 2.7930127120699715, "learning_rate": 3.5894531506822094e-09, "loss": 0.4065, "step": 3687 }, { "epoch": 0.9834666666666667, "grad_norm": 2.8651533879096607, "learning_rate": 3.4764328364988997e-09, "loss": 0.4786, "step": 3688 }, { "epoch": 0.9837333333333333, "grad_norm": 2.423862047452282, "learning_rate": 3.3652191837502125e-09, "loss": 0.3729, "step": 3689 }, { "epoch": 0.984, "grad_norm": 2.7144165470673274, "learning_rate": 3.2558122729178797e-09, "loss": 0.4105, "step": 3690 }, { "epoch": 0.9842666666666666, "grad_norm": 2.553387476002619, "learning_rate": 3.1482121831763467e-09, "loss": 0.3699, "step": 3691 }, { "epoch": 0.9845333333333334, "grad_norm": 2.783322236192133, "learning_rate": 3.042418992393048e-09, "loss": 0.4121, "step": 3692 }, { "epoch": 0.9848, "grad_norm": 2.2913131295286235, "learning_rate": 2.9384327771270203e-09, "loss": 0.329, "step": 3693 }, { "epoch": 0.9850666666666666, "grad_norm": 2.531720574779831, "learning_rate": 2.8362536126305685e-09, "loss": 0.3729, "step": 3694 }, { "epoch": 0.9853333333333333, "grad_norm": 3.0309324627716476, "learning_rate": 2.7358815728473207e-09, "loss": 0.4247, "step": 3695 }, { "epoch": 0.9856, "grad_norm": 2.7215596446461436, "learning_rate": 2.637316730413897e-09, "loss": 0.3964, "step": 3696 }, { "epoch": 0.9858666666666667, "grad_norm": 2.4603487879351693, "learning_rate": 2.540559156658795e-09, "loss": 0.3697, "step": 3697 }, { "epoch": 0.9861333333333333, "grad_norm": 2.522658070927107, "learning_rate": 2.4456089216023935e-09, "loss": 0.3516, "step": 3698 }, { "epoch": 0.9864, "grad_norm": 2.724312152219829, "learning_rate": 2.3524660939577838e-09, "loss": 0.408, "step": 3699 }, { "epoch": 0.9866666666666667, "grad_norm": 2.4077052603210354, "learning_rate": 2.2611307411291028e-09, "loss": 0.3921, "step": 3700 }, { "epoch": 0.9869333333333333, "grad_norm": 2.645787745813466, "learning_rate": 2.1716029292137564e-09, "loss": 0.3978, "step": 3701 }, { "epoch": 0.9872, "grad_norm": 2.5569767815919313, "learning_rate": 2.0838827230001967e-09, "loss": 0.3966, "step": 3702 }, { "epoch": 0.9874666666666667, "grad_norm": 2.319510455577243, "learning_rate": 1.9979701859690336e-09, "loss": 0.3406, "step": 3703 }, { "epoch": 0.9877333333333334, "grad_norm": 2.4308892947726175, "learning_rate": 1.913865380292479e-09, "loss": 0.3512, "step": 3704 }, { "epoch": 0.988, "grad_norm": 2.66878621922538, "learning_rate": 1.8315683668346241e-09, "loss": 0.3971, "step": 3705 }, { "epoch": 0.9882666666666666, "grad_norm": 2.622027094678921, "learning_rate": 1.7510792051517177e-09, "loss": 0.3744, "step": 3706 }, { "epoch": 0.9885333333333334, "grad_norm": 2.887316822874402, "learning_rate": 1.6723979534916114e-09, "loss": 0.4302, "step": 3707 }, { "epoch": 0.9888, "grad_norm": 2.6022318963975852, "learning_rate": 1.595524668792925e-09, "loss": 0.426, "step": 3708 }, { "epoch": 0.9890666666666666, "grad_norm": 2.97674644178224, "learning_rate": 1.520459406687269e-09, "loss": 0.3913, "step": 3709 }, { "epoch": 0.9893333333333333, "grad_norm": 2.403698081837509, "learning_rate": 1.447202221497024e-09, "loss": 0.36, "step": 3710 }, { "epoch": 0.9896, "grad_norm": 3.097506988041782, "learning_rate": 1.3757531662361712e-09, "loss": 0.4514, "step": 3711 }, { "epoch": 0.9898666666666667, "grad_norm": 2.772634068731315, "learning_rate": 1.3061122926102954e-09, "loss": 0.43, "step": 3712 }, { "epoch": 0.9901333333333333, "grad_norm": 2.6250139618570714, "learning_rate": 1.2382796510168604e-09, "loss": 0.4079, "step": 3713 }, { "epoch": 0.9904, "grad_norm": 2.2069437690803224, "learning_rate": 1.1722552905438222e-09, "loss": 0.3105, "step": 3714 }, { "epoch": 0.9906666666666667, "grad_norm": 2.471469796315984, "learning_rate": 1.108039258971294e-09, "loss": 0.4103, "step": 3715 }, { "epoch": 0.9909333333333333, "grad_norm": 2.242845946259748, "learning_rate": 1.045631602770436e-09, "loss": 0.3419, "step": 3716 }, { "epoch": 0.9912, "grad_norm": 2.5752283930604367, "learning_rate": 9.850323671042883e-10, "loss": 0.3663, "step": 3717 }, { "epoch": 0.9914666666666667, "grad_norm": 2.879328751629154, "learning_rate": 9.262415958263827e-10, "loss": 0.3808, "step": 3718 }, { "epoch": 0.9917333333333334, "grad_norm": 2.4709086123751014, "learning_rate": 8.692593314818532e-10, "loss": 0.3473, "step": 3719 }, { "epoch": 0.992, "grad_norm": 2.6181906576491136, "learning_rate": 8.140856153071586e-10, "loss": 0.3846, "step": 3720 }, { "epoch": 0.9922666666666666, "grad_norm": 2.815158337123703, "learning_rate": 7.607204872300822e-10, "loss": 0.4461, "step": 3721 }, { "epoch": 0.9925333333333334, "grad_norm": 2.8645292882193534, "learning_rate": 7.091639858694543e-10, "loss": 0.4371, "step": 3722 }, { "epoch": 0.9928, "grad_norm": 3.163913859274481, "learning_rate": 6.594161485348749e-10, "loss": 0.3979, "step": 3723 }, { "epoch": 0.9930666666666667, "grad_norm": 3.3177698437390557, "learning_rate": 6.114770112275459e-10, "loss": 0.4634, "step": 3724 }, { "epoch": 0.9933333333333333, "grad_norm": 3.405225652635982, "learning_rate": 5.653466086399939e-10, "loss": 0.4718, "step": 3725 }, { "epoch": 0.9936, "grad_norm": 2.3778098462074073, "learning_rate": 5.210249741546825e-10, "loss": 0.3718, "step": 3726 }, { "epoch": 0.9938666666666667, "grad_norm": 2.8606206489181636, "learning_rate": 4.785121398467874e-10, "loss": 0.4315, "step": 3727 }, { "epoch": 0.9941333333333333, "grad_norm": 2.71364620412422, "learning_rate": 4.3780813648086617e-10, "loss": 0.3901, "step": 3728 }, { "epoch": 0.9944, "grad_norm": 2.6396540998433604, "learning_rate": 3.9891299351363375e-10, "loss": 0.3471, "step": 3729 }, { "epoch": 0.9946666666666667, "grad_norm": 2.685183060161541, "learning_rate": 3.618267390920194e-10, "loss": 0.4504, "step": 3730 }, { "epoch": 0.9949333333333333, "grad_norm": 2.8706060238733473, "learning_rate": 3.2654940005483193e-10, "loss": 0.4188, "step": 3731 }, { "epoch": 0.9952, "grad_norm": 3.0698366353774658, "learning_rate": 2.9308100193053966e-10, "loss": 0.4166, "step": 3732 }, { "epoch": 0.9954666666666667, "grad_norm": 2.52540524945966, "learning_rate": 2.6142156894004567e-10, "loss": 0.3848, "step": 3733 }, { "epoch": 0.9957333333333334, "grad_norm": 2.669592457394617, "learning_rate": 2.3157112399363467e-10, "loss": 0.3898, "step": 3734 }, { "epoch": 0.996, "grad_norm": 2.4893870196031846, "learning_rate": 2.0352968869374877e-10, "loss": 0.3855, "step": 3735 }, { "epoch": 0.9962666666666666, "grad_norm": 2.6186679208187877, "learning_rate": 1.7729728333276686e-10, "loss": 0.4102, "step": 3736 }, { "epoch": 0.9965333333333334, "grad_norm": 2.5829254311720704, "learning_rate": 1.528739268943924e-10, "loss": 0.4217, "step": 3737 }, { "epoch": 0.9968, "grad_norm": 2.1419484445506667, "learning_rate": 1.3025963705337596e-10, "loss": 0.3307, "step": 3738 }, { "epoch": 0.9970666666666667, "grad_norm": 2.604272826007305, "learning_rate": 1.094544301746825e-10, "loss": 0.4022, "step": 3739 }, { "epoch": 0.9973333333333333, "grad_norm": 2.6994140460947316, "learning_rate": 9.045832131460152e-11, "loss": 0.3946, "step": 3740 }, { "epoch": 0.9976, "grad_norm": 2.953457056015797, "learning_rate": 7.327132422019212e-11, "loss": 0.4486, "step": 3741 }, { "epoch": 0.9978666666666667, "grad_norm": 2.6341193451518503, "learning_rate": 5.7893451328727703e-11, "loss": 0.4342, "step": 3742 }, { "epoch": 0.9981333333333333, "grad_norm": 3.0776591562423143, "learning_rate": 4.4324713769361426e-11, "loss": 0.3895, "step": 3743 }, { "epoch": 0.9984, "grad_norm": 2.9152434126767903, "learning_rate": 3.256512136062817e-11, "loss": 0.3985, "step": 3744 }, { "epoch": 0.9986666666666667, "grad_norm": 2.5938126257158887, "learning_rate": 2.261468261349764e-11, "loss": 0.378, "step": 3745 }, { "epoch": 0.9989333333333333, "grad_norm": 2.410966789666778, "learning_rate": 1.4473404728043704e-11, "loss": 0.3465, "step": 3746 }, { "epoch": 0.9992, "grad_norm": 2.8121442079307553, "learning_rate": 8.141293596219957e-12, "loss": 0.4019, "step": 3747 }, { "epoch": 0.9994666666666666, "grad_norm": 2.811937136461409, "learning_rate": 3.61835380047193e-12, "loss": 0.3982, "step": 3748 }, { "epoch": 0.9997333333333334, "grad_norm": 2.956444785935936, "learning_rate": 9.045886137371007e-13, "loss": 0.4205, "step": 3749 }, { "epoch": 1.0, "grad_norm": 2.930016200517855, "learning_rate": 0.0, "loss": 0.4348, "step": 3750 }, { "epoch": 1.0, "step": 3750, "total_flos": 3318691213279232.0, "train_loss": 0.4443156658411026, "train_runtime": 19677.6476, "train_samples_per_second": 4.574, "train_steps_per_second": 0.191 } ], "logging_steps": 1, "max_steps": 3750, "num_input_tokens_seen": 0, "num_train_epochs": 1, "save_steps": 800, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 3318691213279232.0, "train_batch_size": 1, "trial_name": null, "trial_params": null }