{ "best_global_step": null, "best_metric": null, "best_model_checkpoint": null, "epoch": 1.2404149751917004, "eval_steps": 500, "global_step": 5500, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.0022552999548940008, "grad_norm": 3.71875, "learning_rate": 1.9970000000000004e-05, "loss": 1.2486, "step": 10 }, { "epoch": 0.0045105999097880016, "grad_norm": 2.9375, "learning_rate": 1.993666666666667e-05, "loss": 0.9533, "step": 20 }, { "epoch": 0.006765899864682003, "grad_norm": 2.71875, "learning_rate": 1.9903333333333333e-05, "loss": 0.8758, "step": 30 }, { "epoch": 0.009021199819576003, "grad_norm": 2.640625, "learning_rate": 1.987e-05, "loss": 0.8479, "step": 40 }, { "epoch": 0.011276499774470004, "grad_norm": 2.5625, "learning_rate": 1.983666666666667e-05, "loss": 0.8127, "step": 50 }, { "epoch": 0.013531799729364006, "grad_norm": 2.375, "learning_rate": 1.9803333333333334e-05, "loss": 0.812, "step": 60 }, { "epoch": 0.015787099684258007, "grad_norm": 2.421875, "learning_rate": 1.9770000000000002e-05, "loss": 0.7799, "step": 70 }, { "epoch": 0.018042399639152006, "grad_norm": 2.796875, "learning_rate": 1.9736666666666667e-05, "loss": 0.8005, "step": 80 }, { "epoch": 0.02029769959404601, "grad_norm": 2.40625, "learning_rate": 1.9703333333333335e-05, "loss": 0.7766, "step": 90 }, { "epoch": 0.02255299954894001, "grad_norm": 2.578125, "learning_rate": 1.9670000000000003e-05, "loss": 0.7611, "step": 100 }, { "epoch": 0.02480829950383401, "grad_norm": 2.375, "learning_rate": 1.9636666666666668e-05, "loss": 0.7492, "step": 110 }, { "epoch": 0.02706359945872801, "grad_norm": 2.421875, "learning_rate": 1.9603333333333333e-05, "loss": 0.7518, "step": 120 }, { "epoch": 0.02931889941362201, "grad_norm": 2.296875, "learning_rate": 1.957e-05, "loss": 0.7677, "step": 130 }, { "epoch": 0.031574199368516014, "grad_norm": 2.609375, "learning_rate": 1.953666666666667e-05, "loss": 0.7275, "step": 140 }, { "epoch": 0.03382949932341001, "grad_norm": 2.65625, "learning_rate": 1.9503333333333334e-05, "loss": 0.7348, "step": 150 }, { "epoch": 0.03608479927830401, "grad_norm": 2.421875, "learning_rate": 1.947e-05, "loss": 0.7438, "step": 160 }, { "epoch": 0.03834009923319801, "grad_norm": 2.203125, "learning_rate": 1.943666666666667e-05, "loss": 0.7227, "step": 170 }, { "epoch": 0.04059539918809202, "grad_norm": 2.453125, "learning_rate": 1.9403333333333334e-05, "loss": 0.7117, "step": 180 }, { "epoch": 0.04285069914298602, "grad_norm": 2.1875, "learning_rate": 1.9370000000000003e-05, "loss": 0.7232, "step": 190 }, { "epoch": 0.04510599909788002, "grad_norm": 2.25, "learning_rate": 1.9336666666666667e-05, "loss": 0.7289, "step": 200 }, { "epoch": 0.04736129905277402, "grad_norm": 2.265625, "learning_rate": 1.9303333333333335e-05, "loss": 0.6979, "step": 210 }, { "epoch": 0.04961659900766802, "grad_norm": 2.25, "learning_rate": 1.9270000000000004e-05, "loss": 0.6891, "step": 220 }, { "epoch": 0.05187189896256202, "grad_norm": 2.1875, "learning_rate": 1.9236666666666668e-05, "loss": 0.7168, "step": 230 }, { "epoch": 0.05412719891745602, "grad_norm": 2.578125, "learning_rate": 1.9203333333333333e-05, "loss": 0.6879, "step": 240 }, { "epoch": 0.05638249887235002, "grad_norm": 2.4375, "learning_rate": 1.917e-05, "loss": 0.6775, "step": 250 }, { "epoch": 0.05863779882724402, "grad_norm": 2.28125, "learning_rate": 1.913666666666667e-05, "loss": 0.6832, "step": 260 }, { "epoch": 0.06089309878213803, "grad_norm": 2.203125, "learning_rate": 1.9103333333333337e-05, "loss": 0.6553, "step": 270 }, { "epoch": 0.06314839873703203, "grad_norm": 2.265625, "learning_rate": 1.9070000000000002e-05, "loss": 0.6733, "step": 280 }, { "epoch": 0.06540369869192603, "grad_norm": 2.1875, "learning_rate": 1.9036666666666667e-05, "loss": 0.6811, "step": 290 }, { "epoch": 0.06765899864682003, "grad_norm": 2.40625, "learning_rate": 1.9003333333333335e-05, "loss": 0.668, "step": 300 }, { "epoch": 0.06991429860171403, "grad_norm": 2.265625, "learning_rate": 1.8970000000000003e-05, "loss": 0.6659, "step": 310 }, { "epoch": 0.07216959855660803, "grad_norm": 2.328125, "learning_rate": 1.8936666666666668e-05, "loss": 0.6776, "step": 320 }, { "epoch": 0.07442489851150202, "grad_norm": 2.5625, "learning_rate": 1.8903333333333336e-05, "loss": 0.6605, "step": 330 }, { "epoch": 0.07668019846639602, "grad_norm": 2.265625, "learning_rate": 1.887e-05, "loss": 0.6537, "step": 340 }, { "epoch": 0.07893549842129004, "grad_norm": 2.28125, "learning_rate": 1.883666666666667e-05, "loss": 0.6474, "step": 350 }, { "epoch": 0.08119079837618404, "grad_norm": 2.390625, "learning_rate": 1.8803333333333337e-05, "loss": 0.6272, "step": 360 }, { "epoch": 0.08344609833107804, "grad_norm": 2.28125, "learning_rate": 1.877e-05, "loss": 0.6406, "step": 370 }, { "epoch": 0.08570139828597204, "grad_norm": 2.296875, "learning_rate": 1.8736666666666666e-05, "loss": 0.6386, "step": 380 }, { "epoch": 0.08795669824086604, "grad_norm": 2.359375, "learning_rate": 1.8703333333333334e-05, "loss": 0.621, "step": 390 }, { "epoch": 0.09021199819576003, "grad_norm": 2.28125, "learning_rate": 1.8670000000000003e-05, "loss": 0.6657, "step": 400 }, { "epoch": 0.09246729815065403, "grad_norm": 2.953125, "learning_rate": 1.8636666666666667e-05, "loss": 0.6331, "step": 410 }, { "epoch": 0.09472259810554803, "grad_norm": 2.75, "learning_rate": 1.8603333333333335e-05, "loss": 0.6434, "step": 420 }, { "epoch": 0.09697789806044203, "grad_norm": 2.328125, "learning_rate": 1.857e-05, "loss": 0.6152, "step": 430 }, { "epoch": 0.09923319801533605, "grad_norm": 2.40625, "learning_rate": 1.8536666666666668e-05, "loss": 0.6462, "step": 440 }, { "epoch": 0.10148849797023005, "grad_norm": 2.8125, "learning_rate": 1.8503333333333336e-05, "loss": 0.5954, "step": 450 }, { "epoch": 0.10374379792512405, "grad_norm": 2.140625, "learning_rate": 1.847e-05, "loss": 0.6304, "step": 460 }, { "epoch": 0.10599909788001805, "grad_norm": 2.359375, "learning_rate": 1.8436666666666666e-05, "loss": 0.6318, "step": 470 }, { "epoch": 0.10825439783491204, "grad_norm": 2.375, "learning_rate": 1.8403333333333334e-05, "loss": 0.626, "step": 480 }, { "epoch": 0.11050969778980604, "grad_norm": 2.53125, "learning_rate": 1.8370000000000002e-05, "loss": 0.6112, "step": 490 }, { "epoch": 0.11276499774470004, "grad_norm": 2.359375, "learning_rate": 1.8336666666666667e-05, "loss": 0.6057, "step": 500 }, { "epoch": 0.11502029769959404, "grad_norm": 2.59375, "learning_rate": 1.8303333333333335e-05, "loss": 0.5819, "step": 510 }, { "epoch": 0.11727559765448804, "grad_norm": 2.65625, "learning_rate": 1.827e-05, "loss": 0.6126, "step": 520 }, { "epoch": 0.11953089760938204, "grad_norm": 2.34375, "learning_rate": 1.8236666666666668e-05, "loss": 0.6287, "step": 530 }, { "epoch": 0.12178619756427606, "grad_norm": 2.4375, "learning_rate": 1.8203333333333336e-05, "loss": 0.586, "step": 540 }, { "epoch": 0.12404149751917005, "grad_norm": 2.28125, "learning_rate": 1.817e-05, "loss": 0.6016, "step": 550 }, { "epoch": 0.12629679747406405, "grad_norm": 2.421875, "learning_rate": 1.813666666666667e-05, "loss": 0.582, "step": 560 }, { "epoch": 0.12855209742895804, "grad_norm": 2.375, "learning_rate": 1.8103333333333333e-05, "loss": 0.5885, "step": 570 }, { "epoch": 0.13080739738385205, "grad_norm": 2.515625, "learning_rate": 1.807e-05, "loss": 0.584, "step": 580 }, { "epoch": 0.13306269733874607, "grad_norm": 2.484375, "learning_rate": 1.803666666666667e-05, "loss": 0.5487, "step": 590 }, { "epoch": 0.13531799729364005, "grad_norm": 2.5, "learning_rate": 1.8003333333333334e-05, "loss": 0.5923, "step": 600 }, { "epoch": 0.13757329724853407, "grad_norm": 2.375, "learning_rate": 1.7970000000000002e-05, "loss": 0.5666, "step": 610 }, { "epoch": 0.13982859720342805, "grad_norm": 3.09375, "learning_rate": 1.793666666666667e-05, "loss": 0.5466, "step": 620 }, { "epoch": 0.14208389715832206, "grad_norm": 2.5, "learning_rate": 1.7903333333333335e-05, "loss": 0.5908, "step": 630 }, { "epoch": 0.14433919711321605, "grad_norm": 2.515625, "learning_rate": 1.787e-05, "loss": 0.5542, "step": 640 }, { "epoch": 0.14659449706811006, "grad_norm": 2.515625, "learning_rate": 1.7836666666666668e-05, "loss": 0.5659, "step": 650 }, { "epoch": 0.14884979702300405, "grad_norm": 2.578125, "learning_rate": 1.7803333333333336e-05, "loss": 0.5361, "step": 660 }, { "epoch": 0.15110509697789806, "grad_norm": 2.4375, "learning_rate": 1.777e-05, "loss": 0.555, "step": 670 }, { "epoch": 0.15336039693279205, "grad_norm": 2.609375, "learning_rate": 1.773666666666667e-05, "loss": 0.5435, "step": 680 }, { "epoch": 0.15561569688768606, "grad_norm": 2.46875, "learning_rate": 1.7703333333333334e-05, "loss": 0.5713, "step": 690 }, { "epoch": 0.15787099684258007, "grad_norm": 2.40625, "learning_rate": 1.7670000000000002e-05, "loss": 0.559, "step": 700 }, { "epoch": 0.16012629679747406, "grad_norm": 2.421875, "learning_rate": 1.763666666666667e-05, "loss": 0.5696, "step": 710 }, { "epoch": 0.16238159675236807, "grad_norm": 2.640625, "learning_rate": 1.7603333333333335e-05, "loss": 0.5345, "step": 720 }, { "epoch": 0.16463689670726206, "grad_norm": 2.4375, "learning_rate": 1.757e-05, "loss": 0.5774, "step": 730 }, { "epoch": 0.16689219666215607, "grad_norm": 2.375, "learning_rate": 1.7536666666666668e-05, "loss": 0.5448, "step": 740 }, { "epoch": 0.16914749661705006, "grad_norm": 2.515625, "learning_rate": 1.7503333333333336e-05, "loss": 0.5436, "step": 750 }, { "epoch": 0.17140279657194407, "grad_norm": 2.34375, "learning_rate": 1.7470000000000004e-05, "loss": 0.5383, "step": 760 }, { "epoch": 0.17365809652683806, "grad_norm": 2.375, "learning_rate": 1.743666666666667e-05, "loss": 0.5385, "step": 770 }, { "epoch": 0.17591339648173207, "grad_norm": 2.734375, "learning_rate": 1.7403333333333333e-05, "loss": 0.5367, "step": 780 }, { "epoch": 0.17816869643662608, "grad_norm": 2.46875, "learning_rate": 1.737e-05, "loss": 0.5622, "step": 790 }, { "epoch": 0.18042399639152007, "grad_norm": 2.59375, "learning_rate": 1.733666666666667e-05, "loss": 0.5064, "step": 800 }, { "epoch": 0.18267929634641408, "grad_norm": 2.4375, "learning_rate": 1.7303333333333334e-05, "loss": 0.528, "step": 810 }, { "epoch": 0.18493459630130807, "grad_norm": 2.53125, "learning_rate": 1.7270000000000002e-05, "loss": 0.5117, "step": 820 }, { "epoch": 0.18718989625620208, "grad_norm": 2.625, "learning_rate": 1.7236666666666667e-05, "loss": 0.5477, "step": 830 }, { "epoch": 0.18944519621109607, "grad_norm": 2.421875, "learning_rate": 1.7203333333333335e-05, "loss": 0.5131, "step": 840 }, { "epoch": 0.19170049616599008, "grad_norm": 2.96875, "learning_rate": 1.7170000000000003e-05, "loss": 0.4921, "step": 850 }, { "epoch": 0.19395579612088407, "grad_norm": 2.5625, "learning_rate": 1.7136666666666668e-05, "loss": 0.4937, "step": 860 }, { "epoch": 0.19621109607577808, "grad_norm": 2.53125, "learning_rate": 1.7103333333333333e-05, "loss": 0.508, "step": 870 }, { "epoch": 0.1984663960306721, "grad_norm": 2.625, "learning_rate": 1.707e-05, "loss": 0.5266, "step": 880 }, { "epoch": 0.20072169598556608, "grad_norm": 2.96875, "learning_rate": 1.703666666666667e-05, "loss": 0.5097, "step": 890 }, { "epoch": 0.2029769959404601, "grad_norm": 2.390625, "learning_rate": 1.7003333333333334e-05, "loss": 0.4993, "step": 900 }, { "epoch": 0.20523229589535408, "grad_norm": 2.65625, "learning_rate": 1.6970000000000002e-05, "loss": 0.482, "step": 910 }, { "epoch": 0.2074875958502481, "grad_norm": 2.796875, "learning_rate": 1.6936666666666667e-05, "loss": 0.496, "step": 920 }, { "epoch": 0.20974289580514208, "grad_norm": 2.734375, "learning_rate": 1.6903333333333335e-05, "loss": 0.4805, "step": 930 }, { "epoch": 0.2119981957600361, "grad_norm": 2.609375, "learning_rate": 1.6870000000000003e-05, "loss": 0.5179, "step": 940 }, { "epoch": 0.21425349571493008, "grad_norm": 2.5, "learning_rate": 1.6836666666666668e-05, "loss": 0.4581, "step": 950 }, { "epoch": 0.2165087956698241, "grad_norm": 2.671875, "learning_rate": 1.6803333333333332e-05, "loss": 0.4656, "step": 960 }, { "epoch": 0.21876409562471807, "grad_norm": 2.640625, "learning_rate": 1.677e-05, "loss": 0.4973, "step": 970 }, { "epoch": 0.2210193955796121, "grad_norm": 2.609375, "learning_rate": 1.673666666666667e-05, "loss": 0.4915, "step": 980 }, { "epoch": 0.2232746955345061, "grad_norm": 2.546875, "learning_rate": 1.6703333333333333e-05, "loss": 0.4807, "step": 990 }, { "epoch": 0.2255299954894001, "grad_norm": 2.484375, "learning_rate": 1.667e-05, "loss": 0.5139, "step": 1000 }, { "epoch": 0.2277852954442941, "grad_norm": 2.703125, "learning_rate": 1.6636666666666666e-05, "loss": 0.4795, "step": 1010 }, { "epoch": 0.23004059539918809, "grad_norm": 2.640625, "learning_rate": 1.6603333333333334e-05, "loss": 0.4759, "step": 1020 }, { "epoch": 0.2322958953540821, "grad_norm": 2.8125, "learning_rate": 1.6570000000000002e-05, "loss": 0.4646, "step": 1030 }, { "epoch": 0.23455119530897608, "grad_norm": 2.75, "learning_rate": 1.6536666666666667e-05, "loss": 0.4653, "step": 1040 }, { "epoch": 0.2368064952638701, "grad_norm": 2.640625, "learning_rate": 1.6503333333333335e-05, "loss": 0.4609, "step": 1050 }, { "epoch": 0.23906179521876408, "grad_norm": 2.6875, "learning_rate": 1.647e-05, "loss": 0.4676, "step": 1060 }, { "epoch": 0.2413170951736581, "grad_norm": 2.78125, "learning_rate": 1.6436666666666668e-05, "loss": 0.4495, "step": 1070 }, { "epoch": 0.2435723951285521, "grad_norm": 2.6875, "learning_rate": 1.6403333333333336e-05, "loss": 0.4443, "step": 1080 }, { "epoch": 0.2458276950834461, "grad_norm": 2.59375, "learning_rate": 1.637e-05, "loss": 0.4341, "step": 1090 }, { "epoch": 0.2480829950383401, "grad_norm": 2.84375, "learning_rate": 1.633666666666667e-05, "loss": 0.4294, "step": 1100 }, { "epoch": 0.2503382949932341, "grad_norm": 2.625, "learning_rate": 1.6303333333333337e-05, "loss": 0.439, "step": 1110 }, { "epoch": 0.2525935949481281, "grad_norm": 3.046875, "learning_rate": 1.6270000000000002e-05, "loss": 0.443, "step": 1120 }, { "epoch": 0.2548488949030221, "grad_norm": 2.65625, "learning_rate": 1.6236666666666667e-05, "loss": 0.4389, "step": 1130 }, { "epoch": 0.2571041948579161, "grad_norm": 2.859375, "learning_rate": 1.6203333333333335e-05, "loss": 0.46, "step": 1140 }, { "epoch": 0.2593594948128101, "grad_norm": 2.78125, "learning_rate": 1.6170000000000003e-05, "loss": 0.4469, "step": 1150 }, { "epoch": 0.2616147947677041, "grad_norm": 2.671875, "learning_rate": 1.6136666666666667e-05, "loss": 0.4485, "step": 1160 }, { "epoch": 0.2638700947225981, "grad_norm": 3.046875, "learning_rate": 1.6103333333333336e-05, "loss": 0.4414, "step": 1170 }, { "epoch": 0.26612539467749213, "grad_norm": 2.84375, "learning_rate": 1.607e-05, "loss": 0.4126, "step": 1180 }, { "epoch": 0.2683806946323861, "grad_norm": 3.078125, "learning_rate": 1.603666666666667e-05, "loss": 0.433, "step": 1190 }, { "epoch": 0.2706359945872801, "grad_norm": 2.859375, "learning_rate": 1.6003333333333337e-05, "loss": 0.4404, "step": 1200 }, { "epoch": 0.2728912945421741, "grad_norm": 2.921875, "learning_rate": 1.597e-05, "loss": 0.4279, "step": 1210 }, { "epoch": 0.27514659449706813, "grad_norm": 2.9375, "learning_rate": 1.5936666666666666e-05, "loss": 0.4333, "step": 1220 }, { "epoch": 0.2774018944519621, "grad_norm": 2.828125, "learning_rate": 1.5903333333333334e-05, "loss": 0.435, "step": 1230 }, { "epoch": 0.2796571944068561, "grad_norm": 2.9375, "learning_rate": 1.5870000000000002e-05, "loss": 0.4123, "step": 1240 }, { "epoch": 0.2819124943617501, "grad_norm": 3.03125, "learning_rate": 1.5836666666666667e-05, "loss": 0.4065, "step": 1250 }, { "epoch": 0.28416779431664413, "grad_norm": 3.21875, "learning_rate": 1.5803333333333335e-05, "loss": 0.4287, "step": 1260 }, { "epoch": 0.2864230942715381, "grad_norm": 2.96875, "learning_rate": 1.577e-05, "loss": 0.4649, "step": 1270 }, { "epoch": 0.2886783942264321, "grad_norm": 3.046875, "learning_rate": 1.5736666666666668e-05, "loss": 0.4076, "step": 1280 }, { "epoch": 0.29093369418132614, "grad_norm": 3.125, "learning_rate": 1.5703333333333336e-05, "loss": 0.421, "step": 1290 }, { "epoch": 0.2931889941362201, "grad_norm": 3.5625, "learning_rate": 1.567e-05, "loss": 0.3982, "step": 1300 }, { "epoch": 0.2954442940911141, "grad_norm": 2.828125, "learning_rate": 1.563666666666667e-05, "loss": 0.4121, "step": 1310 }, { "epoch": 0.2976995940460081, "grad_norm": 3.0, "learning_rate": 1.5603333333333334e-05, "loss": 0.4032, "step": 1320 }, { "epoch": 0.29995489400090214, "grad_norm": 2.890625, "learning_rate": 1.5570000000000002e-05, "loss": 0.423, "step": 1330 }, { "epoch": 0.3022101939557961, "grad_norm": 2.875, "learning_rate": 1.553666666666667e-05, "loss": 0.4193, "step": 1340 }, { "epoch": 0.3044654939106901, "grad_norm": 3.09375, "learning_rate": 1.5503333333333335e-05, "loss": 0.3834, "step": 1350 }, { "epoch": 0.3067207938655841, "grad_norm": 3.46875, "learning_rate": 1.547e-05, "loss": 0.4204, "step": 1360 }, { "epoch": 0.30897609382047814, "grad_norm": 2.65625, "learning_rate": 1.5436666666666667e-05, "loss": 0.4036, "step": 1370 }, { "epoch": 0.3112313937753721, "grad_norm": 2.8125, "learning_rate": 1.5403333333333335e-05, "loss": 0.3845, "step": 1380 }, { "epoch": 0.3134866937302661, "grad_norm": 3.234375, "learning_rate": 1.537e-05, "loss": 0.3615, "step": 1390 }, { "epoch": 0.31574199368516015, "grad_norm": 2.6875, "learning_rate": 1.533666666666667e-05, "loss": 0.3754, "step": 1400 }, { "epoch": 0.31799729364005414, "grad_norm": 3.15625, "learning_rate": 1.5303333333333333e-05, "loss": 0.3984, "step": 1410 }, { "epoch": 0.3202525935949481, "grad_norm": 3.515625, "learning_rate": 1.527e-05, "loss": 0.4009, "step": 1420 }, { "epoch": 0.3225078935498421, "grad_norm": 3.171875, "learning_rate": 1.523666666666667e-05, "loss": 0.3939, "step": 1430 }, { "epoch": 0.32476319350473615, "grad_norm": 3.34375, "learning_rate": 1.5203333333333334e-05, "loss": 0.3621, "step": 1440 }, { "epoch": 0.32701849345963013, "grad_norm": 3.71875, "learning_rate": 1.517e-05, "loss": 0.3901, "step": 1450 }, { "epoch": 0.3292737934145241, "grad_norm": 3.015625, "learning_rate": 1.5136666666666669e-05, "loss": 0.3602, "step": 1460 }, { "epoch": 0.33152909336941816, "grad_norm": 2.75, "learning_rate": 1.5103333333333335e-05, "loss": 0.3793, "step": 1470 }, { "epoch": 0.33378439332431215, "grad_norm": 3.140625, "learning_rate": 1.507e-05, "loss": 0.3698, "step": 1480 }, { "epoch": 0.33603969327920613, "grad_norm": 3.03125, "learning_rate": 1.5036666666666668e-05, "loss": 0.3785, "step": 1490 }, { "epoch": 0.3382949932341001, "grad_norm": 3.265625, "learning_rate": 1.5003333333333334e-05, "loss": 0.378, "step": 1500 }, { "epoch": 0.34055029318899416, "grad_norm": 3.515625, "learning_rate": 1.4970000000000002e-05, "loss": 0.3588, "step": 1510 }, { "epoch": 0.34280559314388814, "grad_norm": 3.125, "learning_rate": 1.4936666666666669e-05, "loss": 0.3602, "step": 1520 }, { "epoch": 0.34506089309878213, "grad_norm": 3.40625, "learning_rate": 1.4903333333333334e-05, "loss": 0.3342, "step": 1530 }, { "epoch": 0.3473161930536761, "grad_norm": 3.203125, "learning_rate": 1.4870000000000002e-05, "loss": 0.3603, "step": 1540 }, { "epoch": 0.34957149300857016, "grad_norm": 3.078125, "learning_rate": 1.4836666666666668e-05, "loss": 0.3346, "step": 1550 }, { "epoch": 0.35182679296346414, "grad_norm": 2.9375, "learning_rate": 1.4803333333333334e-05, "loss": 0.3419, "step": 1560 }, { "epoch": 0.3540820929183581, "grad_norm": 3.28125, "learning_rate": 1.4770000000000003e-05, "loss": 0.3459, "step": 1570 }, { "epoch": 0.35633739287325217, "grad_norm": 2.890625, "learning_rate": 1.4736666666666667e-05, "loss": 0.3671, "step": 1580 }, { "epoch": 0.35859269282814615, "grad_norm": 3.328125, "learning_rate": 1.4703333333333334e-05, "loss": 0.3479, "step": 1590 }, { "epoch": 0.36084799278304014, "grad_norm": 3.125, "learning_rate": 1.4670000000000002e-05, "loss": 0.3564, "step": 1600 }, { "epoch": 0.3631032927379341, "grad_norm": 3.171875, "learning_rate": 1.4636666666666668e-05, "loss": 0.3432, "step": 1610 }, { "epoch": 0.36535859269282817, "grad_norm": 3.15625, "learning_rate": 1.4603333333333333e-05, "loss": 0.3485, "step": 1620 }, { "epoch": 0.36761389264772215, "grad_norm": 3.265625, "learning_rate": 1.4570000000000001e-05, "loss": 0.3608, "step": 1630 }, { "epoch": 0.36986919260261614, "grad_norm": 3.0625, "learning_rate": 1.4536666666666668e-05, "loss": 0.3593, "step": 1640 }, { "epoch": 0.3721244925575101, "grad_norm": 3.0, "learning_rate": 1.4503333333333334e-05, "loss": 0.3225, "step": 1650 }, { "epoch": 0.37437979251240416, "grad_norm": 3.078125, "learning_rate": 1.4470000000000002e-05, "loss": 0.3608, "step": 1660 }, { "epoch": 0.37663509246729815, "grad_norm": 3.046875, "learning_rate": 1.4436666666666668e-05, "loss": 0.3625, "step": 1670 }, { "epoch": 0.37889039242219213, "grad_norm": 3.25, "learning_rate": 1.4403333333333333e-05, "loss": 0.342, "step": 1680 }, { "epoch": 0.3811456923770862, "grad_norm": 3.453125, "learning_rate": 1.4370000000000001e-05, "loss": 0.3633, "step": 1690 }, { "epoch": 0.38340099233198016, "grad_norm": 3.21875, "learning_rate": 1.4336666666666668e-05, "loss": 0.3485, "step": 1700 }, { "epoch": 0.38565629228687415, "grad_norm": 4.0, "learning_rate": 1.4303333333333334e-05, "loss": 0.3415, "step": 1710 }, { "epoch": 0.38791159224176813, "grad_norm": 3.609375, "learning_rate": 1.4270000000000002e-05, "loss": 0.3303, "step": 1720 }, { "epoch": 0.3901668921966622, "grad_norm": 3.71875, "learning_rate": 1.4236666666666667e-05, "loss": 0.3049, "step": 1730 }, { "epoch": 0.39242219215155616, "grad_norm": 2.828125, "learning_rate": 1.4203333333333333e-05, "loss": 0.3412, "step": 1740 }, { "epoch": 0.39467749210645015, "grad_norm": 3.125, "learning_rate": 1.4170000000000002e-05, "loss": 0.3199, "step": 1750 }, { "epoch": 0.3969327920613442, "grad_norm": 4.5, "learning_rate": 1.4136666666666668e-05, "loss": 0.3247, "step": 1760 }, { "epoch": 0.39918809201623817, "grad_norm": 3.671875, "learning_rate": 1.4103333333333336e-05, "loss": 0.3338, "step": 1770 }, { "epoch": 0.40144339197113216, "grad_norm": 3.234375, "learning_rate": 1.407e-05, "loss": 0.3122, "step": 1780 }, { "epoch": 0.40369869192602614, "grad_norm": 3.71875, "learning_rate": 1.4036666666666667e-05, "loss": 0.3121, "step": 1790 }, { "epoch": 0.4059539918809202, "grad_norm": 3.03125, "learning_rate": 1.4003333333333335e-05, "loss": 0.3229, "step": 1800 }, { "epoch": 0.40820929183581417, "grad_norm": 3.390625, "learning_rate": 1.3970000000000002e-05, "loss": 0.2885, "step": 1810 }, { "epoch": 0.41046459179070816, "grad_norm": 3.125, "learning_rate": 1.3936666666666666e-05, "loss": 0.2934, "step": 1820 }, { "epoch": 0.41271989174560214, "grad_norm": 3.234375, "learning_rate": 1.3903333333333335e-05, "loss": 0.2783, "step": 1830 }, { "epoch": 0.4149751917004962, "grad_norm": 3.921875, "learning_rate": 1.3870000000000001e-05, "loss": 0.3128, "step": 1840 }, { "epoch": 0.41723049165539017, "grad_norm": 3.078125, "learning_rate": 1.3836666666666667e-05, "loss": 0.3074, "step": 1850 }, { "epoch": 0.41948579161028415, "grad_norm": 3.40625, "learning_rate": 1.3803333333333336e-05, "loss": 0.2985, "step": 1860 }, { "epoch": 0.4217410915651782, "grad_norm": 3.40625, "learning_rate": 1.377e-05, "loss": 0.2824, "step": 1870 }, { "epoch": 0.4239963915200722, "grad_norm": 3.453125, "learning_rate": 1.3736666666666667e-05, "loss": 0.2961, "step": 1880 }, { "epoch": 0.42625169147496617, "grad_norm": 3.5, "learning_rate": 1.3703333333333335e-05, "loss": 0.2968, "step": 1890 }, { "epoch": 0.42850699142986015, "grad_norm": 4.09375, "learning_rate": 1.3670000000000001e-05, "loss": 0.3198, "step": 1900 }, { "epoch": 0.4307622913847542, "grad_norm": 3.296875, "learning_rate": 1.3636666666666668e-05, "loss": 0.2763, "step": 1910 }, { "epoch": 0.4330175913396482, "grad_norm": 3.40625, "learning_rate": 1.3603333333333336e-05, "loss": 0.2945, "step": 1920 }, { "epoch": 0.43527289129454216, "grad_norm": 3.140625, "learning_rate": 1.357e-05, "loss": 0.3013, "step": 1930 }, { "epoch": 0.43752819124943615, "grad_norm": 3.453125, "learning_rate": 1.3536666666666667e-05, "loss": 0.2897, "step": 1940 }, { "epoch": 0.4397834912043302, "grad_norm": 3.203125, "learning_rate": 1.3503333333333335e-05, "loss": 0.2591, "step": 1950 }, { "epoch": 0.4420387911592242, "grad_norm": 3.15625, "learning_rate": 1.3470000000000001e-05, "loss": 0.3079, "step": 1960 }, { "epoch": 0.44429409111411816, "grad_norm": 3.65625, "learning_rate": 1.3436666666666666e-05, "loss": 0.2955, "step": 1970 }, { "epoch": 0.4465493910690122, "grad_norm": 3.1875, "learning_rate": 1.3403333333333334e-05, "loss": 0.2737, "step": 1980 }, { "epoch": 0.4488046910239062, "grad_norm": 3.546875, "learning_rate": 1.337e-05, "loss": 0.2929, "step": 1990 }, { "epoch": 0.4510599909788002, "grad_norm": 2.828125, "learning_rate": 1.3336666666666667e-05, "loss": 0.2924, "step": 2000 }, { "epoch": 0.45331529093369416, "grad_norm": 4.3125, "learning_rate": 1.3303333333333335e-05, "loss": 0.2744, "step": 2010 }, { "epoch": 0.4555705908885882, "grad_norm": 3.15625, "learning_rate": 1.327e-05, "loss": 0.275, "step": 2020 }, { "epoch": 0.4578258908434822, "grad_norm": 3.578125, "learning_rate": 1.3236666666666668e-05, "loss": 0.2695, "step": 2030 }, { "epoch": 0.46008119079837617, "grad_norm": 3.421875, "learning_rate": 1.3203333333333335e-05, "loss": 0.2761, "step": 2040 }, { "epoch": 0.46233649075327016, "grad_norm": 3.375, "learning_rate": 1.3170000000000001e-05, "loss": 0.2953, "step": 2050 }, { "epoch": 0.4645917907081642, "grad_norm": 3.8125, "learning_rate": 1.3136666666666669e-05, "loss": 0.2901, "step": 2060 }, { "epoch": 0.4668470906630582, "grad_norm": 3.359375, "learning_rate": 1.3103333333333334e-05, "loss": 0.2906, "step": 2070 }, { "epoch": 0.46910239061795217, "grad_norm": 3.546875, "learning_rate": 1.307e-05, "loss": 0.2747, "step": 2080 }, { "epoch": 0.4713576905728462, "grad_norm": 3.59375, "learning_rate": 1.3036666666666668e-05, "loss": 0.2728, "step": 2090 }, { "epoch": 0.4736129905277402, "grad_norm": 3.0, "learning_rate": 1.3003333333333335e-05, "loss": 0.2464, "step": 2100 }, { "epoch": 0.4758682904826342, "grad_norm": 4.15625, "learning_rate": 1.2970000000000001e-05, "loss": 0.2853, "step": 2110 }, { "epoch": 0.47812359043752817, "grad_norm": 3.078125, "learning_rate": 1.293666666666667e-05, "loss": 0.2751, "step": 2120 }, { "epoch": 0.4803788903924222, "grad_norm": 3.109375, "learning_rate": 1.2903333333333334e-05, "loss": 0.2579, "step": 2130 }, { "epoch": 0.4826341903473162, "grad_norm": 3.109375, "learning_rate": 1.287e-05, "loss": 0.2758, "step": 2140 }, { "epoch": 0.4848894903022102, "grad_norm": 4.5, "learning_rate": 1.2836666666666669e-05, "loss": 0.2691, "step": 2150 }, { "epoch": 0.4871447902571042, "grad_norm": 3.90625, "learning_rate": 1.2803333333333335e-05, "loss": 0.2439, "step": 2160 }, { "epoch": 0.4894000902119982, "grad_norm": 3.59375, "learning_rate": 1.277e-05, "loss": 0.2501, "step": 2170 }, { "epoch": 0.4916553901668922, "grad_norm": 2.953125, "learning_rate": 1.2736666666666668e-05, "loss": 0.2561, "step": 2180 }, { "epoch": 0.4939106901217862, "grad_norm": 3.296875, "learning_rate": 1.2703333333333334e-05, "loss": 0.2318, "step": 2190 }, { "epoch": 0.4961659900766802, "grad_norm": 3.328125, "learning_rate": 1.267e-05, "loss": 0.2397, "step": 2200 }, { "epoch": 0.4984212900315742, "grad_norm": 3.6875, "learning_rate": 1.2636666666666669e-05, "loss": 0.2504, "step": 2210 }, { "epoch": 0.5006765899864682, "grad_norm": 3.6875, "learning_rate": 1.2603333333333334e-05, "loss": 0.257, "step": 2220 }, { "epoch": 0.5029318899413622, "grad_norm": 3.34375, "learning_rate": 1.257e-05, "loss": 0.2578, "step": 2230 }, { "epoch": 0.5051871898962562, "grad_norm": 3.578125, "learning_rate": 1.2536666666666668e-05, "loss": 0.2626, "step": 2240 }, { "epoch": 0.5074424898511503, "grad_norm": 3.609375, "learning_rate": 1.2503333333333334e-05, "loss": 0.2523, "step": 2250 }, { "epoch": 0.5096977898060442, "grad_norm": 3.28125, "learning_rate": 1.2470000000000003e-05, "loss": 0.2452, "step": 2260 }, { "epoch": 0.5119530897609382, "grad_norm": 5.125, "learning_rate": 1.2436666666666667e-05, "loss": 0.2278, "step": 2270 }, { "epoch": 0.5142083897158322, "grad_norm": 3.46875, "learning_rate": 1.2403333333333334e-05, "loss": 0.235, "step": 2280 }, { "epoch": 0.5164636896707262, "grad_norm": 3.78125, "learning_rate": 1.2370000000000002e-05, "loss": 0.2427, "step": 2290 }, { "epoch": 0.5187189896256202, "grad_norm": 3.328125, "learning_rate": 1.2336666666666668e-05, "loss": 0.2522, "step": 2300 }, { "epoch": 0.5209742895805142, "grad_norm": 3.296875, "learning_rate": 1.2303333333333333e-05, "loss": 0.2325, "step": 2310 }, { "epoch": 0.5232295895354082, "grad_norm": 3.21875, "learning_rate": 1.2270000000000001e-05, "loss": 0.2595, "step": 2320 }, { "epoch": 0.5254848894903023, "grad_norm": 3.3125, "learning_rate": 1.2236666666666668e-05, "loss": 0.2683, "step": 2330 }, { "epoch": 0.5277401894451962, "grad_norm": 3.515625, "learning_rate": 1.2203333333333334e-05, "loss": 0.2327, "step": 2340 }, { "epoch": 0.5299954894000902, "grad_norm": 3.359375, "learning_rate": 1.2170000000000002e-05, "loss": 0.2305, "step": 2350 }, { "epoch": 0.5322507893549843, "grad_norm": 4.03125, "learning_rate": 1.2136666666666668e-05, "loss": 0.24, "step": 2360 }, { "epoch": 0.5345060893098782, "grad_norm": 3.171875, "learning_rate": 1.2103333333333333e-05, "loss": 0.2226, "step": 2370 }, { "epoch": 0.5367613892647722, "grad_norm": 3.046875, "learning_rate": 1.2070000000000001e-05, "loss": 0.2288, "step": 2380 }, { "epoch": 0.5390166892196662, "grad_norm": 3.46875, "learning_rate": 1.2036666666666668e-05, "loss": 0.2564, "step": 2390 }, { "epoch": 0.5412719891745602, "grad_norm": 3.703125, "learning_rate": 1.2003333333333334e-05, "loss": 0.2115, "step": 2400 }, { "epoch": 0.5435272891294542, "grad_norm": 3.46875, "learning_rate": 1.1970000000000002e-05, "loss": 0.2255, "step": 2410 }, { "epoch": 0.5457825890843482, "grad_norm": 3.765625, "learning_rate": 1.1936666666666667e-05, "loss": 0.2214, "step": 2420 }, { "epoch": 0.5480378890392422, "grad_norm": 3.9375, "learning_rate": 1.1903333333333333e-05, "loss": 0.2212, "step": 2430 }, { "epoch": 0.5502931889941363, "grad_norm": 3.796875, "learning_rate": 1.1870000000000002e-05, "loss": 0.2266, "step": 2440 }, { "epoch": 0.5525484889490302, "grad_norm": 3.203125, "learning_rate": 1.1836666666666668e-05, "loss": 0.2291, "step": 2450 }, { "epoch": 0.5548037889039242, "grad_norm": 4.6875, "learning_rate": 1.1803333333333333e-05, "loss": 0.212, "step": 2460 }, { "epoch": 0.5570590888588183, "grad_norm": 2.953125, "learning_rate": 1.177e-05, "loss": 0.2133, "step": 2470 }, { "epoch": 0.5593143888137122, "grad_norm": 4.1875, "learning_rate": 1.1736666666666667e-05, "loss": 0.2606, "step": 2480 }, { "epoch": 0.5615696887686062, "grad_norm": 3.53125, "learning_rate": 1.1703333333333334e-05, "loss": 0.2446, "step": 2490 }, { "epoch": 0.5638249887235002, "grad_norm": 3.546875, "learning_rate": 1.1670000000000002e-05, "loss": 0.2264, "step": 2500 }, { "epoch": 0.5660802886783942, "grad_norm": 3.921875, "learning_rate": 1.1636666666666666e-05, "loss": 0.2218, "step": 2510 }, { "epoch": 0.5683355886332883, "grad_norm": 3.015625, "learning_rate": 1.1603333333333335e-05, "loss": 0.196, "step": 2520 }, { "epoch": 0.5705908885881822, "grad_norm": 3.59375, "learning_rate": 1.1570000000000001e-05, "loss": 0.2327, "step": 2530 }, { "epoch": 0.5728461885430762, "grad_norm": 3.125, "learning_rate": 1.1536666666666667e-05, "loss": 0.2224, "step": 2540 }, { "epoch": 0.5751014884979703, "grad_norm": 3.765625, "learning_rate": 1.1503333333333336e-05, "loss": 0.2198, "step": 2550 }, { "epoch": 0.5773567884528642, "grad_norm": 3.28125, "learning_rate": 1.147e-05, "loss": 0.2146, "step": 2560 }, { "epoch": 0.5796120884077582, "grad_norm": 4.0625, "learning_rate": 1.1436666666666667e-05, "loss": 0.2217, "step": 2570 }, { "epoch": 0.5818673883626523, "grad_norm": 3.515625, "learning_rate": 1.1403333333333335e-05, "loss": 0.2039, "step": 2580 }, { "epoch": 0.5841226883175462, "grad_norm": 3.484375, "learning_rate": 1.1370000000000001e-05, "loss": 0.218, "step": 2590 }, { "epoch": 0.5863779882724403, "grad_norm": 3.921875, "learning_rate": 1.1336666666666668e-05, "loss": 0.2031, "step": 2600 }, { "epoch": 0.5886332882273342, "grad_norm": 3.796875, "learning_rate": 1.1303333333333336e-05, "loss": 0.1942, "step": 2610 }, { "epoch": 0.5908885881822282, "grad_norm": 4.03125, "learning_rate": 1.127e-05, "loss": 0.203, "step": 2620 }, { "epoch": 0.5931438881371223, "grad_norm": 3.25, "learning_rate": 1.1236666666666667e-05, "loss": 0.2204, "step": 2630 }, { "epoch": 0.5953991880920162, "grad_norm": 3.53125, "learning_rate": 1.1203333333333335e-05, "loss": 0.2046, "step": 2640 }, { "epoch": 0.5976544880469102, "grad_norm": 4.0, "learning_rate": 1.1170000000000001e-05, "loss": 0.2083, "step": 2650 }, { "epoch": 0.5999097880018043, "grad_norm": 4.15625, "learning_rate": 1.1136666666666666e-05, "loss": 0.2206, "step": 2660 }, { "epoch": 0.6021650879566982, "grad_norm": 4.0625, "learning_rate": 1.1103333333333334e-05, "loss": 0.2108, "step": 2670 }, { "epoch": 0.6044203879115922, "grad_norm": 3.90625, "learning_rate": 1.107e-05, "loss": 0.1931, "step": 2680 }, { "epoch": 0.6066756878664863, "grad_norm": 4.8125, "learning_rate": 1.1036666666666667e-05, "loss": 0.1909, "step": 2690 }, { "epoch": 0.6089309878213802, "grad_norm": 3.328125, "learning_rate": 1.1003333333333335e-05, "loss": 0.1994, "step": 2700 }, { "epoch": 0.6111862877762743, "grad_norm": 3.0625, "learning_rate": 1.097e-05, "loss": 0.1967, "step": 2710 }, { "epoch": 0.6134415877311682, "grad_norm": 3.546875, "learning_rate": 1.0936666666666666e-05, "loss": 0.2082, "step": 2720 }, { "epoch": 0.6156968876860622, "grad_norm": 3.03125, "learning_rate": 1.0903333333333335e-05, "loss": 0.2245, "step": 2730 }, { "epoch": 0.6179521876409563, "grad_norm": 3.25, "learning_rate": 1.0870000000000001e-05, "loss": 0.1893, "step": 2740 }, { "epoch": 0.6202074875958502, "grad_norm": 3.671875, "learning_rate": 1.0836666666666666e-05, "loss": 0.2133, "step": 2750 }, { "epoch": 0.6224627875507442, "grad_norm": 3.625, "learning_rate": 1.0803333333333334e-05, "loss": 0.1912, "step": 2760 }, { "epoch": 0.6247180875056383, "grad_norm": 3.609375, "learning_rate": 1.077e-05, "loss": 0.1967, "step": 2770 }, { "epoch": 0.6269733874605322, "grad_norm": 3.1875, "learning_rate": 1.0736666666666668e-05, "loss": 0.1858, "step": 2780 }, { "epoch": 0.6292286874154263, "grad_norm": 3.546875, "learning_rate": 1.0703333333333335e-05, "loss": 0.1995, "step": 2790 }, { "epoch": 0.6314839873703203, "grad_norm": 4.875, "learning_rate": 1.0670000000000001e-05, "loss": 0.1911, "step": 2800 }, { "epoch": 0.6337392873252142, "grad_norm": 4.3125, "learning_rate": 1.063666666666667e-05, "loss": 0.1938, "step": 2810 }, { "epoch": 0.6359945872801083, "grad_norm": 4.625, "learning_rate": 1.0603333333333334e-05, "loss": 0.215, "step": 2820 }, { "epoch": 0.6382498872350022, "grad_norm": 2.78125, "learning_rate": 1.057e-05, "loss": 0.2065, "step": 2830 }, { "epoch": 0.6405051871898962, "grad_norm": 3.0625, "learning_rate": 1.0536666666666669e-05, "loss": 0.1796, "step": 2840 }, { "epoch": 0.6427604871447903, "grad_norm": 3.796875, "learning_rate": 1.0503333333333335e-05, "loss": 0.1766, "step": 2850 }, { "epoch": 0.6450157870996842, "grad_norm": 4.5, "learning_rate": 1.047e-05, "loss": 0.1652, "step": 2860 }, { "epoch": 0.6472710870545783, "grad_norm": 3.421875, "learning_rate": 1.0436666666666668e-05, "loss": 0.1858, "step": 2870 }, { "epoch": 0.6495263870094723, "grad_norm": 3.28125, "learning_rate": 1.0403333333333334e-05, "loss": 0.1756, "step": 2880 }, { "epoch": 0.6517816869643662, "grad_norm": 3.265625, "learning_rate": 1.037e-05, "loss": 0.176, "step": 2890 }, { "epoch": 0.6540369869192603, "grad_norm": 3.203125, "learning_rate": 1.0336666666666669e-05, "loss": 0.1903, "step": 2900 }, { "epoch": 0.6562922868741543, "grad_norm": 4.0, "learning_rate": 1.0303333333333334e-05, "loss": 0.1878, "step": 2910 }, { "epoch": 0.6585475868290482, "grad_norm": 4.21875, "learning_rate": 1.027e-05, "loss": 0.1806, "step": 2920 }, { "epoch": 0.6608028867839423, "grad_norm": 3.109375, "learning_rate": 1.0236666666666668e-05, "loss": 0.1777, "step": 2930 }, { "epoch": 0.6630581867388363, "grad_norm": 4.0625, "learning_rate": 1.0203333333333334e-05, "loss": 0.1851, "step": 2940 }, { "epoch": 0.6653134866937302, "grad_norm": 2.90625, "learning_rate": 1.017e-05, "loss": 0.1684, "step": 2950 }, { "epoch": 0.6675687866486243, "grad_norm": 3.625, "learning_rate": 1.0136666666666667e-05, "loss": 0.1687, "step": 2960 }, { "epoch": 0.6698240866035182, "grad_norm": 3.375, "learning_rate": 1.0103333333333334e-05, "loss": 0.1723, "step": 2970 }, { "epoch": 0.6720793865584123, "grad_norm": 2.96875, "learning_rate": 1.007e-05, "loss": 0.1795, "step": 2980 }, { "epoch": 0.6743346865133063, "grad_norm": 3.484375, "learning_rate": 1.0036666666666668e-05, "loss": 0.1718, "step": 2990 }, { "epoch": 0.6765899864682002, "grad_norm": 3.5625, "learning_rate": 1.0003333333333333e-05, "loss": 0.1691, "step": 3000 }, { "epoch": 0.6788452864230943, "grad_norm": 3.203125, "learning_rate": 9.970000000000001e-06, "loss": 0.1805, "step": 3010 }, { "epoch": 0.6811005863779883, "grad_norm": 2.78125, "learning_rate": 9.936666666666668e-06, "loss": 0.1844, "step": 3020 }, { "epoch": 0.6833558863328822, "grad_norm": 4.21875, "learning_rate": 9.903333333333334e-06, "loss": 0.1612, "step": 3030 }, { "epoch": 0.6856111862877763, "grad_norm": 3.140625, "learning_rate": 9.87e-06, "loss": 0.1719, "step": 3040 }, { "epoch": 0.6878664862426703, "grad_norm": 3.78125, "learning_rate": 9.836666666666668e-06, "loss": 0.1639, "step": 3050 }, { "epoch": 0.6901217861975643, "grad_norm": 3.59375, "learning_rate": 9.803333333333333e-06, "loss": 0.1555, "step": 3060 }, { "epoch": 0.6923770861524583, "grad_norm": 3.109375, "learning_rate": 9.770000000000001e-06, "loss": 0.1695, "step": 3070 }, { "epoch": 0.6946323861073522, "grad_norm": 3.203125, "learning_rate": 9.736666666666668e-06, "loss": 0.1684, "step": 3080 }, { "epoch": 0.6968876860622463, "grad_norm": 3.546875, "learning_rate": 9.703333333333334e-06, "loss": 0.1669, "step": 3090 }, { "epoch": 0.6991429860171403, "grad_norm": 3.6875, "learning_rate": 9.67e-06, "loss": 0.1789, "step": 3100 }, { "epoch": 0.7013982859720342, "grad_norm": 3.578125, "learning_rate": 9.636666666666667e-06, "loss": 0.1776, "step": 3110 }, { "epoch": 0.7036535859269283, "grad_norm": 3.125, "learning_rate": 9.603333333333335e-06, "loss": 0.1561, "step": 3120 }, { "epoch": 0.7059088858818223, "grad_norm": 3.125, "learning_rate": 9.57e-06, "loss": 0.1609, "step": 3130 }, { "epoch": 0.7081641858367163, "grad_norm": 3.75, "learning_rate": 9.536666666666668e-06, "loss": 0.1398, "step": 3140 }, { "epoch": 0.7104194857916103, "grad_norm": 3.3125, "learning_rate": 9.503333333333334e-06, "loss": 0.167, "step": 3150 }, { "epoch": 0.7126747857465043, "grad_norm": 3.75, "learning_rate": 9.47e-06, "loss": 0.1546, "step": 3160 }, { "epoch": 0.7149300857013983, "grad_norm": 3.546875, "learning_rate": 9.436666666666667e-06, "loss": 0.1555, "step": 3170 }, { "epoch": 0.7171853856562923, "grad_norm": 3.15625, "learning_rate": 9.403333333333334e-06, "loss": 0.1766, "step": 3180 }, { "epoch": 0.7194406856111862, "grad_norm": 3.390625, "learning_rate": 9.370000000000002e-06, "loss": 0.1705, "step": 3190 }, { "epoch": 0.7216959855660803, "grad_norm": 3.671875, "learning_rate": 9.336666666666666e-06, "loss": 0.1784, "step": 3200 }, { "epoch": 0.7239512855209743, "grad_norm": 3.125, "learning_rate": 9.303333333333335e-06, "loss": 0.1705, "step": 3210 }, { "epoch": 0.7262065854758682, "grad_norm": 3.28125, "learning_rate": 9.270000000000001e-06, "loss": 0.1562, "step": 3220 }, { "epoch": 0.7284618854307623, "grad_norm": 2.96875, "learning_rate": 9.236666666666667e-06, "loss": 0.1421, "step": 3230 }, { "epoch": 0.7307171853856563, "grad_norm": 3.609375, "learning_rate": 9.203333333333334e-06, "loss": 0.1663, "step": 3240 }, { "epoch": 0.7329724853405503, "grad_norm": 2.84375, "learning_rate": 9.17e-06, "loss": 0.1729, "step": 3250 }, { "epoch": 0.7352277852954443, "grad_norm": 2.921875, "learning_rate": 9.136666666666667e-06, "loss": 0.1572, "step": 3260 }, { "epoch": 0.7374830852503383, "grad_norm": 2.75, "learning_rate": 9.103333333333335e-06, "loss": 0.1574, "step": 3270 }, { "epoch": 0.7397383852052323, "grad_norm": 4.0, "learning_rate": 9.070000000000001e-06, "loss": 0.158, "step": 3280 }, { "epoch": 0.7419936851601263, "grad_norm": 3.140625, "learning_rate": 9.036666666666668e-06, "loss": 0.1743, "step": 3290 }, { "epoch": 0.7442489851150202, "grad_norm": 3.125, "learning_rate": 9.003333333333334e-06, "loss": 0.1492, "step": 3300 }, { "epoch": 0.7465042850699143, "grad_norm": 3.578125, "learning_rate": 8.97e-06, "loss": 0.1544, "step": 3310 }, { "epoch": 0.7487595850248083, "grad_norm": 3.046875, "learning_rate": 8.936666666666669e-06, "loss": 0.154, "step": 3320 }, { "epoch": 0.7510148849797023, "grad_norm": 3.234375, "learning_rate": 8.903333333333333e-06, "loss": 0.1515, "step": 3330 }, { "epoch": 0.7532701849345963, "grad_norm": 3.234375, "learning_rate": 8.870000000000001e-06, "loss": 0.1601, "step": 3340 }, { "epoch": 0.7555254848894903, "grad_norm": 5.375, "learning_rate": 8.836666666666668e-06, "loss": 0.1541, "step": 3350 }, { "epoch": 0.7577807848443843, "grad_norm": 3.0, "learning_rate": 8.803333333333334e-06, "loss": 0.137, "step": 3360 }, { "epoch": 0.7600360847992783, "grad_norm": 4.3125, "learning_rate": 8.77e-06, "loss": 0.1518, "step": 3370 }, { "epoch": 0.7622913847541724, "grad_norm": 2.96875, "learning_rate": 8.736666666666667e-06, "loss": 0.1557, "step": 3380 }, { "epoch": 0.7645466847090663, "grad_norm": 3.171875, "learning_rate": 8.703333333333334e-06, "loss": 0.1459, "step": 3390 }, { "epoch": 0.7668019846639603, "grad_norm": 3.390625, "learning_rate": 8.67e-06, "loss": 0.1457, "step": 3400 }, { "epoch": 0.7690572846188543, "grad_norm": 2.828125, "learning_rate": 8.636666666666668e-06, "loss": 0.1437, "step": 3410 }, { "epoch": 0.7713125845737483, "grad_norm": 3.53125, "learning_rate": 8.603333333333333e-06, "loss": 0.1575, "step": 3420 }, { "epoch": 0.7735678845286423, "grad_norm": 2.765625, "learning_rate": 8.570000000000001e-06, "loss": 0.1405, "step": 3430 }, { "epoch": 0.7758231844835363, "grad_norm": 2.46875, "learning_rate": 8.536666666666667e-06, "loss": 0.1479, "step": 3440 }, { "epoch": 0.7780784844384303, "grad_norm": 3.140625, "learning_rate": 8.503333333333334e-06, "loss": 0.1513, "step": 3450 }, { "epoch": 0.7803337843933243, "grad_norm": 3.3125, "learning_rate": 8.47e-06, "loss": 0.1437, "step": 3460 }, { "epoch": 0.7825890843482183, "grad_norm": 2.875, "learning_rate": 8.436666666666667e-06, "loss": 0.1434, "step": 3470 }, { "epoch": 0.7848443843031123, "grad_norm": 2.34375, "learning_rate": 8.403333333333335e-06, "loss": 0.1442, "step": 3480 }, { "epoch": 0.7870996842580064, "grad_norm": 3.578125, "learning_rate": 8.370000000000001e-06, "loss": 0.1449, "step": 3490 }, { "epoch": 0.7893549842129003, "grad_norm": 3.453125, "learning_rate": 8.336666666666668e-06, "loss": 0.151, "step": 3500 }, { "epoch": 0.7916102841677943, "grad_norm": 2.796875, "learning_rate": 8.303333333333334e-06, "loss": 0.1407, "step": 3510 }, { "epoch": 0.7938655841226884, "grad_norm": 3.015625, "learning_rate": 8.27e-06, "loss": 0.1566, "step": 3520 }, { "epoch": 0.7961208840775823, "grad_norm": 3.328125, "learning_rate": 8.236666666666667e-06, "loss": 0.1574, "step": 3530 }, { "epoch": 0.7983761840324763, "grad_norm": 2.78125, "learning_rate": 8.203333333333335e-06, "loss": 0.1434, "step": 3540 }, { "epoch": 0.8006314839873703, "grad_norm": 2.671875, "learning_rate": 8.17e-06, "loss": 0.1379, "step": 3550 }, { "epoch": 0.8028867839422643, "grad_norm": 2.984375, "learning_rate": 8.136666666666668e-06, "loss": 0.1685, "step": 3560 }, { "epoch": 0.8051420838971584, "grad_norm": 2.875, "learning_rate": 8.103333333333334e-06, "loss": 0.1564, "step": 3570 }, { "epoch": 0.8073973838520523, "grad_norm": 3.765625, "learning_rate": 8.07e-06, "loss": 0.1399, "step": 3580 }, { "epoch": 0.8096526838069463, "grad_norm": 3.71875, "learning_rate": 8.036666666666667e-06, "loss": 0.1422, "step": 3590 }, { "epoch": 0.8119079837618404, "grad_norm": 3.015625, "learning_rate": 8.003333333333334e-06, "loss": 0.1439, "step": 3600 }, { "epoch": 0.8141632837167343, "grad_norm": 3.3125, "learning_rate": 7.970000000000002e-06, "loss": 0.1473, "step": 3610 }, { "epoch": 0.8164185836716283, "grad_norm": 3.484375, "learning_rate": 7.936666666666666e-06, "loss": 0.1598, "step": 3620 }, { "epoch": 0.8186738836265224, "grad_norm": 3.671875, "learning_rate": 7.903333333333334e-06, "loss": 0.1431, "step": 3630 }, { "epoch": 0.8209291835814163, "grad_norm": 3.375, "learning_rate": 7.870000000000001e-06, "loss": 0.1338, "step": 3640 }, { "epoch": 0.8231844835363104, "grad_norm": 4.34375, "learning_rate": 7.836666666666667e-06, "loss": 0.1437, "step": 3650 }, { "epoch": 0.8254397834912043, "grad_norm": 4.5625, "learning_rate": 7.803333333333334e-06, "loss": 0.1383, "step": 3660 }, { "epoch": 0.8276950834460983, "grad_norm": 2.84375, "learning_rate": 7.77e-06, "loss": 0.1452, "step": 3670 }, { "epoch": 0.8299503834009924, "grad_norm": 3.6875, "learning_rate": 7.736666666666667e-06, "loss": 0.1566, "step": 3680 }, { "epoch": 0.8322056833558863, "grad_norm": 3.4375, "learning_rate": 7.703333333333333e-06, "loss": 0.1416, "step": 3690 }, { "epoch": 0.8344609833107803, "grad_norm": 3.21875, "learning_rate": 7.670000000000001e-06, "loss": 0.1296, "step": 3700 }, { "epoch": 0.8367162832656744, "grad_norm": 2.78125, "learning_rate": 7.636666666666668e-06, "loss": 0.1422, "step": 3710 }, { "epoch": 0.8389715832205683, "grad_norm": 3.765625, "learning_rate": 7.603333333333334e-06, "loss": 0.1448, "step": 3720 }, { "epoch": 0.8412268831754623, "grad_norm": 2.859375, "learning_rate": 7.57e-06, "loss": 0.135, "step": 3730 }, { "epoch": 0.8434821831303564, "grad_norm": 3.0, "learning_rate": 7.536666666666668e-06, "loss": 0.1428, "step": 3740 }, { "epoch": 0.8457374830852503, "grad_norm": 3.28125, "learning_rate": 7.503333333333333e-06, "loss": 0.138, "step": 3750 }, { "epoch": 0.8479927830401444, "grad_norm": 3.375, "learning_rate": 7.4700000000000005e-06, "loss": 0.125, "step": 3760 }, { "epoch": 0.8502480829950383, "grad_norm": 2.296875, "learning_rate": 7.436666666666668e-06, "loss": 0.1317, "step": 3770 }, { "epoch": 0.8525033829499323, "grad_norm": 3.296875, "learning_rate": 7.403333333333333e-06, "loss": 0.1258, "step": 3780 }, { "epoch": 0.8547586829048264, "grad_norm": 2.671875, "learning_rate": 7.370000000000001e-06, "loss": 0.1403, "step": 3790 }, { "epoch": 0.8570139828597203, "grad_norm": 4.03125, "learning_rate": 7.336666666666668e-06, "loss": 0.1466, "step": 3800 }, { "epoch": 0.8592692828146143, "grad_norm": 2.546875, "learning_rate": 7.3033333333333334e-06, "loss": 0.1262, "step": 3810 }, { "epoch": 0.8615245827695084, "grad_norm": 1.9921875, "learning_rate": 7.270000000000001e-06, "loss": 0.1427, "step": 3820 }, { "epoch": 0.8637798827244023, "grad_norm": 3.546875, "learning_rate": 7.236666666666667e-06, "loss": 0.1193, "step": 3830 }, { "epoch": 0.8660351826792964, "grad_norm": 4.1875, "learning_rate": 7.203333333333334e-06, "loss": 0.1337, "step": 3840 }, { "epoch": 0.8682904826341904, "grad_norm": 2.78125, "learning_rate": 7.17e-06, "loss": 0.1472, "step": 3850 }, { "epoch": 0.8705457825890843, "grad_norm": 2.75, "learning_rate": 7.136666666666667e-06, "loss": 0.1531, "step": 3860 }, { "epoch": 0.8728010825439784, "grad_norm": 2.296875, "learning_rate": 7.1033333333333345e-06, "loss": 0.1334, "step": 3870 }, { "epoch": 0.8750563824988723, "grad_norm": 2.765625, "learning_rate": 7.07e-06, "loss": 0.1339, "step": 3880 }, { "epoch": 0.8773116824537663, "grad_norm": 3.234375, "learning_rate": 7.036666666666667e-06, "loss": 0.1369, "step": 3890 }, { "epoch": 0.8795669824086604, "grad_norm": 3.765625, "learning_rate": 7.003333333333335e-06, "loss": 0.1214, "step": 3900 }, { "epoch": 0.8818222823635543, "grad_norm": 2.734375, "learning_rate": 6.97e-06, "loss": 0.1387, "step": 3910 }, { "epoch": 0.8840775823184484, "grad_norm": 3.125, "learning_rate": 6.9366666666666675e-06, "loss": 0.1469, "step": 3920 }, { "epoch": 0.8863328822733424, "grad_norm": 2.5, "learning_rate": 6.903333333333334e-06, "loss": 0.1432, "step": 3930 }, { "epoch": 0.8885881822282363, "grad_norm": 2.984375, "learning_rate": 6.870000000000001e-06, "loss": 0.1337, "step": 3940 }, { "epoch": 0.8908434821831304, "grad_norm": 2.6875, "learning_rate": 6.836666666666667e-06, "loss": 0.131, "step": 3950 }, { "epoch": 0.8930987821380244, "grad_norm": 2.78125, "learning_rate": 6.803333333333334e-06, "loss": 0.1385, "step": 3960 }, { "epoch": 0.8953540820929183, "grad_norm": 2.1875, "learning_rate": 6.770000000000001e-06, "loss": 0.1379, "step": 3970 }, { "epoch": 0.8976093820478124, "grad_norm": 2.640625, "learning_rate": 6.736666666666667e-06, "loss": 0.1307, "step": 3980 }, { "epoch": 0.8998646820027063, "grad_norm": 3.109375, "learning_rate": 6.703333333333334e-06, "loss": 0.1199, "step": 3990 }, { "epoch": 0.9021199819576003, "grad_norm": 3.109375, "learning_rate": 6.6700000000000005e-06, "loss": 0.1262, "step": 4000 }, { "epoch": 0.9043752819124944, "grad_norm": 3.453125, "learning_rate": 6.636666666666667e-06, "loss": 0.1275, "step": 4010 }, { "epoch": 0.9066305818673883, "grad_norm": 3.21875, "learning_rate": 6.603333333333334e-06, "loss": 0.1321, "step": 4020 }, { "epoch": 0.9088858818222824, "grad_norm": 2.71875, "learning_rate": 6.570000000000001e-06, "loss": 0.1275, "step": 4030 }, { "epoch": 0.9111411817771764, "grad_norm": 3.375, "learning_rate": 6.536666666666667e-06, "loss": 0.1068, "step": 4040 }, { "epoch": 0.9133964817320703, "grad_norm": 2.984375, "learning_rate": 6.5033333333333335e-06, "loss": 0.1214, "step": 4050 }, { "epoch": 0.9156517816869644, "grad_norm": 3.28125, "learning_rate": 6.470000000000001e-06, "loss": 0.1306, "step": 4060 }, { "epoch": 0.9179070816418584, "grad_norm": 3.40625, "learning_rate": 6.436666666666668e-06, "loss": 0.1331, "step": 4070 }, { "epoch": 0.9201623815967523, "grad_norm": 3.578125, "learning_rate": 6.403333333333334e-06, "loss": 0.1334, "step": 4080 }, { "epoch": 0.9224176815516464, "grad_norm": 2.40625, "learning_rate": 6.370000000000001e-06, "loss": 0.1352, "step": 4090 }, { "epoch": 0.9246729815065403, "grad_norm": 2.734375, "learning_rate": 6.336666666666667e-06, "loss": 0.1138, "step": 4100 }, { "epoch": 0.9269282814614344, "grad_norm": 2.984375, "learning_rate": 6.303333333333334e-06, "loss": 0.1163, "step": 4110 }, { "epoch": 0.9291835814163284, "grad_norm": 3.21875, "learning_rate": 6.27e-06, "loss": 0.1235, "step": 4120 }, { "epoch": 0.9314388813712223, "grad_norm": 3.40625, "learning_rate": 6.236666666666667e-06, "loss": 0.128, "step": 4130 }, { "epoch": 0.9336941813261164, "grad_norm": 2.828125, "learning_rate": 6.203333333333334e-06, "loss": 0.1254, "step": 4140 }, { "epoch": 0.9359494812810104, "grad_norm": 2.78125, "learning_rate": 6.17e-06, "loss": 0.1272, "step": 4150 }, { "epoch": 0.9382047812359043, "grad_norm": 2.390625, "learning_rate": 6.1366666666666675e-06, "loss": 0.1294, "step": 4160 }, { "epoch": 0.9404600811907984, "grad_norm": 2.515625, "learning_rate": 6.103333333333333e-06, "loss": 0.1231, "step": 4170 }, { "epoch": 0.9427153811456924, "grad_norm": 2.6875, "learning_rate": 6.07e-06, "loss": 0.1424, "step": 4180 }, { "epoch": 0.9449706811005864, "grad_norm": 2.71875, "learning_rate": 6.036666666666668e-06, "loss": 0.1214, "step": 4190 }, { "epoch": 0.9472259810554804, "grad_norm": 3.15625, "learning_rate": 6.003333333333334e-06, "loss": 0.1147, "step": 4200 }, { "epoch": 0.9494812810103744, "grad_norm": 2.546875, "learning_rate": 5.9700000000000004e-06, "loss": 0.1256, "step": 4210 }, { "epoch": 0.9517365809652684, "grad_norm": 2.796875, "learning_rate": 5.936666666666667e-06, "loss": 0.1232, "step": 4220 }, { "epoch": 0.9539918809201624, "grad_norm": 2.765625, "learning_rate": 5.903333333333334e-06, "loss": 0.1103, "step": 4230 }, { "epoch": 0.9562471808750563, "grad_norm": 4.09375, "learning_rate": 5.8700000000000005e-06, "loss": 0.1294, "step": 4240 }, { "epoch": 0.9585024808299504, "grad_norm": 2.46875, "learning_rate": 5.836666666666667e-06, "loss": 0.1243, "step": 4250 }, { "epoch": 0.9607577807848444, "grad_norm": 2.4375, "learning_rate": 5.803333333333334e-06, "loss": 0.1165, "step": 4260 }, { "epoch": 0.9630130807397383, "grad_norm": 3.4375, "learning_rate": 5.77e-06, "loss": 0.1192, "step": 4270 }, { "epoch": 0.9652683806946324, "grad_norm": 2.28125, "learning_rate": 5.736666666666667e-06, "loss": 0.1175, "step": 4280 }, { "epoch": 0.9675236806495264, "grad_norm": 2.328125, "learning_rate": 5.703333333333334e-06, "loss": 0.1214, "step": 4290 }, { "epoch": 0.9697789806044204, "grad_norm": 2.765625, "learning_rate": 5.67e-06, "loss": 0.1162, "step": 4300 }, { "epoch": 0.9720342805593144, "grad_norm": 2.765625, "learning_rate": 5.636666666666667e-06, "loss": 0.1221, "step": 4310 }, { "epoch": 0.9742895805142084, "grad_norm": 2.828125, "learning_rate": 5.603333333333334e-06, "loss": 0.1135, "step": 4320 }, { "epoch": 0.9765448804691024, "grad_norm": 2.40625, "learning_rate": 5.570000000000001e-06, "loss": 0.1137, "step": 4330 }, { "epoch": 0.9788001804239964, "grad_norm": 2.71875, "learning_rate": 5.5366666666666665e-06, "loss": 0.1209, "step": 4340 }, { "epoch": 0.9810554803788903, "grad_norm": 2.203125, "learning_rate": 5.503333333333334e-06, "loss": 0.1373, "step": 4350 }, { "epoch": 0.9833107803337844, "grad_norm": 2.640625, "learning_rate": 5.470000000000001e-06, "loss": 0.1196, "step": 4360 }, { "epoch": 0.9855660802886784, "grad_norm": 3.0625, "learning_rate": 5.4366666666666666e-06, "loss": 0.1194, "step": 4370 }, { "epoch": 0.9878213802435724, "grad_norm": 3.3125, "learning_rate": 5.403333333333334e-06, "loss": 0.1098, "step": 4380 }, { "epoch": 0.9900766801984664, "grad_norm": 2.59375, "learning_rate": 5.370000000000001e-06, "loss": 0.1192, "step": 4390 }, { "epoch": 0.9923319801533604, "grad_norm": 2.734375, "learning_rate": 5.336666666666667e-06, "loss": 0.1077, "step": 4400 }, { "epoch": 0.9945872801082544, "grad_norm": 2.546875, "learning_rate": 5.303333333333334e-06, "loss": 0.126, "step": 4410 }, { "epoch": 0.9968425800631484, "grad_norm": 2.828125, "learning_rate": 5.27e-06, "loss": 0.1223, "step": 4420 }, { "epoch": 0.9990978800180425, "grad_norm": 3.515625, "learning_rate": 5.236666666666667e-06, "loss": 0.1176, "step": 4430 }, { "epoch": 1.0013531799729365, "grad_norm": 2.640625, "learning_rate": 5.203333333333333e-06, "loss": 0.1064, "step": 4440 }, { "epoch": 1.0036084799278304, "grad_norm": 1.5625, "learning_rate": 5.1700000000000005e-06, "loss": 0.1128, "step": 4450 }, { "epoch": 1.0058637798827244, "grad_norm": 2.078125, "learning_rate": 5.136666666666668e-06, "loss": 0.0987, "step": 4460 }, { "epoch": 1.0081190798376185, "grad_norm": 2.359375, "learning_rate": 5.103333333333333e-06, "loss": 0.1084, "step": 4470 }, { "epoch": 1.0103743797925124, "grad_norm": 2.0, "learning_rate": 5.070000000000001e-06, "loss": 0.1035, "step": 4480 }, { "epoch": 1.0126296797474064, "grad_norm": 2.234375, "learning_rate": 5.036666666666668e-06, "loss": 0.1083, "step": 4490 }, { "epoch": 1.0148849797023005, "grad_norm": 2.359375, "learning_rate": 5.0033333333333334e-06, "loss": 0.117, "step": 4500 }, { "epoch": 1.0171402796571944, "grad_norm": 3.234375, "learning_rate": 4.970000000000001e-06, "loss": 0.0979, "step": 4510 }, { "epoch": 1.0193955796120884, "grad_norm": 1.9765625, "learning_rate": 4.936666666666667e-06, "loss": 0.0954, "step": 4520 }, { "epoch": 1.0216508795669823, "grad_norm": 2.890625, "learning_rate": 4.9033333333333335e-06, "loss": 0.0957, "step": 4530 }, { "epoch": 1.0239061795218765, "grad_norm": 3.046875, "learning_rate": 4.87e-06, "loss": 0.1065, "step": 4540 }, { "epoch": 1.0261614794767704, "grad_norm": 2.046875, "learning_rate": 4.836666666666667e-06, "loss": 0.0878, "step": 4550 }, { "epoch": 1.0284167794316643, "grad_norm": 2.390625, "learning_rate": 4.803333333333334e-06, "loss": 0.1011, "step": 4560 }, { "epoch": 1.0306720793865585, "grad_norm": 2.828125, "learning_rate": 4.77e-06, "loss": 0.0977, "step": 4570 }, { "epoch": 1.0329273793414524, "grad_norm": 2.59375, "learning_rate": 4.736666666666667e-06, "loss": 0.1086, "step": 4580 }, { "epoch": 1.0351826792963463, "grad_norm": 2.203125, "learning_rate": 4.703333333333334e-06, "loss": 0.1006, "step": 4590 }, { "epoch": 1.0374379792512405, "grad_norm": 3.65625, "learning_rate": 4.670000000000001e-06, "loss": 0.1144, "step": 4600 }, { "epoch": 1.0396932792061344, "grad_norm": 2.40625, "learning_rate": 4.6366666666666674e-06, "loss": 0.101, "step": 4610 }, { "epoch": 1.0419485791610283, "grad_norm": 2.171875, "learning_rate": 4.603333333333334e-06, "loss": 0.0841, "step": 4620 }, { "epoch": 1.0442038791159225, "grad_norm": 3.921875, "learning_rate": 4.57e-06, "loss": 0.1046, "step": 4630 }, { "epoch": 1.0464591790708164, "grad_norm": 2.4375, "learning_rate": 4.536666666666667e-06, "loss": 0.0975, "step": 4640 }, { "epoch": 1.0487144790257104, "grad_norm": 3.171875, "learning_rate": 4.503333333333333e-06, "loss": 0.0955, "step": 4650 }, { "epoch": 1.0509697789806045, "grad_norm": 2.546875, "learning_rate": 4.47e-06, "loss": 0.1083, "step": 4660 }, { "epoch": 1.0532250789354984, "grad_norm": 2.078125, "learning_rate": 4.436666666666667e-06, "loss": 0.1139, "step": 4670 }, { "epoch": 1.0554803788903924, "grad_norm": 2.421875, "learning_rate": 4.403333333333334e-06, "loss": 0.1052, "step": 4680 }, { "epoch": 1.0577356788452865, "grad_norm": 2.09375, "learning_rate": 4.3700000000000005e-06, "loss": 0.0956, "step": 4690 }, { "epoch": 1.0599909788001805, "grad_norm": 2.578125, "learning_rate": 4.336666666666667e-06, "loss": 0.0991, "step": 4700 }, { "epoch": 1.0622462787550744, "grad_norm": 2.15625, "learning_rate": 4.303333333333334e-06, "loss": 0.1256, "step": 4710 }, { "epoch": 1.0645015787099683, "grad_norm": 2.34375, "learning_rate": 4.270000000000001e-06, "loss": 0.1075, "step": 4720 }, { "epoch": 1.0667568786648625, "grad_norm": 2.234375, "learning_rate": 4.236666666666667e-06, "loss": 0.0935, "step": 4730 }, { "epoch": 1.0690121786197564, "grad_norm": 1.78125, "learning_rate": 4.2033333333333335e-06, "loss": 0.1012, "step": 4740 }, { "epoch": 1.0712674785746503, "grad_norm": 2.0625, "learning_rate": 4.17e-06, "loss": 0.1035, "step": 4750 }, { "epoch": 1.0735227785295445, "grad_norm": 3.328125, "learning_rate": 4.136666666666667e-06, "loss": 0.1075, "step": 4760 }, { "epoch": 1.0757780784844384, "grad_norm": 1.9296875, "learning_rate": 4.1033333333333336e-06, "loss": 0.1054, "step": 4770 }, { "epoch": 1.0780333784393323, "grad_norm": 2.265625, "learning_rate": 4.07e-06, "loss": 0.0883, "step": 4780 }, { "epoch": 1.0802886783942265, "grad_norm": 2.390625, "learning_rate": 4.036666666666667e-06, "loss": 0.0988, "step": 4790 }, { "epoch": 1.0825439783491204, "grad_norm": 3.078125, "learning_rate": 4.003333333333334e-06, "loss": 0.1047, "step": 4800 }, { "epoch": 1.0847992783040143, "grad_norm": 2.84375, "learning_rate": 3.97e-06, "loss": 0.123, "step": 4810 }, { "epoch": 1.0870545782589085, "grad_norm": 2.671875, "learning_rate": 3.936666666666667e-06, "loss": 0.0982, "step": 4820 }, { "epoch": 1.0893098782138024, "grad_norm": 2.515625, "learning_rate": 3.903333333333334e-06, "loss": 0.1112, "step": 4830 }, { "epoch": 1.0915651781686964, "grad_norm": 2.59375, "learning_rate": 3.87e-06, "loss": 0.119, "step": 4840 }, { "epoch": 1.0938204781235905, "grad_norm": 1.9765625, "learning_rate": 3.836666666666667e-06, "loss": 0.0939, "step": 4850 }, { "epoch": 1.0960757780784844, "grad_norm": 2.734375, "learning_rate": 3.803333333333334e-06, "loss": 0.0933, "step": 4860 }, { "epoch": 1.0983310780333784, "grad_norm": 3.265625, "learning_rate": 3.7700000000000003e-06, "loss": 0.0983, "step": 4870 }, { "epoch": 1.1005863779882725, "grad_norm": 1.8203125, "learning_rate": 3.7366666666666667e-06, "loss": 0.1099, "step": 4880 }, { "epoch": 1.1028416779431665, "grad_norm": 2.203125, "learning_rate": 3.7033333333333336e-06, "loss": 0.0952, "step": 4890 }, { "epoch": 1.1050969778980604, "grad_norm": 2.0625, "learning_rate": 3.6700000000000004e-06, "loss": 0.0789, "step": 4900 }, { "epoch": 1.1073522778529545, "grad_norm": 2.234375, "learning_rate": 3.6366666666666673e-06, "loss": 0.1048, "step": 4910 }, { "epoch": 1.1096075778078485, "grad_norm": 2.765625, "learning_rate": 3.6033333333333337e-06, "loss": 0.1165, "step": 4920 }, { "epoch": 1.1118628777627424, "grad_norm": 3.46875, "learning_rate": 3.57e-06, "loss": 0.1013, "step": 4930 }, { "epoch": 1.1141181777176365, "grad_norm": 2.609375, "learning_rate": 3.536666666666667e-06, "loss": 0.1291, "step": 4940 }, { "epoch": 1.1163734776725305, "grad_norm": 2.3125, "learning_rate": 3.5033333333333334e-06, "loss": 0.1018, "step": 4950 }, { "epoch": 1.1186287776274244, "grad_norm": 2.890625, "learning_rate": 3.4700000000000002e-06, "loss": 0.1039, "step": 4960 }, { "epoch": 1.1208840775823186, "grad_norm": 2.65625, "learning_rate": 3.436666666666667e-06, "loss": 0.0958, "step": 4970 }, { "epoch": 1.1231393775372125, "grad_norm": 2.140625, "learning_rate": 3.4033333333333335e-06, "loss": 0.0811, "step": 4980 }, { "epoch": 1.1253946774921064, "grad_norm": 2.078125, "learning_rate": 3.3700000000000003e-06, "loss": 0.1002, "step": 4990 }, { "epoch": 1.1276499774470006, "grad_norm": 2.53125, "learning_rate": 3.3366666666666668e-06, "loss": 0.1201, "step": 5000 }, { "epoch": 1.1299052774018945, "grad_norm": 2.109375, "learning_rate": 3.303333333333333e-06, "loss": 0.1172, "step": 5010 }, { "epoch": 1.1321605773567884, "grad_norm": 2.109375, "learning_rate": 3.2700000000000005e-06, "loss": 0.1013, "step": 5020 }, { "epoch": 1.1344158773116824, "grad_norm": 2.859375, "learning_rate": 3.236666666666667e-06, "loss": 0.0815, "step": 5030 }, { "epoch": 1.1366711772665765, "grad_norm": 1.859375, "learning_rate": 3.2033333333333337e-06, "loss": 0.1105, "step": 5040 }, { "epoch": 1.1389264772214704, "grad_norm": 2.078125, "learning_rate": 3.17e-06, "loss": 0.1004, "step": 5050 }, { "epoch": 1.1411817771763644, "grad_norm": 2.515625, "learning_rate": 3.1366666666666666e-06, "loss": 0.0956, "step": 5060 }, { "epoch": 1.1434370771312585, "grad_norm": 2.234375, "learning_rate": 3.103333333333334e-06, "loss": 0.0966, "step": 5070 }, { "epoch": 1.1456923770861525, "grad_norm": 1.671875, "learning_rate": 3.0700000000000003e-06, "loss": 0.1093, "step": 5080 }, { "epoch": 1.1479476770410464, "grad_norm": 1.8984375, "learning_rate": 3.0366666666666667e-06, "loss": 0.1048, "step": 5090 }, { "epoch": 1.1502029769959405, "grad_norm": 2.46875, "learning_rate": 3.0033333333333335e-06, "loss": 0.096, "step": 5100 }, { "epoch": 1.1524582769508345, "grad_norm": 2.1875, "learning_rate": 2.97e-06, "loss": 0.1086, "step": 5110 }, { "epoch": 1.1547135769057284, "grad_norm": 2.265625, "learning_rate": 2.936666666666667e-06, "loss": 0.107, "step": 5120 }, { "epoch": 1.1569688768606226, "grad_norm": 2.359375, "learning_rate": 2.9033333333333336e-06, "loss": 0.101, "step": 5130 }, { "epoch": 1.1592241768155165, "grad_norm": 1.9140625, "learning_rate": 2.87e-06, "loss": 0.0915, "step": 5140 }, { "epoch": 1.1614794767704104, "grad_norm": 2.328125, "learning_rate": 2.836666666666667e-06, "loss": 0.1138, "step": 5150 }, { "epoch": 1.1637347767253043, "grad_norm": 2.328125, "learning_rate": 2.8033333333333333e-06, "loss": 0.1046, "step": 5160 }, { "epoch": 1.1659900766801985, "grad_norm": 2.953125, "learning_rate": 2.7700000000000006e-06, "loss": 0.1082, "step": 5170 }, { "epoch": 1.1682453766350924, "grad_norm": 1.75, "learning_rate": 2.736666666666667e-06, "loss": 0.102, "step": 5180 }, { "epoch": 1.1705006765899864, "grad_norm": 2.296875, "learning_rate": 2.7033333333333334e-06, "loss": 0.0988, "step": 5190 }, { "epoch": 1.1727559765448805, "grad_norm": 3.015625, "learning_rate": 2.6700000000000003e-06, "loss": 0.1008, "step": 5200 }, { "epoch": 1.1750112764997744, "grad_norm": 2.0625, "learning_rate": 2.6366666666666667e-06, "loss": 0.1001, "step": 5210 }, { "epoch": 1.1772665764546684, "grad_norm": 1.765625, "learning_rate": 2.603333333333334e-06, "loss": 0.102, "step": 5220 }, { "epoch": 1.1795218764095625, "grad_norm": 2.1875, "learning_rate": 2.5700000000000004e-06, "loss": 0.0954, "step": 5230 }, { "epoch": 1.1817771763644564, "grad_norm": 2.546875, "learning_rate": 2.536666666666667e-06, "loss": 0.1014, "step": 5240 }, { "epoch": 1.1840324763193504, "grad_norm": 1.6875, "learning_rate": 2.5033333333333336e-06, "loss": 0.1032, "step": 5250 }, { "epoch": 1.1862877762742445, "grad_norm": 2.078125, "learning_rate": 2.47e-06, "loss": 0.1037, "step": 5260 }, { "epoch": 1.1885430762291385, "grad_norm": 2.171875, "learning_rate": 2.436666666666667e-06, "loss": 0.0912, "step": 5270 }, { "epoch": 1.1907983761840324, "grad_norm": 2.546875, "learning_rate": 2.4033333333333338e-06, "loss": 0.0874, "step": 5280 }, { "epoch": 1.1930536761389265, "grad_norm": 2.296875, "learning_rate": 2.37e-06, "loss": 0.0877, "step": 5290 }, { "epoch": 1.1953089760938205, "grad_norm": 2.875, "learning_rate": 2.3366666666666666e-06, "loss": 0.0966, "step": 5300 }, { "epoch": 1.1975642760487144, "grad_norm": 1.9921875, "learning_rate": 2.3033333333333334e-06, "loss": 0.096, "step": 5310 }, { "epoch": 1.1998195760036086, "grad_norm": 2.234375, "learning_rate": 2.2700000000000003e-06, "loss": 0.1119, "step": 5320 }, { "epoch": 1.2020748759585025, "grad_norm": 2.078125, "learning_rate": 2.236666666666667e-06, "loss": 0.0967, "step": 5330 }, { "epoch": 1.2043301759133964, "grad_norm": 1.921875, "learning_rate": 2.2033333333333336e-06, "loss": 0.1065, "step": 5340 }, { "epoch": 1.2065854758682906, "grad_norm": 3.65625, "learning_rate": 2.17e-06, "loss": 0.1093, "step": 5350 }, { "epoch": 1.2088407758231845, "grad_norm": 2.28125, "learning_rate": 2.136666666666667e-06, "loss": 0.1131, "step": 5360 }, { "epoch": 1.2110960757780784, "grad_norm": 2.25, "learning_rate": 2.1033333333333337e-06, "loss": 0.0938, "step": 5370 }, { "epoch": 1.2133513757329726, "grad_norm": 2.203125, "learning_rate": 2.07e-06, "loss": 0.0951, "step": 5380 }, { "epoch": 1.2156066756878665, "grad_norm": 2.09375, "learning_rate": 2.036666666666667e-06, "loss": 0.1138, "step": 5390 }, { "epoch": 1.2178619756427604, "grad_norm": 2.34375, "learning_rate": 2.0033333333333334e-06, "loss": 0.0944, "step": 5400 }, { "epoch": 1.2201172755976546, "grad_norm": 1.9296875, "learning_rate": 1.97e-06, "loss": 0.0991, "step": 5410 }, { "epoch": 1.2223725755525485, "grad_norm": 2.234375, "learning_rate": 1.9366666666666666e-06, "loss": 0.1096, "step": 5420 }, { "epoch": 1.2246278755074425, "grad_norm": 2.03125, "learning_rate": 1.9033333333333335e-06, "loss": 0.1197, "step": 5430 }, { "epoch": 1.2268831754623366, "grad_norm": 2.15625, "learning_rate": 1.87e-06, "loss": 0.1, "step": 5440 }, { "epoch": 1.2291384754172305, "grad_norm": 2.15625, "learning_rate": 1.836666666666667e-06, "loss": 0.1017, "step": 5450 }, { "epoch": 1.2313937753721245, "grad_norm": 2.234375, "learning_rate": 1.8033333333333336e-06, "loss": 0.1099, "step": 5460 }, { "epoch": 1.2336490753270186, "grad_norm": 2.109375, "learning_rate": 1.77e-06, "loss": 0.1058, "step": 5470 }, { "epoch": 1.2359043752819125, "grad_norm": 2.171875, "learning_rate": 1.7366666666666668e-06, "loss": 0.1007, "step": 5480 }, { "epoch": 1.2381596752368065, "grad_norm": 2.375, "learning_rate": 1.7033333333333335e-06, "loss": 0.0947, "step": 5490 }, { "epoch": 1.2404149751917004, "grad_norm": 2.125, "learning_rate": 1.6700000000000003e-06, "loss": 0.0936, "step": 5500 } ], "logging_steps": 10, "max_steps": 6000, "num_input_tokens_seen": 0, "num_train_epochs": 2, "save_steps": 500, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": false }, "attributes": {} } }, "total_flos": 4.057702632259584e+18, "train_batch_size": 1, "trial_name": null, "trial_params": null }