{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 2.9987642455032266,
  "eval_steps": 500,
  "global_step": 2730,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0010984484415762735,
      "grad_norm": 0.13173329830169678,
      "learning_rate": 1.0989010989010988e-06,
      "loss": 0.8751,
      "step": 1
    },
    {
      "epoch": 0.002196896883152547,
      "grad_norm": 0.19401921331882477,
      "learning_rate": 2.1978021978021976e-06,
      "loss": 1.3488,
      "step": 2
    },
    {
      "epoch": 0.0032953453247288205,
      "grad_norm": 0.142131969332695,
      "learning_rate": 3.2967032967032968e-06,
      "loss": 0.8371,
      "step": 3
    },
    {
      "epoch": 0.004393793766305094,
      "grad_norm": 0.1124999076128006,
      "learning_rate": 4.395604395604395e-06,
      "loss": 1.0039,
      "step": 4
    },
    {
      "epoch": 0.005492242207881368,
      "grad_norm": 0.20683947205543518,
      "learning_rate": 5.494505494505494e-06,
      "loss": 1.4423,
      "step": 5
    },
    {
      "epoch": 0.006590690649457641,
      "grad_norm": 0.2007640153169632,
      "learning_rate": 6.5934065934065935e-06,
      "loss": 0.9797,
      "step": 6
    },
    {
      "epoch": 0.007689139091033915,
      "grad_norm": 0.1362670361995697,
      "learning_rate": 7.692307692307692e-06,
      "loss": 1.0443,
      "step": 7
    },
    {
      "epoch": 0.008787587532610188,
      "grad_norm": 0.21512511372566223,
      "learning_rate": 8.79120879120879e-06,
      "loss": 1.2888,
      "step": 8
    },
    {
      "epoch": 0.009886035974186462,
      "grad_norm": 0.13403186202049255,
      "learning_rate": 9.89010989010989e-06,
      "loss": 0.9637,
      "step": 9
    },
    {
      "epoch": 0.010984484415762736,
      "grad_norm": 0.16911157965660095,
      "learning_rate": 1.0989010989010989e-05,
      "loss": 0.8824,
      "step": 10
    },
    {
      "epoch": 0.012082932857339008,
      "grad_norm": 0.19280359148979187,
      "learning_rate": 1.2087912087912087e-05,
      "loss": 0.9843,
      "step": 11
    },
    {
      "epoch": 0.013181381298915282,
      "grad_norm": 0.15720519423484802,
      "learning_rate": 1.3186813186813187e-05,
      "loss": 0.9769,
      "step": 12
    },
    {
      "epoch": 0.014279829740491556,
      "grad_norm": 0.18622402846813202,
      "learning_rate": 1.4285714285714284e-05,
      "loss": 0.903,
      "step": 13
    },
    {
      "epoch": 0.01537827818206783,
      "grad_norm": 0.1491895169019699,
      "learning_rate": 1.5384615384615384e-05,
      "loss": 1.065,
      "step": 14
    },
    {
      "epoch": 0.016476726623644102,
      "grad_norm": 0.16883142292499542,
      "learning_rate": 1.6483516483516482e-05,
      "loss": 0.9916,
      "step": 15
    },
    {
      "epoch": 0.017575175065220376,
      "grad_norm": 0.155453160405159,
      "learning_rate": 1.758241758241758e-05,
      "loss": 1.1048,
      "step": 16
    },
    {
      "epoch": 0.01867362350679665,
      "grad_norm": 0.12869666516780853,
      "learning_rate": 1.868131868131868e-05,
      "loss": 0.9355,
      "step": 17
    },
    {
      "epoch": 0.019772071948372924,
      "grad_norm": 0.18860433995723724,
      "learning_rate": 1.978021978021978e-05,
      "loss": 1.1779,
      "step": 18
    },
    {
      "epoch": 0.020870520389949198,
      "grad_norm": 0.30738529562950134,
      "learning_rate": 2.087912087912088e-05,
      "loss": 0.905,
      "step": 19
    },
    {
      "epoch": 0.021968968831525472,
      "grad_norm": 0.30248674750328064,
      "learning_rate": 2.1978021978021977e-05,
      "loss": 1.0749,
      "step": 20
    },
    {
      "epoch": 0.023067417273101742,
      "grad_norm": 0.17005079984664917,
      "learning_rate": 2.3076923076923076e-05,
      "loss": 1.0141,
      "step": 21
    },
    {
      "epoch": 0.024165865714678016,
      "grad_norm": 0.5497377514839172,
      "learning_rate": 2.4175824175824174e-05,
      "loss": 0.804,
      "step": 22
    },
    {
      "epoch": 0.02526431415625429,
      "grad_norm": 0.23464925587177277,
      "learning_rate": 2.5274725274725276e-05,
      "loss": 1.0592,
      "step": 23
    },
    {
      "epoch": 0.026362762597830564,
      "grad_norm": 0.2906591594219208,
      "learning_rate": 2.6373626373626374e-05,
      "loss": 1.4096,
      "step": 24
    },
    {
      "epoch": 0.027461211039406838,
      "grad_norm": 0.14552968740463257,
      "learning_rate": 2.747252747252747e-05,
      "loss": 0.8827,
      "step": 25
    },
    {
      "epoch": 0.028559659480983112,
      "grad_norm": 0.26139914989471436,
      "learning_rate": 2.8571428571428567e-05,
      "loss": 1.1081,
      "step": 26
    },
    {
      "epoch": 0.029658107922559386,
      "grad_norm": 0.16122505068778992,
      "learning_rate": 2.9670329670329666e-05,
      "loss": 0.8967,
      "step": 27
    },
    {
      "epoch": 0.03075655636413566,
      "grad_norm": 0.19174647331237793,
      "learning_rate": 3.076923076923077e-05,
      "loss": 0.7527,
      "step": 28
    },
    {
      "epoch": 0.031855004805711934,
      "grad_norm": 0.24506032466888428,
      "learning_rate": 3.1868131868131866e-05,
      "loss": 1.0981,
      "step": 29
    },
    {
      "epoch": 0.032953453247288204,
      "grad_norm": 0.18928349018096924,
      "learning_rate": 3.2967032967032964e-05,
      "loss": 1.2955,
      "step": 30
    },
    {
      "epoch": 0.03405190168886448,
      "grad_norm": 0.20482106506824493,
      "learning_rate": 3.406593406593406e-05,
      "loss": 0.886,
      "step": 31
    },
    {
      "epoch": 0.03515035013044075,
      "grad_norm": 0.17304010689258575,
      "learning_rate": 3.516483516483516e-05,
      "loss": 1.0062,
      "step": 32
    },
    {
      "epoch": 0.03624879857201702,
      "grad_norm": 0.17006444931030273,
      "learning_rate": 3.626373626373626e-05,
      "loss": 0.76,
      "step": 33
    },
    {
      "epoch": 0.0373472470135933,
      "grad_norm": 0.16570955514907837,
      "learning_rate": 3.736263736263736e-05,
      "loss": 0.7512,
      "step": 34
    },
    {
      "epoch": 0.03844569545516957,
      "grad_norm": 0.4470347464084625,
      "learning_rate": 3.8461538461538456e-05,
      "loss": 1.051,
      "step": 35
    },
    {
      "epoch": 0.03954414389674585,
      "grad_norm": 0.3013080060482025,
      "learning_rate": 3.956043956043956e-05,
      "loss": 1.1269,
      "step": 36
    },
    {
      "epoch": 0.04064259233832212,
      "grad_norm": 0.33114469051361084,
      "learning_rate": 4.065934065934065e-05,
      "loss": 1.046,
      "step": 37
    },
    {
      "epoch": 0.041741040779898396,
      "grad_norm": 0.3496829867362976,
      "learning_rate": 4.175824175824176e-05,
      "loss": 0.9139,
      "step": 38
    },
    {
      "epoch": 0.042839489221474666,
      "grad_norm": 0.36173877120018005,
      "learning_rate": 4.285714285714285e-05,
      "loss": 1.16,
      "step": 39
    },
    {
      "epoch": 0.043937937663050944,
      "grad_norm": 0.23047995567321777,
      "learning_rate": 4.3956043956043955e-05,
      "loss": 0.8623,
      "step": 40
    },
    {
      "epoch": 0.045036386104627214,
      "grad_norm": 0.33733946084976196,
      "learning_rate": 4.5054945054945046e-05,
      "loss": 0.873,
      "step": 41
    },
    {
      "epoch": 0.046134834546203485,
      "grad_norm": 0.43975624442100525,
      "learning_rate": 4.615384615384615e-05,
      "loss": 0.9374,
      "step": 42
    },
    {
      "epoch": 0.04723328298777976,
      "grad_norm": 0.5429202318191528,
      "learning_rate": 4.725274725274725e-05,
      "loss": 1.0699,
      "step": 43
    },
    {
      "epoch": 0.04833173142935603,
      "grad_norm": 0.39317595958709717,
      "learning_rate": 4.835164835164835e-05,
      "loss": 0.7719,
      "step": 44
    },
    {
      "epoch": 0.04943017987093231,
      "grad_norm": 0.41328710317611694,
      "learning_rate": 4.9450549450549446e-05,
      "loss": 1.112,
      "step": 45
    },
    {
      "epoch": 0.05052862831250858,
      "grad_norm": 0.5977774858474731,
      "learning_rate": 5.054945054945055e-05,
      "loss": 0.9408,
      "step": 46
    },
    {
      "epoch": 0.05162707675408486,
      "grad_norm": 0.6984797716140747,
      "learning_rate": 5.164835164835164e-05,
      "loss": 0.9766,
      "step": 47
    },
    {
      "epoch": 0.05272552519566113,
      "grad_norm": 0.5161548256874084,
      "learning_rate": 5.274725274725275e-05,
      "loss": 1.3705,
      "step": 48
    },
    {
      "epoch": 0.0538239736372374,
      "grad_norm": 0.5750108361244202,
      "learning_rate": 5.384615384615384e-05,
      "loss": 0.9492,
      "step": 49
    },
    {
      "epoch": 0.054922422078813676,
      "grad_norm": 0.7861920595169067,
      "learning_rate": 5.494505494505494e-05,
      "loss": 1.1495,
      "step": 50
    },
    {
      "epoch": 0.05602087052038995,
      "grad_norm": 0.5992287993431091,
      "learning_rate": 5.6043956043956037e-05,
      "loss": 1.2818,
      "step": 51
    },
    {
      "epoch": 0.057119318961966224,
      "grad_norm": 0.5470016598701477,
      "learning_rate": 5.7142857142857135e-05,
      "loss": 1.0385,
      "step": 52
    },
    {
      "epoch": 0.058217767403542495,
      "grad_norm": 0.7035269141197205,
      "learning_rate": 5.824175824175824e-05,
      "loss": 0.785,
      "step": 53
    },
    {
      "epoch": 0.05931621584511877,
      "grad_norm": 0.5253639817237854,
      "learning_rate": 5.934065934065933e-05,
      "loss": 0.6092,
      "step": 54
    },
    {
      "epoch": 0.06041466428669504,
      "grad_norm": 0.5233064293861389,
      "learning_rate": 6.043956043956044e-05,
      "loss": 0.7853,
      "step": 55
    },
    {
      "epoch": 0.06151311272827132,
      "grad_norm": 0.4508589804172516,
      "learning_rate": 6.153846153846154e-05,
      "loss": 0.5737,
      "step": 56
    },
    {
      "epoch": 0.06261156116984759,
      "grad_norm": 1.0521594285964966,
      "learning_rate": 6.263736263736263e-05,
      "loss": 1.0132,
      "step": 57
    },
    {
      "epoch": 0.06371000961142387,
      "grad_norm": 0.3572557866573334,
      "learning_rate": 6.373626373626373e-05,
      "loss": 0.655,
      "step": 58
    },
    {
      "epoch": 0.06480845805300013,
      "grad_norm": 0.600371241569519,
      "learning_rate": 6.483516483516483e-05,
      "loss": 0.8897,
      "step": 59
    },
    {
      "epoch": 0.06590690649457641,
      "grad_norm": 0.6430579423904419,
      "learning_rate": 6.593406593406593e-05,
      "loss": 0.8058,
      "step": 60
    },
    {
      "epoch": 0.06700535493615269,
      "grad_norm": 0.5309410095214844,
      "learning_rate": 6.703296703296703e-05,
      "loss": 0.7312,
      "step": 61
    },
    {
      "epoch": 0.06810380337772896,
      "grad_norm": 0.46225860714912415,
      "learning_rate": 6.813186813186813e-05,
      "loss": 0.8607,
      "step": 62
    },
    {
      "epoch": 0.06920225181930523,
      "grad_norm": 0.8889493346214294,
      "learning_rate": 6.923076923076922e-05,
      "loss": 0.7791,
      "step": 63
    },
    {
      "epoch": 0.0703007002608815,
      "grad_norm": 0.5721575617790222,
      "learning_rate": 7.032967032967032e-05,
      "loss": 0.9426,
      "step": 64
    },
    {
      "epoch": 0.07139914870245778,
      "grad_norm": 0.8355056047439575,
      "learning_rate": 7.142857142857142e-05,
      "loss": 0.621,
      "step": 65
    },
    {
      "epoch": 0.07249759714403405,
      "grad_norm": 1.3048707246780396,
      "learning_rate": 7.252747252747252e-05,
      "loss": 0.8869,
      "step": 66
    },
    {
      "epoch": 0.07359604558561032,
      "grad_norm": 0.5817797183990479,
      "learning_rate": 7.362637362637362e-05,
      "loss": 0.8385,
      "step": 67
    },
    {
      "epoch": 0.0746944940271866,
      "grad_norm": 1.2051454782485962,
      "learning_rate": 7.472527472527472e-05,
      "loss": 0.7566,
      "step": 68
    },
    {
      "epoch": 0.07579294246876288,
      "grad_norm": 0.8565987944602966,
      "learning_rate": 7.582417582417581e-05,
      "loss": 0.8374,
      "step": 69
    },
    {
      "epoch": 0.07689139091033914,
      "grad_norm": 0.7503894567489624,
      "learning_rate": 7.692307692307691e-05,
      "loss": 0.6749,
      "step": 70
    },
    {
      "epoch": 0.07798983935191542,
      "grad_norm": 0.6298589706420898,
      "learning_rate": 7.802197802197802e-05,
      "loss": 0.9096,
      "step": 71
    },
    {
      "epoch": 0.0790882877934917,
      "grad_norm": 0.8327789306640625,
      "learning_rate": 7.912087912087912e-05,
      "loss": 0.9836,
      "step": 72
    },
    {
      "epoch": 0.08018673623506796,
      "grad_norm": 1.0001461505889893,
      "learning_rate": 8.021978021978021e-05,
      "loss": 0.6917,
      "step": 73
    },
    {
      "epoch": 0.08128518467664424,
      "grad_norm": 0.8373435735702515,
      "learning_rate": 8.13186813186813e-05,
      "loss": 0.7703,
      "step": 74
    },
    {
      "epoch": 0.08238363311822051,
      "grad_norm": 0.9785758256912231,
      "learning_rate": 8.241758241758242e-05,
      "loss": 0.8004,
      "step": 75
    },
    {
      "epoch": 0.08348208155979679,
      "grad_norm": 0.8900540471076965,
      "learning_rate": 8.351648351648352e-05,
      "loss": 0.8238,
      "step": 76
    },
    {
      "epoch": 0.08458053000137306,
      "grad_norm": 0.7411159873008728,
      "learning_rate": 8.46153846153846e-05,
      "loss": 1.0364,
      "step": 77
    },
    {
      "epoch": 0.08567897844294933,
      "grad_norm": 0.4975040555000305,
      "learning_rate": 8.57142857142857e-05,
      "loss": 0.4814,
      "step": 78
    },
    {
      "epoch": 0.08677742688452561,
      "grad_norm": 0.6698398590087891,
      "learning_rate": 8.681318681318681e-05,
      "loss": 0.6828,
      "step": 79
    },
    {
      "epoch": 0.08787587532610189,
      "grad_norm": 0.5883696675300598,
      "learning_rate": 8.791208791208791e-05,
      "loss": 0.92,
      "step": 80
    },
    {
      "epoch": 0.08897432376767815,
      "grad_norm": 0.9050906896591187,
      "learning_rate": 8.901098901098901e-05,
      "loss": 0.7229,
      "step": 81
    },
    {
      "epoch": 0.09007277220925443,
      "grad_norm": 0.5996706485748291,
      "learning_rate": 9.010989010989009e-05,
      "loss": 0.699,
      "step": 82
    },
    {
      "epoch": 0.0911712206508307,
      "grad_norm": 2.0782630443573,
      "learning_rate": 9.120879120879119e-05,
      "loss": 1.2118,
      "step": 83
    },
    {
      "epoch": 0.09226966909240697,
      "grad_norm": 0.759730875492096,
      "learning_rate": 9.23076923076923e-05,
      "loss": 0.6397,
      "step": 84
    },
    {
      "epoch": 0.09336811753398325,
      "grad_norm": 1.1138097047805786,
      "learning_rate": 9.34065934065934e-05,
      "loss": 0.8973,
      "step": 85
    },
    {
      "epoch": 0.09446656597555952,
      "grad_norm": 0.9852680563926697,
      "learning_rate": 9.45054945054945e-05,
      "loss": 1.0733,
      "step": 86
    },
    {
      "epoch": 0.0955650144171358,
      "grad_norm": 0.8435002565383911,
      "learning_rate": 9.560439560439558e-05,
      "loss": 0.8977,
      "step": 87
    },
    {
      "epoch": 0.09666346285871207,
      "grad_norm": 1.3031998872756958,
      "learning_rate": 9.67032967032967e-05,
      "loss": 0.9852,
      "step": 88
    },
    {
      "epoch": 0.09776191130028834,
      "grad_norm": 0.6343463063240051,
      "learning_rate": 9.78021978021978e-05,
      "loss": 0.6147,
      "step": 89
    },
    {
      "epoch": 0.09886035974186462,
      "grad_norm": 0.7061794996261597,
      "learning_rate": 9.890109890109889e-05,
      "loss": 0.7437,
      "step": 90
    },
    {
      "epoch": 0.09995880818344088,
      "grad_norm": 1.2231422662734985,
      "learning_rate": 9.999999999999999e-05,
      "loss": 0.7944,
      "step": 91
    },
    {
      "epoch": 0.10105725662501716,
      "grad_norm": 0.7199704647064209,
      "learning_rate": 0.0001010989010989011,
      "loss": 0.7355,
      "step": 92
    },
    {
      "epoch": 0.10215570506659344,
      "grad_norm": 1.2740516662597656,
      "learning_rate": 0.00010219780219780219,
      "loss": 0.7622,
      "step": 93
    },
    {
      "epoch": 0.10325415350816972,
      "grad_norm": 0.7762659788131714,
      "learning_rate": 0.00010329670329670329,
      "loss": 0.7074,
      "step": 94
    },
    {
      "epoch": 0.10435260194974598,
      "grad_norm": 0.6618936061859131,
      "learning_rate": 0.00010439560439560438,
      "loss": 0.7667,
      "step": 95
    },
    {
      "epoch": 0.10545105039132226,
      "grad_norm": 0.7244533896446228,
      "learning_rate": 0.0001054945054945055,
      "loss": 0.6451,
      "step": 96
    },
    {
      "epoch": 0.10654949883289853,
      "grad_norm": 0.6391953229904175,
      "learning_rate": 0.0001065934065934066,
      "loss": 0.5637,
      "step": 97
    },
    {
      "epoch": 0.1076479472744748,
      "grad_norm": 0.6992442607879639,
      "learning_rate": 0.00010769230769230768,
      "loss": 0.7112,
      "step": 98
    },
    {
      "epoch": 0.10874639571605108,
      "grad_norm": 1.0820791721343994,
      "learning_rate": 0.00010879120879120878,
      "loss": 0.9199,
      "step": 99
    },
    {
      "epoch": 0.10984484415762735,
      "grad_norm": 0.6012185215950012,
      "learning_rate": 0.00010989010989010988,
      "loss": 0.5574,
      "step": 100
    },
    {
      "epoch": 0.11094329259920363,
      "grad_norm": 0.822455644607544,
      "learning_rate": 0.00011098901098901099,
      "loss": 0.5185,
      "step": 101
    },
    {
      "epoch": 0.1120417410407799,
      "grad_norm": 0.9417555332183838,
      "learning_rate": 0.00011208791208791207,
      "loss": 0.6883,
      "step": 102
    },
    {
      "epoch": 0.11314018948235617,
      "grad_norm": 1.0258208513259888,
      "learning_rate": 0.00011318681318681317,
      "loss": 0.7588,
      "step": 103
    },
    {
      "epoch": 0.11423863792393245,
      "grad_norm": 1.904179573059082,
      "learning_rate": 0.00011428571428571427,
      "loss": 0.7425,
      "step": 104
    },
    {
      "epoch": 0.11533708636550873,
      "grad_norm": 1.5453238487243652,
      "learning_rate": 0.00011538461538461538,
      "loss": 0.658,
      "step": 105
    },
    {
      "epoch": 0.11643553480708499,
      "grad_norm": 0.8801619410514832,
      "learning_rate": 0.00011648351648351648,
      "loss": 0.8432,
      "step": 106
    },
    {
      "epoch": 0.11753398324866127,
      "grad_norm": 0.8567579388618469,
      "learning_rate": 0.00011758241758241756,
      "loss": 0.5904,
      "step": 107
    },
    {
      "epoch": 0.11863243169023754,
      "grad_norm": 0.9351131319999695,
      "learning_rate": 0.00011868131868131866,
      "loss": 0.7228,
      "step": 108
    },
    {
      "epoch": 0.11973088013181381,
      "grad_norm": 0.8817545175552368,
      "learning_rate": 0.00011978021978021978,
      "loss": 0.7853,
      "step": 109
    },
    {
      "epoch": 0.12082932857339009,
      "grad_norm": 1.0484094619750977,
      "learning_rate": 0.00012087912087912087,
      "loss": 0.7049,
      "step": 110
    },
    {
      "epoch": 0.12192777701496636,
      "grad_norm": 1.80658757686615,
      "learning_rate": 0.00012197802197802197,
      "loss": 0.669,
      "step": 111
    },
    {
      "epoch": 0.12302622545654264,
      "grad_norm": 1.5311473608016968,
      "learning_rate": 0.00012307692307692307,
      "loss": 0.8342,
      "step": 112
    },
    {
      "epoch": 0.1241246738981189,
      "grad_norm": 0.8968105912208557,
      "learning_rate": 0.00012417582417582416,
      "loss": 0.7199,
      "step": 113
    },
    {
      "epoch": 0.12522312233969518,
      "grad_norm": 0.6149659156799316,
      "learning_rate": 0.00012527472527472527,
      "loss": 0.4961,
      "step": 114
    },
    {
      "epoch": 0.12632157078127146,
      "grad_norm": 8.04592227935791,
      "learning_rate": 0.00012637362637362635,
      "loss": 0.7515,
      "step": 115
    },
    {
      "epoch": 0.12742001922284774,
      "grad_norm": 0.7797659039497375,
      "learning_rate": 0.00012747252747252746,
      "loss": 0.7281,
      "step": 116
    },
    {
      "epoch": 0.128518467664424,
      "grad_norm": 0.6414046883583069,
      "learning_rate": 0.00012857142857142855,
      "loss": 0.6655,
      "step": 117
    },
    {
      "epoch": 0.12961691610600026,
      "grad_norm": 4.678529262542725,
      "learning_rate": 0.00012967032967032966,
      "loss": 0.9165,
      "step": 118
    },
    {
      "epoch": 0.13071536454757654,
      "grad_norm": 0.8540724515914917,
      "learning_rate": 0.00013076923076923077,
      "loss": 0.7064,
      "step": 119
    },
    {
      "epoch": 0.13181381298915282,
      "grad_norm": 1.057844638824463,
      "learning_rate": 0.00013186813186813186,
      "loss": 0.6617,
      "step": 120
    },
    {
      "epoch": 0.1329122614307291,
      "grad_norm": 0.8429140448570251,
      "learning_rate": 0.00013296703296703294,
      "loss": 0.8156,
      "step": 121
    },
    {
      "epoch": 0.13401070987230537,
      "grad_norm": 0.9944230914115906,
      "learning_rate": 0.00013406593406593405,
      "loss": 0.5851,
      "step": 122
    },
    {
      "epoch": 0.13510915831388165,
      "grad_norm": 0.6582810878753662,
      "learning_rate": 0.00013516483516483517,
      "loss": 0.5819,
      "step": 123
    },
    {
      "epoch": 0.13620760675545793,
      "grad_norm": 1.3106951713562012,
      "learning_rate": 0.00013626373626373625,
      "loss": 0.7598,
      "step": 124
    },
    {
      "epoch": 0.13730605519703418,
      "grad_norm": 1.0464080572128296,
      "learning_rate": 0.00013736263736263734,
      "loss": 0.7241,
      "step": 125
    },
    {
      "epoch": 0.13840450363861045,
      "grad_norm": 0.8519262075424194,
      "learning_rate": 0.00013846153846153845,
      "loss": 0.7001,
      "step": 126
    },
    {
      "epoch": 0.13950295208018673,
      "grad_norm": 1.2764228582382202,
      "learning_rate": 0.00013956043956043956,
      "loss": 0.7152,
      "step": 127
    },
    {
      "epoch": 0.140601400521763,
      "grad_norm": 1.157472014427185,
      "learning_rate": 0.00014065934065934064,
      "loss": 0.697,
      "step": 128
    },
    {
      "epoch": 0.1416998489633393,
      "grad_norm": 0.7153847813606262,
      "learning_rate": 0.00014175824175824173,
      "loss": 0.6897,
      "step": 129
    },
    {
      "epoch": 0.14279829740491556,
      "grad_norm": 0.7254152297973633,
      "learning_rate": 0.00014285714285714284,
      "loss": 0.5263,
      "step": 130
    },
    {
      "epoch": 0.14389674584649184,
      "grad_norm": 1.3370522260665894,
      "learning_rate": 0.00014395604395604395,
      "loss": 0.7587,
      "step": 131
    },
    {
      "epoch": 0.1449951942880681,
      "grad_norm": 1.092029333114624,
      "learning_rate": 0.00014505494505494504,
      "loss": 0.8674,
      "step": 132
    },
    {
      "epoch": 0.14609364272964437,
      "grad_norm": 0.6123655438423157,
      "learning_rate": 0.00014615384615384615,
      "loss": 0.7163,
      "step": 133
    },
    {
      "epoch": 0.14719209117122065,
      "grad_norm": 0.8476639986038208,
      "learning_rate": 0.00014725274725274723,
      "loss": 0.7241,
      "step": 134
    },
    {
      "epoch": 0.14829053961279692,
      "grad_norm": 0.9986979961395264,
      "learning_rate": 0.00014835164835164835,
      "loss": 0.6229,
      "step": 135
    },
    {
      "epoch": 0.1493889880543732,
      "grad_norm": 0.8208728432655334,
      "learning_rate": 0.00014945054945054943,
      "loss": 0.5441,
      "step": 136
    },
    {
      "epoch": 0.15048743649594948,
      "grad_norm": 0.742091953754425,
      "learning_rate": 0.00015054945054945054,
      "loss": 0.6047,
      "step": 137
    },
    {
      "epoch": 0.15158588493752576,
      "grad_norm": 1.6566306352615356,
      "learning_rate": 0.00015164835164835163,
      "loss": 0.6381,
      "step": 138
    },
    {
      "epoch": 0.152684333379102,
      "grad_norm": 0.7735741138458252,
      "learning_rate": 0.0001527472527472527,
      "loss": 0.5842,
      "step": 139
    },
    {
      "epoch": 0.15378278182067828,
      "grad_norm": 0.7116795778274536,
      "learning_rate": 0.00015384615384615382,
      "loss": 0.7117,
      "step": 140
    },
    {
      "epoch": 0.15488123026225456,
      "grad_norm": 0.6912885904312134,
      "learning_rate": 0.00015494505494505494,
      "loss": 0.763,
      "step": 141
    },
    {
      "epoch": 0.15597967870383084,
      "grad_norm": 1.0789505243301392,
      "learning_rate": 0.00015604395604395605,
      "loss": 0.5534,
      "step": 142
    },
    {
      "epoch": 0.15707812714540711,
      "grad_norm": 1.0304033756256104,
      "learning_rate": 0.00015714285714285713,
      "loss": 0.4961,
      "step": 143
    },
    {
      "epoch": 0.1581765755869834,
      "grad_norm": 1.0216940641403198,
      "learning_rate": 0.00015824175824175824,
      "loss": 0.8167,
      "step": 144
    },
    {
      "epoch": 0.15927502402855967,
      "grad_norm": 0.7767283916473389,
      "learning_rate": 0.00015934065934065933,
      "loss": 0.649,
      "step": 145
    },
    {
      "epoch": 0.16037347247013592,
      "grad_norm": 0.6125204563140869,
      "learning_rate": 0.00016043956043956041,
      "loss": 0.6596,
      "step": 146
    },
    {
      "epoch": 0.1614719209117122,
      "grad_norm": 2.113314390182495,
      "learning_rate": 0.00016153846153846153,
      "loss": 0.6825,
      "step": 147
    },
    {
      "epoch": 0.16257036935328847,
      "grad_norm": 1.3892889022827148,
      "learning_rate": 0.0001626373626373626,
      "loss": 0.5162,
      "step": 148
    },
    {
      "epoch": 0.16366881779486475,
      "grad_norm": 1.2544710636138916,
      "learning_rate": 0.0001637362637362637,
      "loss": 0.5992,
      "step": 149
    },
    {
      "epoch": 0.16476726623644103,
      "grad_norm": 1.2952786684036255,
      "learning_rate": 0.00016483516483516484,
      "loss": 0.5968,
      "step": 150
    },
    {
      "epoch": 0.1658657146780173,
      "grad_norm": 0.9910382628440857,
      "learning_rate": 0.00016593406593406592,
      "loss": 0.6138,
      "step": 151
    },
    {
      "epoch": 0.16696416311959358,
      "grad_norm": 0.7291635870933533,
      "learning_rate": 0.00016703296703296703,
      "loss": 0.8957,
      "step": 152
    },
    {
      "epoch": 0.16806261156116986,
      "grad_norm": 0.7290105819702148,
      "learning_rate": 0.00016813186813186812,
      "loss": 0.4864,
      "step": 153
    },
    {
      "epoch": 0.1691610600027461,
      "grad_norm": 1.1888444423675537,
      "learning_rate": 0.0001692307692307692,
      "loss": 0.913,
      "step": 154
    },
    {
      "epoch": 0.1702595084443224,
      "grad_norm": 0.8183659315109253,
      "learning_rate": 0.0001703296703296703,
      "loss": 0.6405,
      "step": 155
    },
    {
      "epoch": 0.17135795688589867,
      "grad_norm": 0.8549530506134033,
      "learning_rate": 0.0001714285714285714,
      "loss": 0.7019,
      "step": 156
    },
    {
      "epoch": 0.17245640532747494,
      "grad_norm": 0.5960697531700134,
      "learning_rate": 0.0001725274725274725,
      "loss": 0.6728,
      "step": 157
    },
    {
      "epoch": 0.17355485376905122,
      "grad_norm": 0.6802973747253418,
      "learning_rate": 0.00017362637362637362,
      "loss": 0.6462,
      "step": 158
    },
    {
      "epoch": 0.1746533022106275,
      "grad_norm": 0.5056049823760986,
      "learning_rate": 0.00017472527472527473,
      "loss": 0.5155,
      "step": 159
    },
    {
      "epoch": 0.17575175065220378,
      "grad_norm": 0.8181887865066528,
      "learning_rate": 0.00017582417582417582,
      "loss": 0.6631,
      "step": 160
    },
    {
      "epoch": 0.17685019909378003,
      "grad_norm": 0.5748574137687683,
      "learning_rate": 0.0001769230769230769,
      "loss": 0.5807,
      "step": 161
    },
    {
      "epoch": 0.1779486475353563,
      "grad_norm": 0.8585043549537659,
      "learning_rate": 0.00017802197802197802,
      "loss": 0.5412,
      "step": 162
    },
    {
      "epoch": 0.17904709597693258,
      "grad_norm": 0.8763203620910645,
      "learning_rate": 0.0001791208791208791,
      "loss": 1.0859,
      "step": 163
    },
    {
      "epoch": 0.18014554441850886,
      "grad_norm": 0.7327267527580261,
      "learning_rate": 0.00018021978021978018,
      "loss": 0.8034,
      "step": 164
    },
    {
      "epoch": 0.18124399286008513,
      "grad_norm": 0.6813991665840149,
      "learning_rate": 0.0001813186813186813,
      "loss": 0.9236,
      "step": 165
    },
    {
      "epoch": 0.1823424413016614,
      "grad_norm": 2.9234185218811035,
      "learning_rate": 0.00018241758241758238,
      "loss": 0.9148,
      "step": 166
    },
    {
      "epoch": 0.1834408897432377,
      "grad_norm": 0.8117207884788513,
      "learning_rate": 0.00018351648351648352,
      "loss": 1.0514,
      "step": 167
    },
    {
      "epoch": 0.18453933818481394,
      "grad_norm": 0.6485300064086914,
      "learning_rate": 0.0001846153846153846,
      "loss": 0.4764,
      "step": 168
    },
    {
      "epoch": 0.18563778662639022,
      "grad_norm": 0.43059054017066956,
      "learning_rate": 0.00018571428571428572,
      "loss": 0.6289,
      "step": 169
    },
    {
      "epoch": 0.1867362350679665,
      "grad_norm": 1.007095456123352,
      "learning_rate": 0.0001868131868131868,
      "loss": 0.5889,
      "step": 170
    },
    {
      "epoch": 0.18783468350954277,
      "grad_norm": 1.6733218431472778,
      "learning_rate": 0.0001879120879120879,
      "loss": 0.8036,
      "step": 171
    },
    {
      "epoch": 0.18893313195111905,
      "grad_norm": 0.7533760666847229,
      "learning_rate": 0.000189010989010989,
      "loss": 0.7282,
      "step": 172
    },
    {
      "epoch": 0.19003158039269533,
      "grad_norm": 0.45892444252967834,
      "learning_rate": 0.00019010989010989008,
      "loss": 0.6273,
      "step": 173
    },
    {
      "epoch": 0.1911300288342716,
      "grad_norm": 0.54690021276474,
      "learning_rate": 0.00019120879120879117,
      "loss": 0.669,
      "step": 174
    },
    {
      "epoch": 0.19222847727584785,
      "grad_norm": 0.7361836433410645,
      "learning_rate": 0.0001923076923076923,
      "loss": 0.8945,
      "step": 175
    },
    {
      "epoch": 0.19332692571742413,
      "grad_norm": 0.5876324772834778,
      "learning_rate": 0.0001934065934065934,
      "loss": 0.7557,
      "step": 176
    },
    {
      "epoch": 0.1944253741590004,
      "grad_norm": 0.7753897309303284,
      "learning_rate": 0.0001945054945054945,
      "loss": 0.7904,
      "step": 177
    },
    {
      "epoch": 0.19552382260057669,
      "grad_norm": 0.6244968771934509,
      "learning_rate": 0.0001956043956043956,
      "loss": 0.7617,
      "step": 178
    },
    {
      "epoch": 0.19662227104215296,
      "grad_norm": 0.6300948262214661,
      "learning_rate": 0.00019670329670329667,
      "loss": 0.5884,
      "step": 179
    },
    {
      "epoch": 0.19772071948372924,
      "grad_norm": 0.5845354795455933,
      "learning_rate": 0.00019780219780219779,
      "loss": 0.8034,
      "step": 180
    },
    {
      "epoch": 0.19881916792530552,
      "grad_norm": 0.5231277942657471,
      "learning_rate": 0.00019890109890109887,
      "loss": 0.5302,
      "step": 181
    },
    {
      "epoch": 0.19991761636688177,
      "grad_norm": 0.8393481969833374,
      "learning_rate": 0.00019999999999999998,
      "loss": 0.6376,
      "step": 182
    },
    {
      "epoch": 0.20101606480845804,
      "grad_norm": 0.5777038335800171,
      "learning_rate": 0.00020109890109890107,
      "loss": 0.5777,
      "step": 183
    },
    {
      "epoch": 0.20211451325003432,
      "grad_norm": 0.7751956582069397,
      "learning_rate": 0.0002021978021978022,
      "loss": 0.8368,
      "step": 184
    },
    {
      "epoch": 0.2032129616916106,
      "grad_norm": 1.5582187175750732,
      "learning_rate": 0.0002032967032967033,
      "loss": 0.5087,
      "step": 185
    },
    {
      "epoch": 0.20431141013318688,
      "grad_norm": 0.8304231762886047,
      "learning_rate": 0.00020439560439560438,
      "loss": 0.5512,
      "step": 186
    },
    {
      "epoch": 0.20540985857476315,
      "grad_norm": 0.8545000553131104,
      "learning_rate": 0.0002054945054945055,
      "loss": 1.2533,
      "step": 187
    },
    {
      "epoch": 0.20650830701633943,
      "grad_norm": 0.4891647696495056,
      "learning_rate": 0.00020659340659340657,
      "loss": 0.5738,
      "step": 188
    },
    {
      "epoch": 0.20760675545791568,
      "grad_norm": 0.7159665822982788,
      "learning_rate": 0.00020769230769230766,
      "loss": 0.9266,
      "step": 189
    },
    {
      "epoch": 0.20870520389949196,
      "grad_norm": 0.5053237080574036,
      "learning_rate": 0.00020879120879120877,
      "loss": 0.4574,
      "step": 190
    },
    {
      "epoch": 0.20980365234106824,
      "grad_norm": 0.728336751461029,
      "learning_rate": 0.00020989010989010985,
      "loss": 0.6871,
      "step": 191
    },
    {
      "epoch": 0.2109021007826445,
      "grad_norm": 0.8593311309814453,
      "learning_rate": 0.000210989010989011,
      "loss": 0.6788,
      "step": 192
    },
    {
      "epoch": 0.2120005492242208,
      "grad_norm": 1.247111201286316,
      "learning_rate": 0.00021208791208791208,
      "loss": 0.5428,
      "step": 193
    },
    {
      "epoch": 0.21309899766579707,
      "grad_norm": 0.6636946201324463,
      "learning_rate": 0.0002131868131868132,
      "loss": 0.7935,
      "step": 194
    },
    {
      "epoch": 0.21419744610737335,
      "grad_norm": 0.5811622738838196,
      "learning_rate": 0.00021428571428571427,
      "loss": 0.4322,
      "step": 195
    },
    {
      "epoch": 0.2152958945489496,
      "grad_norm": 0.5329126715660095,
      "learning_rate": 0.00021538461538461536,
      "loss": 0.7037,
      "step": 196
    },
    {
      "epoch": 0.21639434299052587,
      "grad_norm": 1.730969786643982,
      "learning_rate": 0.00021648351648351647,
      "loss": 1.0315,
      "step": 197
    },
    {
      "epoch": 0.21749279143210215,
      "grad_norm": 0.5242175459861755,
      "learning_rate": 0.00021758241758241756,
      "loss": 0.9285,
      "step": 198
    },
    {
      "epoch": 0.21859123987367843,
      "grad_norm": 0.4745596945285797,
      "learning_rate": 0.00021868131868131864,
      "loss": 0.5414,
      "step": 199
    },
    {
      "epoch": 0.2196896883152547,
      "grad_norm": 0.8693228363990784,
      "learning_rate": 0.00021978021978021975,
      "loss": 0.4576,
      "step": 200
    },
    {
      "epoch": 0.22078813675683098,
      "grad_norm": 0.7073357105255127,
      "learning_rate": 0.00022087912087912086,
      "loss": 0.778,
      "step": 201
    },
    {
      "epoch": 0.22188658519840726,
      "grad_norm": 0.535009503364563,
      "learning_rate": 0.00022197802197802198,
      "loss": 0.7734,
      "step": 202
    },
    {
      "epoch": 0.2229850336399835,
      "grad_norm": 0.5862578749656677,
      "learning_rate": 0.00022307692307692306,
      "loss": 0.8612,
      "step": 203
    },
    {
      "epoch": 0.2240834820815598,
      "grad_norm": 0.5167233943939209,
      "learning_rate": 0.00022417582417582415,
      "loss": 0.6122,
      "step": 204
    },
    {
      "epoch": 0.22518193052313606,
      "grad_norm": 0.8982027769088745,
      "learning_rate": 0.00022527472527472526,
      "loss": 0.8905,
      "step": 205
    },
    {
      "epoch": 0.22628037896471234,
      "grad_norm": 0.7311340570449829,
      "learning_rate": 0.00022637362637362634,
      "loss": 1.0151,
      "step": 206
    },
    {
      "epoch": 0.22737882740628862,
      "grad_norm": 0.45674124360084534,
      "learning_rate": 0.00022747252747252745,
      "loss": 0.7056,
      "step": 207
    },
    {
      "epoch": 0.2284772758478649,
      "grad_norm": 0.6916844844818115,
      "learning_rate": 0.00022857142857142854,
      "loss": 0.5977,
      "step": 208
    },
    {
      "epoch": 0.22957572428944117,
      "grad_norm": 0.6632958650588989,
      "learning_rate": 0.00022967032967032962,
      "loss": 0.8228,
      "step": 209
    },
    {
      "epoch": 0.23067417273101745,
      "grad_norm": 0.3243491053581238,
      "learning_rate": 0.00023076923076923076,
      "loss": 0.4823,
      "step": 210
    },
    {
      "epoch": 0.2317726211725937,
      "grad_norm": 0.45630499720573425,
      "learning_rate": 0.00023186813186813185,
      "loss": 0.7206,
      "step": 211
    },
    {
      "epoch": 0.23287106961416998,
      "grad_norm": 0.6726184487342834,
      "learning_rate": 0.00023296703296703296,
      "loss": 0.8211,
      "step": 212
    },
    {
      "epoch": 0.23396951805574626,
      "grad_norm": 0.45092982053756714,
      "learning_rate": 0.00023406593406593405,
      "loss": 0.6812,
      "step": 213
    },
    {
      "epoch": 0.23506796649732253,
      "grad_norm": 0.5624651312828064,
      "learning_rate": 0.00023516483516483513,
      "loss": 0.726,
      "step": 214
    },
    {
      "epoch": 0.2361664149388988,
      "grad_norm": 1.1685765981674194,
      "learning_rate": 0.00023626373626373624,
      "loss": 0.7906,
      "step": 215
    },
    {
      "epoch": 0.2372648633804751,
      "grad_norm": 0.581599771976471,
      "learning_rate": 0.00023736263736263733,
      "loss": 0.7049,
      "step": 216
    },
    {
      "epoch": 0.23836331182205137,
      "grad_norm": 0.7660847902297974,
      "learning_rate": 0.00023846153846153844,
      "loss": 0.6105,
      "step": 217
    },
    {
      "epoch": 0.23946176026362762,
      "grad_norm": 0.5126472115516663,
      "learning_rate": 0.00023956043956043955,
      "loss": 0.7134,
      "step": 218
    },
    {
      "epoch": 0.2405602087052039,
      "grad_norm": 0.48460498452186584,
      "learning_rate": 0.00024065934065934066,
      "loss": 0.5578,
      "step": 219
    },
    {
      "epoch": 0.24165865714678017,
      "grad_norm": 0.41463029384613037,
      "learning_rate": 0.00024175824175824175,
      "loss": 0.5589,
      "step": 220
    },
    {
      "epoch": 0.24275710558835645,
      "grad_norm": 2.0703623294830322,
      "learning_rate": 0.00024285714285714283,
      "loss": 0.7128,
      "step": 221
    },
    {
      "epoch": 0.24385555402993273,
      "grad_norm": 1.5641820430755615,
      "learning_rate": 0.00024395604395604394,
      "loss": 0.4439,
      "step": 222
    },
    {
      "epoch": 0.244954002471509,
      "grad_norm": 0.34634652733802795,
      "learning_rate": 0.00024505494505494503,
      "loss": 0.5389,
      "step": 223
    },
    {
      "epoch": 0.24605245091308528,
      "grad_norm": 0.5669183135032654,
      "learning_rate": 0.00024615384615384614,
      "loss": 0.5699,
      "step": 224
    },
    {
      "epoch": 0.24715089935466153,
      "grad_norm": 0.6459633111953735,
      "learning_rate": 0.0002472527472527472,
      "loss": 0.7904,
      "step": 225
    },
    {
      "epoch": 0.2482493477962378,
      "grad_norm": 0.9719502925872803,
      "learning_rate": 0.0002483516483516483,
      "loss": 0.7354,
      "step": 226
    },
    {
      "epoch": 0.24934779623781408,
      "grad_norm": 0.7433357834815979,
      "learning_rate": 0.0002494505494505494,
      "loss": 0.5772,
      "step": 227
    },
    {
      "epoch": 0.25044624467939036,
      "grad_norm": 0.42272481322288513,
      "learning_rate": 0.00025054945054945053,
      "loss": 0.5609,
      "step": 228
    },
    {
      "epoch": 0.2515446931209666,
      "grad_norm": 1.2868828773498535,
      "learning_rate": 0.00025164835164835165,
      "loss": 0.5775,
      "step": 229
    },
    {
      "epoch": 0.2526431415625429,
      "grad_norm": 0.40398430824279785,
      "learning_rate": 0.0002527472527472527,
      "loss": 0.742,
      "step": 230
    },
    {
      "epoch": 0.25374159000411917,
      "grad_norm": 0.46501678228378296,
      "learning_rate": 0.0002538461538461538,
      "loss": 0.69,
      "step": 231
    },
    {
      "epoch": 0.25484003844569547,
      "grad_norm": 0.46631869673728943,
      "learning_rate": 0.00025494505494505493,
      "loss": 0.7712,
      "step": 232
    },
    {
      "epoch": 0.2559384868872717,
      "grad_norm": 0.6761367321014404,
      "learning_rate": 0.000256043956043956,
      "loss": 0.64,
      "step": 233
    },
    {
      "epoch": 0.257036935328848,
      "grad_norm": 0.6253519654273987,
      "learning_rate": 0.0002571428571428571,
      "loss": 0.5499,
      "step": 234
    },
    {
      "epoch": 0.2581353837704243,
      "grad_norm": 1.0556268692016602,
      "learning_rate": 0.0002582417582417582,
      "loss": 0.869,
      "step": 235
    },
    {
      "epoch": 0.2592338322120005,
      "grad_norm": 0.4816044867038727,
      "learning_rate": 0.0002593406593406593,
      "loss": 0.6061,
      "step": 236
    },
    {
      "epoch": 0.26033228065357683,
      "grad_norm": 1.1049383878707886,
      "learning_rate": 0.00026043956043956043,
      "loss": 0.7695,
      "step": 237
    },
    {
      "epoch": 0.2614307290951531,
      "grad_norm": 0.44643181562423706,
      "learning_rate": 0.00026153846153846154,
      "loss": 0.7849,
      "step": 238
    },
    {
      "epoch": 0.2625291775367294,
      "grad_norm": 0.5231640338897705,
      "learning_rate": 0.0002626373626373626,
      "loss": 0.8033,
      "step": 239
    },
    {
      "epoch": 0.26362762597830564,
      "grad_norm": 0.5537316799163818,
      "learning_rate": 0.0002637362637362637,
      "loss": 0.7317,
      "step": 240
    },
    {
      "epoch": 0.26472607441988194,
      "grad_norm": 0.42069998383522034,
      "learning_rate": 0.0002648351648351648,
      "loss": 0.6325,
      "step": 241
    },
    {
      "epoch": 0.2658245228614582,
      "grad_norm": 0.8009732365608215,
      "learning_rate": 0.0002659340659340659,
      "loss": 0.6589,
      "step": 242
    },
    {
      "epoch": 0.26692297130303444,
      "grad_norm": 1.2626444101333618,
      "learning_rate": 0.000267032967032967,
      "loss": 0.5845,
      "step": 243
    },
    {
      "epoch": 0.26802141974461074,
      "grad_norm": 0.4783913195133209,
      "learning_rate": 0.0002681318681318681,
      "loss": 0.8844,
      "step": 244
    },
    {
      "epoch": 0.269119868186187,
      "grad_norm": 1.098160982131958,
      "learning_rate": 0.0002692307692307692,
      "loss": 0.6134,
      "step": 245
    },
    {
      "epoch": 0.2702183166277633,
      "grad_norm": 1.0397273302078247,
      "learning_rate": 0.00027032967032967033,
      "loss": 0.7861,
      "step": 246
    },
    {
      "epoch": 0.27131676506933955,
      "grad_norm": 0.9729229807853699,
      "learning_rate": 0.0002714285714285714,
      "loss": 0.7691,
      "step": 247
    },
    {
      "epoch": 0.27241521351091585,
      "grad_norm": 0.44837963581085205,
      "learning_rate": 0.0002725274725274725,
      "loss": 0.9414,
      "step": 248
    },
    {
      "epoch": 0.2735136619524921,
      "grad_norm": 1.4863499402999878,
      "learning_rate": 0.0002736263736263736,
      "loss": 0.5825,
      "step": 249
    },
    {
      "epoch": 0.27461211039406835,
      "grad_norm": 0.5948237180709839,
      "learning_rate": 0.00027472527472527467,
      "loss": 0.4934,
      "step": 250
    },
    {
      "epoch": 0.27571055883564466,
      "grad_norm": 0.5448721051216125,
      "learning_rate": 0.0002758241758241758,
      "loss": 0.6295,
      "step": 251
    },
    {
      "epoch": 0.2768090072772209,
      "grad_norm": 0.4309394657611847,
      "learning_rate": 0.0002769230769230769,
      "loss": 0.6561,
      "step": 252
    },
    {
      "epoch": 0.2779074557187972,
      "grad_norm": 0.7659335136413574,
      "learning_rate": 0.000278021978021978,
      "loss": 0.7588,
      "step": 253
    },
    {
      "epoch": 0.27900590416037346,
      "grad_norm": 0.45655715465545654,
      "learning_rate": 0.0002791208791208791,
      "loss": 0.5257,
      "step": 254
    },
    {
      "epoch": 0.28010435260194977,
      "grad_norm": 0.5390630960464478,
      "learning_rate": 0.0002802197802197802,
      "loss": 0.7051,
      "step": 255
    },
    {
      "epoch": 0.281202801043526,
      "grad_norm": 0.39703306555747986,
      "learning_rate": 0.0002813186813186813,
      "loss": 0.6137,
      "step": 256
    },
    {
      "epoch": 0.28230124948510227,
      "grad_norm": 0.4662924110889435,
      "learning_rate": 0.0002824175824175824,
      "loss": 0.4897,
      "step": 257
    },
    {
      "epoch": 0.2833996979266786,
      "grad_norm": 0.39399877190589905,
      "learning_rate": 0.00028351648351648346,
      "loss": 0.6235,
      "step": 258
    },
    {
      "epoch": 0.2844981463682548,
      "grad_norm": 0.497549444437027,
      "learning_rate": 0.00028461538461538457,
      "loss": 0.5134,
      "step": 259
    },
    {
      "epoch": 0.28559659480983113,
      "grad_norm": 0.6597803235054016,
      "learning_rate": 0.0002857142857142857,
      "loss": 0.7955,
      "step": 260
    },
    {
      "epoch": 0.2866950432514074,
      "grad_norm": 0.5545711517333984,
      "learning_rate": 0.0002868131868131868,
      "loss": 0.833,
      "step": 261
    },
    {
      "epoch": 0.2877934916929837,
      "grad_norm": 1.0227786302566528,
      "learning_rate": 0.0002879120879120879,
      "loss": 0.5249,
      "step": 262
    },
    {
      "epoch": 0.28889194013455993,
      "grad_norm": 0.5727143883705139,
      "learning_rate": 0.000289010989010989,
      "loss": 0.6319,
      "step": 263
    },
    {
      "epoch": 0.2899903885761362,
      "grad_norm": 0.39322397112846375,
      "learning_rate": 0.0002901098901098901,
      "loss": 0.7003,
      "step": 264
    },
    {
      "epoch": 0.2910888370177125,
      "grad_norm": 0.5657737851142883,
      "learning_rate": 0.0002912087912087912,
      "loss": 0.7085,
      "step": 265
    },
    {
      "epoch": 0.29218728545928874,
      "grad_norm": 0.4305976927280426,
      "learning_rate": 0.0002923076923076923,
      "loss": 0.5931,
      "step": 266
    },
    {
      "epoch": 0.29328573390086504,
      "grad_norm": 0.5300284624099731,
      "learning_rate": 0.00029340659340659336,
      "loss": 0.7881,
      "step": 267
    },
    {
      "epoch": 0.2943841823424413,
      "grad_norm": 0.5922349095344543,
      "learning_rate": 0.00029450549450549447,
      "loss": 0.8688,
      "step": 268
    },
    {
      "epoch": 0.2954826307840176,
      "grad_norm": 0.5700828433036804,
      "learning_rate": 0.0002956043956043956,
      "loss": 1.1328,
      "step": 269
    },
    {
      "epoch": 0.29658107922559385,
      "grad_norm": 0.6773694753646851,
      "learning_rate": 0.0002967032967032967,
      "loss": 0.7821,
      "step": 270
    },
    {
      "epoch": 0.2976795276671701,
      "grad_norm": 0.5200739502906799,
      "learning_rate": 0.0002978021978021978,
      "loss": 0.8775,
      "step": 271
    },
    {
      "epoch": 0.2987779761087464,
      "grad_norm": 0.9860020875930786,
      "learning_rate": 0.00029890109890109886,
      "loss": 0.9141,
      "step": 272
    },
    {
      "epoch": 0.29987642455032265,
      "grad_norm": 0.7012956142425537,
      "learning_rate": 0.0003,
      "loss": 0.7672,
      "step": 273
    },
    {
      "epoch": 0.30097487299189896,
      "grad_norm": 0.4128098785877228,
      "learning_rate": 0.0002998778998778999,
      "loss": 0.3969,
      "step": 274
    },
    {
      "epoch": 0.3020733214334752,
      "grad_norm": 0.366597980260849,
      "learning_rate": 0.00029975579975579974,
      "loss": 0.639,
      "step": 275
    },
    {
      "epoch": 0.3031717698750515,
      "grad_norm": 0.5208033919334412,
      "learning_rate": 0.0002996336996336996,
      "loss": 0.664,
      "step": 276
    },
    {
      "epoch": 0.30427021831662776,
      "grad_norm": 0.45519202947616577,
      "learning_rate": 0.0002995115995115995,
      "loss": 0.8495,
      "step": 277
    },
    {
      "epoch": 0.305368666758204,
      "grad_norm": 0.6617010831832886,
      "learning_rate": 0.0002993894993894994,
      "loss": 1.0204,
      "step": 278
    },
    {
      "epoch": 0.3064671151997803,
      "grad_norm": 1.4151723384857178,
      "learning_rate": 0.00029926739926739923,
      "loss": 0.8289,
      "step": 279
    },
    {
      "epoch": 0.30756556364135657,
      "grad_norm": 0.6531035900115967,
      "learning_rate": 0.00029914529914529915,
      "loss": 0.7571,
      "step": 280
    },
    {
      "epoch": 0.30866401208293287,
      "grad_norm": 0.8595600724220276,
      "learning_rate": 0.000299023199023199,
      "loss": 0.9668,
      "step": 281
    },
    {
      "epoch": 0.3097624605245091,
      "grad_norm": 0.50210040807724,
      "learning_rate": 0.00029890109890109886,
      "loss": 0.6662,
      "step": 282
    },
    {
      "epoch": 0.3108609089660854,
      "grad_norm": 0.6004669666290283,
      "learning_rate": 0.0002987789987789988,
      "loss": 0.7127,
      "step": 283
    },
    {
      "epoch": 0.3119593574076617,
      "grad_norm": 0.8085057139396667,
      "learning_rate": 0.00029865689865689863,
      "loss": 0.9266,
      "step": 284
    },
    {
      "epoch": 0.3130578058492379,
      "grad_norm": 0.44965627789497375,
      "learning_rate": 0.0002985347985347985,
      "loss": 0.7118,
      "step": 285
    },
    {
      "epoch": 0.31415625429081423,
      "grad_norm": 0.5758265852928162,
      "learning_rate": 0.00029841269841269835,
      "loss": 0.6915,
      "step": 286
    },
    {
      "epoch": 0.3152547027323905,
      "grad_norm": 0.5623393058776855,
      "learning_rate": 0.00029829059829059826,
      "loss": 0.6962,
      "step": 287
    },
    {
      "epoch": 0.3163531511739668,
      "grad_norm": 0.857796311378479,
      "learning_rate": 0.0002981684981684982,
      "loss": 0.676,
      "step": 288
    },
    {
      "epoch": 0.31745159961554303,
      "grad_norm": 0.36431241035461426,
      "learning_rate": 0.000298046398046398,
      "loss": 0.5475,
      "step": 289
    },
    {
      "epoch": 0.31855004805711934,
      "grad_norm": 0.4778802692890167,
      "learning_rate": 0.0002979242979242979,
      "loss": 0.7198,
      "step": 290
    },
    {
      "epoch": 0.3196484964986956,
      "grad_norm": 0.4887610673904419,
      "learning_rate": 0.0002978021978021978,
      "loss": 0.5559,
      "step": 291
    },
    {
      "epoch": 0.32074694494027184,
      "grad_norm": 0.745379626750946,
      "learning_rate": 0.00029768009768009766,
      "loss": 1.0509,
      "step": 292
    },
    {
      "epoch": 0.32184539338184814,
      "grad_norm": 0.40081167221069336,
      "learning_rate": 0.0002975579975579975,
      "loss": 0.6564,
      "step": 293
    },
    {
      "epoch": 0.3229438418234244,
      "grad_norm": 0.5133034586906433,
      "learning_rate": 0.00029743589743589743,
      "loss": 0.6765,
      "step": 294
    },
    {
      "epoch": 0.3240422902650007,
      "grad_norm": 0.5123881697654724,
      "learning_rate": 0.0002973137973137973,
      "loss": 0.8001,
      "step": 295
    },
    {
      "epoch": 0.32514073870657695,
      "grad_norm": 0.3771597743034363,
      "learning_rate": 0.00029719169719169715,
      "loss": 0.785,
      "step": 296
    },
    {
      "epoch": 0.32623918714815325,
      "grad_norm": 0.38929086923599243,
      "learning_rate": 0.00029706959706959706,
      "loss": 0.7273,
      "step": 297
    },
    {
      "epoch": 0.3273376355897295,
      "grad_norm": 0.47761446237564087,
      "learning_rate": 0.0002969474969474969,
      "loss": 0.6997,
      "step": 298
    },
    {
      "epoch": 0.3284360840313058,
      "grad_norm": 0.4798452854156494,
      "learning_rate": 0.0002968253968253968,
      "loss": 0.7171,
      "step": 299
    },
    {
      "epoch": 0.32953453247288206,
      "grad_norm": 0.5864073038101196,
      "learning_rate": 0.0002967032967032967,
      "loss": 0.7075,
      "step": 300
    },
    {
      "epoch": 0.3306329809144583,
      "grad_norm": 0.6298258900642395,
      "learning_rate": 0.00029658119658119655,
      "loss": 0.8659,
      "step": 301
    },
    {
      "epoch": 0.3317314293560346,
      "grad_norm": 0.9764651656150818,
      "learning_rate": 0.0002964590964590964,
      "loss": 0.7451,
      "step": 302
    },
    {
      "epoch": 0.33282987779761086,
      "grad_norm": 0.7084535360336304,
      "learning_rate": 0.0002963369963369963,
      "loss": 0.7896,
      "step": 303
    },
    {
      "epoch": 0.33392832623918717,
      "grad_norm": 0.3226016163825989,
      "learning_rate": 0.0002962148962148962,
      "loss": 0.5614,
      "step": 304
    },
    {
      "epoch": 0.3350267746807634,
      "grad_norm": 0.5515668988227844,
      "learning_rate": 0.0002960927960927961,
      "loss": 0.6981,
      "step": 305
    },
    {
      "epoch": 0.3361252231223397,
      "grad_norm": 0.42776307463645935,
      "learning_rate": 0.00029597069597069595,
      "loss": 0.5911,
      "step": 306
    },
    {
      "epoch": 0.33722367156391597,
      "grad_norm": 0.36645814776420593,
      "learning_rate": 0.0002958485958485958,
      "loss": 0.5584,
      "step": 307
    },
    {
      "epoch": 0.3383221200054922,
      "grad_norm": 0.4089672565460205,
      "learning_rate": 0.0002957264957264957,
      "loss": 0.6814,
      "step": 308
    },
    {
      "epoch": 0.3394205684470685,
      "grad_norm": 0.4406324326992035,
      "learning_rate": 0.0002956043956043956,
      "loss": 0.5426,
      "step": 309
    },
    {
      "epoch": 0.3405190168886448,
      "grad_norm": 0.4138193726539612,
      "learning_rate": 0.00029548229548229544,
      "loss": 0.7554,
      "step": 310
    },
    {
      "epoch": 0.3416174653302211,
      "grad_norm": 0.45647338032722473,
      "learning_rate": 0.00029536019536019535,
      "loss": 0.4871,
      "step": 311
    },
    {
      "epoch": 0.34271591377179733,
      "grad_norm": 0.44362974166870117,
      "learning_rate": 0.0002952380952380952,
      "loss": 0.7254,
      "step": 312
    },
    {
      "epoch": 0.34381436221337364,
      "grad_norm": 0.5832559466362,
      "learning_rate": 0.00029511599511599507,
      "loss": 0.64,
      "step": 313
    },
    {
      "epoch": 0.3449128106549499,
      "grad_norm": 0.6754651665687561,
      "learning_rate": 0.000294993894993895,
      "loss": 0.7046,
      "step": 314
    },
    {
      "epoch": 0.34601125909652614,
      "grad_norm": 0.6487123370170593,
      "learning_rate": 0.00029487179487179484,
      "loss": 0.5934,
      "step": 315
    },
    {
      "epoch": 0.34710970753810244,
      "grad_norm": 0.24118930101394653,
      "learning_rate": 0.0002947496947496947,
      "loss": 0.5241,
      "step": 316
    },
    {
      "epoch": 0.3482081559796787,
      "grad_norm": 0.4580494165420532,
      "learning_rate": 0.0002946275946275946,
      "loss": 0.6733,
      "step": 317
    },
    {
      "epoch": 0.349306604421255,
      "grad_norm": 0.4770609736442566,
      "learning_rate": 0.00029450549450549447,
      "loss": 0.5758,
      "step": 318
    },
    {
      "epoch": 0.35040505286283125,
      "grad_norm": 0.40334221720695496,
      "learning_rate": 0.0002943833943833944,
      "loss": 0.5365,
      "step": 319
    },
    {
      "epoch": 0.35150350130440755,
      "grad_norm": 0.5605480074882507,
      "learning_rate": 0.00029426129426129424,
      "loss": 0.5967,
      "step": 320
    },
    {
      "epoch": 0.3526019497459838,
      "grad_norm": 0.6031836271286011,
      "learning_rate": 0.0002941391941391941,
      "loss": 0.6397,
      "step": 321
    },
    {
      "epoch": 0.35370039818756005,
      "grad_norm": 0.5602075457572937,
      "learning_rate": 0.000294017094017094,
      "loss": 0.7253,
      "step": 322
    },
    {
      "epoch": 0.35479884662913636,
      "grad_norm": 1.5055879354476929,
      "learning_rate": 0.00029389499389499387,
      "loss": 0.6066,
      "step": 323
    },
    {
      "epoch": 0.3558972950707126,
      "grad_norm": 1.969072699546814,
      "learning_rate": 0.0002937728937728937,
      "loss": 0.9263,
      "step": 324
    },
    {
      "epoch": 0.3569957435122889,
      "grad_norm": 0.43139147758483887,
      "learning_rate": 0.00029365079365079364,
      "loss": 0.6462,
      "step": 325
    },
    {
      "epoch": 0.35809419195386516,
      "grad_norm": 0.40423595905303955,
      "learning_rate": 0.0002935286935286935,
      "loss": 0.4278,
      "step": 326
    },
    {
      "epoch": 0.35919264039544146,
      "grad_norm": 0.41983166337013245,
      "learning_rate": 0.00029340659340659336,
      "loss": 0.7527,
      "step": 327
    },
    {
      "epoch": 0.3602910888370177,
      "grad_norm": 0.6624807715415955,
      "learning_rate": 0.00029328449328449327,
      "loss": 0.7381,
      "step": 328
    },
    {
      "epoch": 0.36138953727859396,
      "grad_norm": 0.6173990964889526,
      "learning_rate": 0.00029316239316239313,
      "loss": 0.6838,
      "step": 329
    },
    {
      "epoch": 0.36248798572017027,
      "grad_norm": 1.1278433799743652,
      "learning_rate": 0.000293040293040293,
      "loss": 0.8439,
      "step": 330
    },
    {
      "epoch": 0.3635864341617465,
      "grad_norm": 0.3453993797302246,
      "learning_rate": 0.0002929181929181929,
      "loss": 0.5324,
      "step": 331
    },
    {
      "epoch": 0.3646848826033228,
      "grad_norm": 0.4151187241077423,
      "learning_rate": 0.0002927960927960928,
      "loss": 0.7019,
      "step": 332
    },
    {
      "epoch": 0.3657833310448991,
      "grad_norm": 0.4247313439846039,
      "learning_rate": 0.0002926739926739926,
      "loss": 0.6362,
      "step": 333
    },
    {
      "epoch": 0.3668817794864754,
      "grad_norm": 1.5250136852264404,
      "learning_rate": 0.00029255189255189253,
      "loss": 0.5885,
      "step": 334
    },
    {
      "epoch": 0.36798022792805163,
      "grad_norm": 0.43669968843460083,
      "learning_rate": 0.00029242979242979244,
      "loss": 0.9191,
      "step": 335
    },
    {
      "epoch": 0.3690786763696279,
      "grad_norm": 0.8063925504684448,
      "learning_rate": 0.0002923076923076923,
      "loss": 0.6813,
      "step": 336
    },
    {
      "epoch": 0.3701771248112042,
      "grad_norm": 0.6002399325370789,
      "learning_rate": 0.00029218559218559216,
      "loss": 0.5859,
      "step": 337
    },
    {
      "epoch": 0.37127557325278043,
      "grad_norm": 0.9405462145805359,
      "learning_rate": 0.000292063492063492,
      "loss": 0.7476,
      "step": 338
    },
    {
      "epoch": 0.37237402169435674,
      "grad_norm": 0.5050615072250366,
      "learning_rate": 0.00029194139194139193,
      "loss": 0.5172,
      "step": 339
    },
    {
      "epoch": 0.373472470135933,
      "grad_norm": 0.4593801200389862,
      "learning_rate": 0.0002918192918192918,
      "loss": 0.5405,
      "step": 340
    },
    {
      "epoch": 0.3745709185775093,
      "grad_norm": 0.5275060534477234,
      "learning_rate": 0.00029169719169719164,
      "loss": 0.4537,
      "step": 341
    },
    {
      "epoch": 0.37566936701908554,
      "grad_norm": 0.8907522559165955,
      "learning_rate": 0.00029157509157509156,
      "loss": 0.6826,
      "step": 342
    },
    {
      "epoch": 0.3767678154606618,
      "grad_norm": 0.7229670882225037,
      "learning_rate": 0.0002914529914529914,
      "loss": 0.6072,
      "step": 343
    },
    {
      "epoch": 0.3778662639022381,
      "grad_norm": 1.7154827117919922,
      "learning_rate": 0.0002913308913308913,
      "loss": 0.6956,
      "step": 344
    },
    {
      "epoch": 0.37896471234381435,
      "grad_norm": 1.012902021408081,
      "learning_rate": 0.0002912087912087912,
      "loss": 0.5337,
      "step": 345
    },
    {
      "epoch": 0.38006316078539065,
      "grad_norm": 0.6467313170433044,
      "learning_rate": 0.00029108669108669105,
      "loss": 0.7652,
      "step": 346
    },
    {
      "epoch": 0.3811616092269669,
      "grad_norm": 0.5594947338104248,
      "learning_rate": 0.0002909645909645909,
      "loss": 0.578,
      "step": 347
    },
    {
      "epoch": 0.3822600576685432,
      "grad_norm": 0.5808854699134827,
      "learning_rate": 0.0002908424908424908,
      "loss": 0.6142,
      "step": 348
    },
    {
      "epoch": 0.38335850611011946,
      "grad_norm": 0.6067795157432556,
      "learning_rate": 0.00029072039072039073,
      "loss": 0.7682,
      "step": 349
    },
    {
      "epoch": 0.3844569545516957,
      "grad_norm": 0.392993301153183,
      "learning_rate": 0.0002905982905982906,
      "loss": 0.6599,
      "step": 350
    },
    {
      "epoch": 0.385555402993272,
      "grad_norm": 0.3963404893875122,
      "learning_rate": 0.00029047619047619045,
      "loss": 0.7079,
      "step": 351
    },
    {
      "epoch": 0.38665385143484826,
      "grad_norm": 0.3471222221851349,
      "learning_rate": 0.00029035409035409036,
      "loss": 0.463,
      "step": 352
    },
    {
      "epoch": 0.38775229987642457,
      "grad_norm": 0.5496531128883362,
      "learning_rate": 0.0002902319902319902,
      "loss": 0.7639,
      "step": 353
    },
    {
      "epoch": 0.3888507483180008,
      "grad_norm": 0.5482885241508484,
      "learning_rate": 0.0002901098901098901,
      "loss": 0.4198,
      "step": 354
    },
    {
      "epoch": 0.3899491967595771,
      "grad_norm": 0.7329181432723999,
      "learning_rate": 0.00028998778998779,
      "loss": 0.6057,
      "step": 355
    },
    {
      "epoch": 0.39104764520115337,
      "grad_norm": 0.41850918531417847,
      "learning_rate": 0.00028986568986568985,
      "loss": 0.605,
      "step": 356
    },
    {
      "epoch": 0.3921460936427296,
      "grad_norm": 0.4463609457015991,
      "learning_rate": 0.0002897435897435897,
      "loss": 0.7381,
      "step": 357
    },
    {
      "epoch": 0.3932445420843059,
      "grad_norm": 0.7207491397857666,
      "learning_rate": 0.0002896214896214896,
      "loss": 0.6892,
      "step": 358
    },
    {
      "epoch": 0.3943429905258822,
      "grad_norm": 0.3715958595275879,
      "learning_rate": 0.0002894993894993895,
      "loss": 0.5426,
      "step": 359
    },
    {
      "epoch": 0.3954414389674585,
      "grad_norm": 0.7077822685241699,
      "learning_rate": 0.00028937728937728933,
      "loss": 0.5923,
      "step": 360
    },
    {
      "epoch": 0.39653988740903473,
      "grad_norm": 0.5109585523605347,
      "learning_rate": 0.00028925518925518925,
      "loss": 0.5939,
      "step": 361
    },
    {
      "epoch": 0.39763833585061104,
      "grad_norm": 0.6105355024337769,
      "learning_rate": 0.0002891330891330891,
      "loss": 1.0345,
      "step": 362
    },
    {
      "epoch": 0.3987367842921873,
      "grad_norm": 0.479732871055603,
      "learning_rate": 0.000289010989010989,
      "loss": 0.71,
      "step": 363
    },
    {
      "epoch": 0.39983523273376353,
      "grad_norm": 0.8600007891654968,
      "learning_rate": 0.0002888888888888888,
      "loss": 0.7406,
      "step": 364
    },
    {
      "epoch": 0.40093368117533984,
      "grad_norm": 0.6584550738334656,
      "learning_rate": 0.00028876678876678873,
      "loss": 0.6658,
      "step": 365
    },
    {
      "epoch": 0.4020321296169161,
      "grad_norm": 0.7251041531562805,
      "learning_rate": 0.00028864468864468865,
      "loss": 0.8425,
      "step": 366
    },
    {
      "epoch": 0.4031305780584924,
      "grad_norm": 0.5729238390922546,
      "learning_rate": 0.0002885225885225885,
      "loss": 0.9054,
      "step": 367
    },
    {
      "epoch": 0.40422902650006864,
      "grad_norm": 1.1829932928085327,
      "learning_rate": 0.00028840048840048836,
      "loss": 0.9232,
      "step": 368
    },
    {
      "epoch": 0.40532747494164495,
      "grad_norm": 0.37746721506118774,
      "learning_rate": 0.0002882783882783883,
      "loss": 0.9619,
      "step": 369
    },
    {
      "epoch": 0.4064259233832212,
      "grad_norm": 0.5653749108314514,
      "learning_rate": 0.00028815628815628813,
      "loss": 0.7182,
      "step": 370
    },
    {
      "epoch": 0.40752437182479745,
      "grad_norm": 0.6024563312530518,
      "learning_rate": 0.000288034188034188,
      "loss": 0.6881,
      "step": 371
    },
    {
      "epoch": 0.40862282026637375,
      "grad_norm": 0.485350102186203,
      "learning_rate": 0.0002879120879120879,
      "loss": 0.6451,
      "step": 372
    },
    {
      "epoch": 0.40972126870795,
      "grad_norm": 0.5762611627578735,
      "learning_rate": 0.00028778998778998776,
      "loss": 0.7818,
      "step": 373
    },
    {
      "epoch": 0.4108197171495263,
      "grad_norm": 0.7961844801902771,
      "learning_rate": 0.0002876678876678876,
      "loss": 0.6682,
      "step": 374
    },
    {
      "epoch": 0.41191816559110256,
      "grad_norm": 0.4630587697029114,
      "learning_rate": 0.00028754578754578753,
      "loss": 0.9015,
      "step": 375
    },
    {
      "epoch": 0.41301661403267886,
      "grad_norm": 0.6592808961868286,
      "learning_rate": 0.0002874236874236874,
      "loss": 0.5738,
      "step": 376
    },
    {
      "epoch": 0.4141150624742551,
      "grad_norm": 0.4788278639316559,
      "learning_rate": 0.00028730158730158725,
      "loss": 0.7022,
      "step": 377
    },
    {
      "epoch": 0.41521351091583136,
      "grad_norm": 0.5041861534118652,
      "learning_rate": 0.00028717948717948716,
      "loss": 0.6137,
      "step": 378
    },
    {
      "epoch": 0.41631195935740767,
      "grad_norm": 0.5436013340950012,
      "learning_rate": 0.000287057387057387,
      "loss": 0.6621,
      "step": 379
    },
    {
      "epoch": 0.4174104077989839,
      "grad_norm": 0.5102400183677673,
      "learning_rate": 0.00028693528693528694,
      "loss": 0.6627,
      "step": 380
    },
    {
      "epoch": 0.4185088562405602,
      "grad_norm": 0.43655040860176086,
      "learning_rate": 0.0002868131868131868,
      "loss": 0.6475,
      "step": 381
    },
    {
      "epoch": 0.4196073046821365,
      "grad_norm": 0.3989826738834381,
      "learning_rate": 0.00028669108669108665,
      "loss": 0.5483,
      "step": 382
    },
    {
      "epoch": 0.4207057531237128,
      "grad_norm": 0.7781158685684204,
      "learning_rate": 0.00028656898656898656,
      "loss": 0.6475,
      "step": 383
    },
    {
      "epoch": 0.421804201565289,
      "grad_norm": 0.8119930624961853,
      "learning_rate": 0.0002864468864468864,
      "loss": 0.8122,
      "step": 384
    },
    {
      "epoch": 0.4229026500068653,
      "grad_norm": 0.7233585119247437,
      "learning_rate": 0.0002863247863247863,
      "loss": 0.7837,
      "step": 385
    },
    {
      "epoch": 0.4240010984484416,
      "grad_norm": 0.41249507665634155,
      "learning_rate": 0.0002862026862026862,
      "loss": 0.6916,
      "step": 386
    },
    {
      "epoch": 0.42509954689001783,
      "grad_norm": 0.4865298867225647,
      "learning_rate": 0.00028608058608058605,
      "loss": 0.595,
      "step": 387
    },
    {
      "epoch": 0.42619799533159414,
      "grad_norm": 0.6057963371276855,
      "learning_rate": 0.0002859584859584859,
      "loss": 0.7214,
      "step": 388
    },
    {
      "epoch": 0.4272964437731704,
      "grad_norm": 0.5390968918800354,
      "learning_rate": 0.0002858363858363858,
      "loss": 0.805,
      "step": 389
    },
    {
      "epoch": 0.4283948922147467,
      "grad_norm": 0.5944109559059143,
      "learning_rate": 0.0002857142857142857,
      "loss": 0.9953,
      "step": 390
    },
    {
      "epoch": 0.42949334065632294,
      "grad_norm": 0.5480278134346008,
      "learning_rate": 0.00028559218559218554,
      "loss": 0.8406,
      "step": 391
    },
    {
      "epoch": 0.4305917890978992,
      "grad_norm": 0.5168552994728088,
      "learning_rate": 0.00028547008547008545,
      "loss": 0.9715,
      "step": 392
    },
    {
      "epoch": 0.4316902375394755,
      "grad_norm": 0.4859452247619629,
      "learning_rate": 0.0002853479853479853,
      "loss": 0.7368,
      "step": 393
    },
    {
      "epoch": 0.43278868598105175,
      "grad_norm": 0.4697234034538269,
      "learning_rate": 0.0002852258852258852,
      "loss": 0.4801,
      "step": 394
    },
    {
      "epoch": 0.43388713442262805,
      "grad_norm": 0.6198891401290894,
      "learning_rate": 0.0002851037851037851,
      "loss": 0.5184,
      "step": 395
    },
    {
      "epoch": 0.4349855828642043,
      "grad_norm": 0.531563401222229,
      "learning_rate": 0.00028498168498168494,
      "loss": 0.8047,
      "step": 396
    },
    {
      "epoch": 0.4360840313057806,
      "grad_norm": 0.4610724449157715,
      "learning_rate": 0.00028485958485958485,
      "loss": 0.4583,
      "step": 397
    },
    {
      "epoch": 0.43718247974735686,
      "grad_norm": 0.5609697699546814,
      "learning_rate": 0.0002847374847374847,
      "loss": 0.7362,
      "step": 398
    },
    {
      "epoch": 0.4382809281889331,
      "grad_norm": 0.5257968306541443,
      "learning_rate": 0.00028461538461538457,
      "loss": 0.8173,
      "step": 399
    },
    {
      "epoch": 0.4393793766305094,
      "grad_norm": 0.8307009339332581,
      "learning_rate": 0.0002844932844932845,
      "loss": 0.5507,
      "step": 400
    },
    {
      "epoch": 0.44047782507208566,
      "grad_norm": 0.36615508794784546,
      "learning_rate": 0.00028437118437118434,
      "loss": 0.6605,
      "step": 401
    },
    {
      "epoch": 0.44157627351366197,
      "grad_norm": 0.35138362646102905,
      "learning_rate": 0.0002842490842490842,
      "loss": 0.6614,
      "step": 402
    },
    {
      "epoch": 0.4426747219552382,
      "grad_norm": 0.5054494738578796,
      "learning_rate": 0.0002841269841269841,
      "loss": 0.799,
      "step": 403
    },
    {
      "epoch": 0.4437731703968145,
      "grad_norm": 0.4711816608905792,
      "learning_rate": 0.00028400488400488397,
      "loss": 0.8892,
      "step": 404
    },
    {
      "epoch": 0.44487161883839077,
      "grad_norm": 0.5073884725570679,
      "learning_rate": 0.00028388278388278383,
      "loss": 0.8156,
      "step": 405
    },
    {
      "epoch": 0.445970067279967,
      "grad_norm": 0.29938632249832153,
      "learning_rate": 0.00028376068376068374,
      "loss": 0.7598,
      "step": 406
    },
    {
      "epoch": 0.4470685157215433,
      "grad_norm": 1.745937466621399,
      "learning_rate": 0.00028363858363858365,
      "loss": 0.7829,
      "step": 407
    },
    {
      "epoch": 0.4481669641631196,
      "grad_norm": 0.46887943148612976,
      "learning_rate": 0.00028351648351648346,
      "loss": 0.7798,
      "step": 408
    },
    {
      "epoch": 0.4492654126046959,
      "grad_norm": 0.4274987280368805,
      "learning_rate": 0.00028339438339438337,
      "loss": 0.8407,
      "step": 409
    },
    {
      "epoch": 0.45036386104627213,
      "grad_norm": 0.4445902109146118,
      "learning_rate": 0.0002832722832722833,
      "loss": 0.7394,
      "step": 410
    },
    {
      "epoch": 0.45146230948784843,
      "grad_norm": 0.3842466175556183,
      "learning_rate": 0.00028315018315018314,
      "loss": 0.7781,
      "step": 411
    },
    {
      "epoch": 0.4525607579294247,
      "grad_norm": 0.5660600066184998,
      "learning_rate": 0.000283028083028083,
      "loss": 0.8058,
      "step": 412
    },
    {
      "epoch": 0.45365920637100093,
      "grad_norm": 0.442911297082901,
      "learning_rate": 0.0002829059829059829,
      "loss": 0.808,
      "step": 413
    },
    {
      "epoch": 0.45475765481257724,
      "grad_norm": 0.9051260352134705,
      "learning_rate": 0.00028278388278388277,
      "loss": 0.9427,
      "step": 414
    },
    {
      "epoch": 0.4558561032541535,
      "grad_norm": 0.8027593493461609,
      "learning_rate": 0.00028266178266178263,
      "loss": 0.531,
      "step": 415
    },
    {
      "epoch": 0.4569545516957298,
      "grad_norm": 0.36242446303367615,
      "learning_rate": 0.0002825396825396825,
      "loss": 0.5609,
      "step": 416
    },
    {
      "epoch": 0.45805300013730604,
      "grad_norm": 0.6095871925354004,
      "learning_rate": 0.0002824175824175824,
      "loss": 0.7424,
      "step": 417
    },
    {
      "epoch": 0.45915144857888235,
      "grad_norm": 0.5102814435958862,
      "learning_rate": 0.00028229548229548226,
      "loss": 0.8861,
      "step": 418
    },
    {
      "epoch": 0.4602498970204586,
      "grad_norm": 0.375265896320343,
      "learning_rate": 0.0002821733821733821,
      "loss": 0.6235,
      "step": 419
    },
    {
      "epoch": 0.4613483454620349,
      "grad_norm": 0.4506315588951111,
      "learning_rate": 0.00028205128205128203,
      "loss": 0.6059,
      "step": 420
    },
    {
      "epoch": 0.46244679390361115,
      "grad_norm": 0.8119642734527588,
      "learning_rate": 0.0002819291819291819,
      "loss": 0.7821,
      "step": 421
    },
    {
      "epoch": 0.4635452423451874,
      "grad_norm": 0.42945513129234314,
      "learning_rate": 0.00028180708180708175,
      "loss": 0.9503,
      "step": 422
    },
    {
      "epoch": 0.4646436907867637,
      "grad_norm": 0.35567665100097656,
      "learning_rate": 0.00028168498168498166,
      "loss": 0.5243,
      "step": 423
    },
    {
      "epoch": 0.46574213922833996,
      "grad_norm": 0.5160343647003174,
      "learning_rate": 0.00028156288156288157,
      "loss": 0.5767,
      "step": 424
    },
    {
      "epoch": 0.46684058766991626,
      "grad_norm": 0.37530624866485596,
      "learning_rate": 0.00028144078144078143,
      "loss": 1.2016,
      "step": 425
    },
    {
      "epoch": 0.4679390361114925,
      "grad_norm": 0.5283146500587463,
      "learning_rate": 0.0002813186813186813,
      "loss": 0.5958,
      "step": 426
    },
    {
      "epoch": 0.4690374845530688,
      "grad_norm": 0.5217192769050598,
      "learning_rate": 0.0002811965811965812,
      "loss": 0.715,
      "step": 427
    },
    {
      "epoch": 0.47013593299464507,
      "grad_norm": 0.5092077851295471,
      "learning_rate": 0.00028107448107448106,
      "loss": 0.6942,
      "step": 428
    },
    {
      "epoch": 0.4712343814362213,
      "grad_norm": 0.7683324813842773,
      "learning_rate": 0.0002809523809523809,
      "loss": 1.0185,
      "step": 429
    },
    {
      "epoch": 0.4723328298777976,
      "grad_norm": 0.3117397725582123,
      "learning_rate": 0.00028083028083028083,
      "loss": 0.6949,
      "step": 430
    },
    {
      "epoch": 0.47343127831937387,
      "grad_norm": 0.3218965232372284,
      "learning_rate": 0.0002807081807081807,
      "loss": 0.6872,
      "step": 431
    },
    {
      "epoch": 0.4745297267609502,
      "grad_norm": 1.104121446609497,
      "learning_rate": 0.00028058608058608055,
      "loss": 0.6628,
      "step": 432
    },
    {
      "epoch": 0.4756281752025264,
      "grad_norm": 0.3224816620349884,
      "learning_rate": 0.00028046398046398046,
      "loss": 0.5974,
      "step": 433
    },
    {
      "epoch": 0.47672662364410273,
      "grad_norm": 0.5742220878601074,
      "learning_rate": 0.0002803418803418803,
      "loss": 0.7248,
      "step": 434
    },
    {
      "epoch": 0.477825072085679,
      "grad_norm": 0.5449275374412537,
      "learning_rate": 0.0002802197802197802,
      "loss": 0.8552,
      "step": 435
    },
    {
      "epoch": 0.47892352052725523,
      "grad_norm": 0.44660067558288574,
      "learning_rate": 0.0002800976800976801,
      "loss": 0.6968,
      "step": 436
    },
    {
      "epoch": 0.48002196896883154,
      "grad_norm": 0.4287508428096771,
      "learning_rate": 0.00027997557997557995,
      "loss": 0.8101,
      "step": 437
    },
    {
      "epoch": 0.4811204174104078,
      "grad_norm": 0.4142225384712219,
      "learning_rate": 0.00027985347985347986,
      "loss": 0.5379,
      "step": 438
    },
    {
      "epoch": 0.4822188658519841,
      "grad_norm": 1.246833324432373,
      "learning_rate": 0.0002797313797313797,
      "loss": 0.7116,
      "step": 439
    },
    {
      "epoch": 0.48331731429356034,
      "grad_norm": 0.3845030963420868,
      "learning_rate": 0.0002796092796092796,
      "loss": 0.8088,
      "step": 440
    },
    {
      "epoch": 0.48441576273513665,
      "grad_norm": 1.4492995738983154,
      "learning_rate": 0.0002794871794871795,
      "loss": 0.7358,
      "step": 441
    },
    {
      "epoch": 0.4855142111767129,
      "grad_norm": 0.40994521975517273,
      "learning_rate": 0.00027936507936507935,
      "loss": 0.6228,
      "step": 442
    },
    {
      "epoch": 0.48661265961828915,
      "grad_norm": 0.4782777428627014,
      "learning_rate": 0.0002792429792429792,
      "loss": 0.4944,
      "step": 443
    },
    {
      "epoch": 0.48771110805986545,
      "grad_norm": 0.47269922494888306,
      "learning_rate": 0.0002791208791208791,
      "loss": 0.7023,
      "step": 444
    },
    {
      "epoch": 0.4888095565014417,
      "grad_norm": 0.5529118776321411,
      "learning_rate": 0.000278998778998779,
      "loss": 0.7717,
      "step": 445
    },
    {
      "epoch": 0.489908004943018,
      "grad_norm": 0.4244072139263153,
      "learning_rate": 0.00027887667887667884,
      "loss": 0.7902,
      "step": 446
    },
    {
      "epoch": 0.49100645338459425,
      "grad_norm": 1.4737539291381836,
      "learning_rate": 0.00027875457875457875,
      "loss": 0.5784,
      "step": 447
    },
    {
      "epoch": 0.49210490182617056,
      "grad_norm": 0.40120208263397217,
      "learning_rate": 0.0002786324786324786,
      "loss": 0.7974,
      "step": 448
    },
    {
      "epoch": 0.4932033502677468,
      "grad_norm": 0.5481031537055969,
      "learning_rate": 0.00027851037851037846,
      "loss": 0.7867,
      "step": 449
    },
    {
      "epoch": 0.49430179870932306,
      "grad_norm": 0.36719343066215515,
      "learning_rate": 0.0002783882783882784,
      "loss": 0.6543,
      "step": 450
    },
    {
      "epoch": 0.49540024715089936,
      "grad_norm": 0.3980066776275635,
      "learning_rate": 0.00027826617826617824,
      "loss": 0.5395,
      "step": 451
    },
    {
      "epoch": 0.4964986955924756,
      "grad_norm": 0.45570313930511475,
      "learning_rate": 0.0002781440781440781,
      "loss": 0.7908,
      "step": 452
    },
    {
      "epoch": 0.4975971440340519,
      "grad_norm": 0.41858601570129395,
      "learning_rate": 0.000278021978021978,
      "loss": 0.5248,
      "step": 453
    },
    {
      "epoch": 0.49869559247562817,
      "grad_norm": 0.5019702315330505,
      "learning_rate": 0.00027789987789987786,
      "loss": 0.8006,
      "step": 454
    },
    {
      "epoch": 0.4997940409172045,
      "grad_norm": 0.4589880108833313,
      "learning_rate": 0.0002777777777777778,
      "loss": 0.7294,
      "step": 455
    },
    {
      "epoch": 0.5008924893587807,
      "grad_norm": 0.5679266452789307,
      "learning_rate": 0.00027765567765567764,
      "loss": 0.651,
      "step": 456
    },
    {
      "epoch": 0.501990937800357,
      "grad_norm": 0.4854479134082794,
      "learning_rate": 0.0002775335775335775,
      "loss": 0.9908,
      "step": 457
    },
    {
      "epoch": 0.5030893862419332,
      "grad_norm": 0.4964112341403961,
      "learning_rate": 0.0002774114774114774,
      "loss": 0.8084,
      "step": 458
    },
    {
      "epoch": 0.5041878346835096,
      "grad_norm": 0.5130513906478882,
      "learning_rate": 0.00027728937728937727,
      "loss": 0.8389,
      "step": 459
    },
    {
      "epoch": 0.5052862831250858,
      "grad_norm": 0.4784137010574341,
      "learning_rate": 0.0002771672771672771,
      "loss": 0.5497,
      "step": 460
    },
    {
      "epoch": 0.5063847315666621,
      "grad_norm": 0.28685998916625977,
      "learning_rate": 0.00027704517704517704,
      "loss": 0.491,
      "step": 461
    },
    {
      "epoch": 0.5074831800082383,
      "grad_norm": 0.5337100625038147,
      "learning_rate": 0.0002769230769230769,
      "loss": 0.8315,
      "step": 462
    },
    {
      "epoch": 0.5085816284498146,
      "grad_norm": 0.5431344509124756,
      "learning_rate": 0.00027680097680097675,
      "loss": 0.5996,
      "step": 463
    },
    {
      "epoch": 0.5096800768913909,
      "grad_norm": 0.4546130299568176,
      "learning_rate": 0.00027667887667887667,
      "loss": 0.5647,
      "step": 464
    },
    {
      "epoch": 0.5107785253329672,
      "grad_norm": 0.6298655271530151,
      "learning_rate": 0.0002765567765567765,
      "loss": 0.7684,
      "step": 465
    },
    {
      "epoch": 0.5118769737745434,
      "grad_norm": 0.44330841302871704,
      "learning_rate": 0.0002764346764346764,
      "loss": 0.4906,
      "step": 466
    },
    {
      "epoch": 0.5129754222161197,
      "grad_norm": 0.3824306130409241,
      "learning_rate": 0.0002763125763125763,
      "loss": 0.6123,
      "step": 467
    },
    {
      "epoch": 0.514073870657696,
      "grad_norm": 0.3225514590740204,
      "learning_rate": 0.00027619047619047615,
      "loss": 0.7535,
      "step": 468
    },
    {
      "epoch": 0.5151723190992723,
      "grad_norm": 0.701239824295044,
      "learning_rate": 0.00027606837606837607,
      "loss": 0.9643,
      "step": 469
    },
    {
      "epoch": 0.5162707675408486,
      "grad_norm": 0.37800920009613037,
      "learning_rate": 0.0002759462759462759,
      "loss": 0.543,
      "step": 470
    },
    {
      "epoch": 0.5173692159824248,
      "grad_norm": 0.3521328568458557,
      "learning_rate": 0.0002758241758241758,
      "loss": 0.7157,
      "step": 471
    },
    {
      "epoch": 0.518467664424001,
      "grad_norm": 0.2659924626350403,
      "learning_rate": 0.0002757020757020757,
      "loss": 0.7334,
      "step": 472
    },
    {
      "epoch": 0.5195661128655774,
      "grad_norm": 0.42815065383911133,
      "learning_rate": 0.00027557997557997555,
      "loss": 1.2015,
      "step": 473
    },
    {
      "epoch": 0.5206645613071537,
      "grad_norm": 0.7758998870849609,
      "learning_rate": 0.0002754578754578754,
      "loss": 0.9493,
      "step": 474
    },
    {
      "epoch": 0.5217630097487299,
      "grad_norm": 0.46281251311302185,
      "learning_rate": 0.0002753357753357753,
      "loss": 0.9159,
      "step": 475
    },
    {
      "epoch": 0.5228614581903062,
      "grad_norm": 0.3668971061706543,
      "learning_rate": 0.0002752136752136752,
      "loss": 0.4869,
      "step": 476
    },
    {
      "epoch": 0.5239599066318824,
      "grad_norm": 0.462534099817276,
      "learning_rate": 0.00027509157509157504,
      "loss": 0.6439,
      "step": 477
    },
    {
      "epoch": 0.5250583550734588,
      "grad_norm": 0.6341688632965088,
      "learning_rate": 0.00027496947496947495,
      "loss": 0.6948,
      "step": 478
    },
    {
      "epoch": 0.526156803515035,
      "grad_norm": 0.5469139814376831,
      "learning_rate": 0.0002748473748473748,
      "loss": 1.016,
      "step": 479
    },
    {
      "epoch": 0.5272552519566113,
      "grad_norm": 0.438204288482666,
      "learning_rate": 0.00027472527472527467,
      "loss": 0.6941,
      "step": 480
    },
    {
      "epoch": 0.5283537003981875,
      "grad_norm": 0.586700975894928,
      "learning_rate": 0.0002746031746031746,
      "loss": 0.6649,
      "step": 481
    },
    {
      "epoch": 0.5294521488397639,
      "grad_norm": 0.4077949523925781,
      "learning_rate": 0.0002744810744810745,
      "loss": 0.5948,
      "step": 482
    },
    {
      "epoch": 0.5305505972813401,
      "grad_norm": 0.3756411373615265,
      "learning_rate": 0.0002743589743589743,
      "loss": 0.4915,
      "step": 483
    },
    {
      "epoch": 0.5316490457229164,
      "grad_norm": 1.2067008018493652,
      "learning_rate": 0.0002742368742368742,
      "loss": 0.8795,
      "step": 484
    },
    {
      "epoch": 0.5327474941644926,
      "grad_norm": 0.3097778260707855,
      "learning_rate": 0.0002741147741147741,
      "loss": 0.5478,
      "step": 485
    },
    {
      "epoch": 0.5338459426060689,
      "grad_norm": 0.5536866188049316,
      "learning_rate": 0.000273992673992674,
      "loss": 0.7042,
      "step": 486
    },
    {
      "epoch": 0.5349443910476452,
      "grad_norm": 0.5930231809616089,
      "learning_rate": 0.00027387057387057384,
      "loss": 0.7108,
      "step": 487
    },
    {
      "epoch": 0.5360428394892215,
      "grad_norm": 0.39304253458976746,
      "learning_rate": 0.00027374847374847375,
      "loss": 0.788,
      "step": 488
    },
    {
      "epoch": 0.5371412879307977,
      "grad_norm": 0.5238274335861206,
      "learning_rate": 0.0002736263736263736,
      "loss": 0.9887,
      "step": 489
    },
    {
      "epoch": 0.538239736372374,
      "grad_norm": 0.5993770956993103,
      "learning_rate": 0.00027350427350427347,
      "loss": 0.7819,
      "step": 490
    },
    {
      "epoch": 0.5393381848139503,
      "grad_norm": 0.4601563811302185,
      "learning_rate": 0.00027338217338217333,
      "loss": 0.4347,
      "step": 491
    },
    {
      "epoch": 0.5404366332555266,
      "grad_norm": 0.5292415022850037,
      "learning_rate": 0.00027326007326007324,
      "loss": 0.5248,
      "step": 492
    },
    {
      "epoch": 0.5415350816971028,
      "grad_norm": 0.37247565388679504,
      "learning_rate": 0.0002731379731379731,
      "loss": 0.5412,
      "step": 493
    },
    {
      "epoch": 0.5426335301386791,
      "grad_norm": 0.6865994930267334,
      "learning_rate": 0.00027301587301587296,
      "loss": 0.8263,
      "step": 494
    },
    {
      "epoch": 0.5437319785802553,
      "grad_norm": 0.5019715428352356,
      "learning_rate": 0.00027289377289377287,
      "loss": 0.7084,
      "step": 495
    },
    {
      "epoch": 0.5448304270218317,
      "grad_norm": 0.8432828783988953,
      "learning_rate": 0.00027277167277167273,
      "loss": 0.6188,
      "step": 496
    },
    {
      "epoch": 0.545928875463408,
      "grad_norm": 0.594881534576416,
      "learning_rate": 0.0002726495726495726,
      "loss": 0.8923,
      "step": 497
    },
    {
      "epoch": 0.5470273239049842,
      "grad_norm": 0.5573694705963135,
      "learning_rate": 0.0002725274725274725,
      "loss": 0.6351,
      "step": 498
    },
    {
      "epoch": 0.5481257723465605,
      "grad_norm": 0.30426710844039917,
      "learning_rate": 0.0002724053724053724,
      "loss": 0.6359,
      "step": 499
    },
    {
      "epoch": 0.5492242207881367,
      "grad_norm": 0.759385883808136,
      "learning_rate": 0.00027228327228327227,
      "loss": 0.6131,
      "step": 500
    },
    {
      "epoch": 0.5503226692297131,
      "grad_norm": 0.5436901450157166,
      "learning_rate": 0.00027216117216117213,
      "loss": 0.5232,
      "step": 501
    },
    {
      "epoch": 0.5514211176712893,
      "grad_norm": 0.5924163460731506,
      "learning_rate": 0.00027203907203907204,
      "loss": 0.9594,
      "step": 502
    },
    {
      "epoch": 0.5525195661128656,
      "grad_norm": 0.49177658557891846,
      "learning_rate": 0.0002719169719169719,
      "loss": 0.842,
      "step": 503
    },
    {
      "epoch": 0.5536180145544418,
      "grad_norm": 0.4437295198440552,
      "learning_rate": 0.00027179487179487176,
      "loss": 1.0338,
      "step": 504
    },
    {
      "epoch": 0.5547164629960182,
      "grad_norm": 0.426213800907135,
      "learning_rate": 0.00027167277167277167,
      "loss": 0.6375,
      "step": 505
    },
    {
      "epoch": 0.5558149114375944,
      "grad_norm": 0.4599516689777374,
      "learning_rate": 0.00027155067155067153,
      "loss": 0.5005,
      "step": 506
    },
    {
      "epoch": 0.5569133598791707,
      "grad_norm": 0.647957980632782,
      "learning_rate": 0.0002714285714285714,
      "loss": 0.6292,
      "step": 507
    },
    {
      "epoch": 0.5580118083207469,
      "grad_norm": 0.7891755104064941,
      "learning_rate": 0.0002713064713064713,
      "loss": 0.697,
      "step": 508
    },
    {
      "epoch": 0.5591102567623232,
      "grad_norm": 0.5290817618370056,
      "learning_rate": 0.00027118437118437116,
      "loss": 0.4547,
      "step": 509
    },
    {
      "epoch": 0.5602087052038995,
      "grad_norm": 0.4025941789150238,
      "learning_rate": 0.000271062271062271,
      "loss": 0.6299,
      "step": 510
    },
    {
      "epoch": 0.5613071536454758,
      "grad_norm": 0.7768287658691406,
      "learning_rate": 0.00027094017094017093,
      "loss": 0.6813,
      "step": 511
    },
    {
      "epoch": 0.562405602087052,
      "grad_norm": 0.6977662444114685,
      "learning_rate": 0.0002708180708180708,
      "loss": 0.8217,
      "step": 512
    },
    {
      "epoch": 0.5635040505286283,
      "grad_norm": 0.5238949060440063,
      "learning_rate": 0.0002706959706959707,
      "loss": 0.7348,
      "step": 513
    },
    {
      "epoch": 0.5646024989702045,
      "grad_norm": 0.5099830627441406,
      "learning_rate": 0.00027057387057387056,
      "loss": 0.9894,
      "step": 514
    },
    {
      "epoch": 0.5657009474117809,
      "grad_norm": 0.6254756450653076,
      "learning_rate": 0.0002704517704517704,
      "loss": 0.9258,
      "step": 515
    },
    {
      "epoch": 0.5667993958533571,
      "grad_norm": 0.40313196182250977,
      "learning_rate": 0.00027032967032967033,
      "loss": 0.8115,
      "step": 516
    },
    {
      "epoch": 0.5678978442949334,
      "grad_norm": 0.9706575274467468,
      "learning_rate": 0.0002702075702075702,
      "loss": 0.5204,
      "step": 517
    },
    {
      "epoch": 0.5689962927365096,
      "grad_norm": 0.36777085065841675,
      "learning_rate": 0.00027008547008547005,
      "loss": 0.7716,
      "step": 518
    },
    {
      "epoch": 0.570094741178086,
      "grad_norm": 0.48726886510849,
      "learning_rate": 0.00026996336996336996,
      "loss": 0.7745,
      "step": 519
    },
    {
      "epoch": 0.5711931896196623,
      "grad_norm": 0.3590470850467682,
      "learning_rate": 0.0002698412698412698,
      "loss": 0.7038,
      "step": 520
    },
    {
      "epoch": 0.5722916380612385,
      "grad_norm": 0.7103118896484375,
      "learning_rate": 0.0002697191697191697,
      "loss": 0.8368,
      "step": 521
    },
    {
      "epoch": 0.5733900865028148,
      "grad_norm": 0.5503933429718018,
      "learning_rate": 0.0002695970695970696,
      "loss": 0.6164,
      "step": 522
    },
    {
      "epoch": 0.574488534944391,
      "grad_norm": 0.5255150198936462,
      "learning_rate": 0.00026947496947496945,
      "loss": 0.8886,
      "step": 523
    },
    {
      "epoch": 0.5755869833859674,
      "grad_norm": 0.4872569739818573,
      "learning_rate": 0.0002693528693528693,
      "loss": 0.6277,
      "step": 524
    },
    {
      "epoch": 0.5766854318275436,
      "grad_norm": 0.3748464584350586,
      "learning_rate": 0.0002692307692307692,
      "loss": 0.6471,
      "step": 525
    },
    {
      "epoch": 0.5777838802691199,
      "grad_norm": 0.4401276111602783,
      "learning_rate": 0.0002691086691086691,
      "loss": 0.9846,
      "step": 526
    },
    {
      "epoch": 0.5788823287106961,
      "grad_norm": 0.9565305709838867,
      "learning_rate": 0.00026898656898656894,
      "loss": 0.9471,
      "step": 527
    },
    {
      "epoch": 0.5799807771522724,
      "grad_norm": 0.6307245492935181,
      "learning_rate": 0.00026886446886446885,
      "loss": 0.9168,
      "step": 528
    },
    {
      "epoch": 0.5810792255938487,
      "grad_norm": 0.49177634716033936,
      "learning_rate": 0.0002687423687423687,
      "loss": 0.5464,
      "step": 529
    },
    {
      "epoch": 0.582177674035425,
      "grad_norm": 0.68553626537323,
      "learning_rate": 0.0002686202686202686,
      "loss": 0.5874,
      "step": 530
    },
    {
      "epoch": 0.5832761224770012,
      "grad_norm": 0.3811597228050232,
      "learning_rate": 0.0002684981684981685,
      "loss": 0.766,
      "step": 531
    },
    {
      "epoch": 0.5843745709185775,
      "grad_norm": 0.6634503602981567,
      "learning_rate": 0.00026837606837606834,
      "loss": 0.6438,
      "step": 532
    },
    {
      "epoch": 0.5854730193601538,
      "grad_norm": 0.6115571856498718,
      "learning_rate": 0.00026825396825396825,
      "loss": 0.8757,
      "step": 533
    },
    {
      "epoch": 0.5865714678017301,
      "grad_norm": 0.3011985719203949,
      "learning_rate": 0.0002681318681318681,
      "loss": 0.6188,
      "step": 534
    },
    {
      "epoch": 0.5876699162433063,
      "grad_norm": 0.7029386162757874,
      "learning_rate": 0.00026800976800976797,
      "loss": 0.8681,
      "step": 535
    },
    {
      "epoch": 0.5887683646848826,
      "grad_norm": 0.4796508550643921,
      "learning_rate": 0.0002678876678876679,
      "loss": 0.7207,
      "step": 536
    },
    {
      "epoch": 0.5898668131264588,
      "grad_norm": 0.542948842048645,
      "learning_rate": 0.00026776556776556774,
      "loss": 0.5587,
      "step": 537
    },
    {
      "epoch": 0.5909652615680352,
      "grad_norm": 0.7566731572151184,
      "learning_rate": 0.0002676434676434676,
      "loss": 0.8562,
      "step": 538
    },
    {
      "epoch": 0.5920637100096114,
      "grad_norm": 0.6411837339401245,
      "learning_rate": 0.0002675213675213675,
      "loss": 0.4516,
      "step": 539
    },
    {
      "epoch": 0.5931621584511877,
      "grad_norm": 0.41434159874916077,
      "learning_rate": 0.00026739926739926737,
      "loss": 0.7069,
      "step": 540
    },
    {
      "epoch": 0.5942606068927639,
      "grad_norm": 0.29941752552986145,
      "learning_rate": 0.0002672771672771672,
      "loss": 0.7444,
      "step": 541
    },
    {
      "epoch": 0.5953590553343402,
      "grad_norm": 1.8168927431106567,
      "learning_rate": 0.00026715506715506714,
      "loss": 0.4947,
      "step": 542
    },
    {
      "epoch": 0.5964575037759166,
      "grad_norm": 0.5639868974685669,
      "learning_rate": 0.000267032967032967,
      "loss": 0.6749,
      "step": 543
    },
    {
      "epoch": 0.5975559522174928,
      "grad_norm": 0.5054119229316711,
      "learning_rate": 0.0002669108669108669,
      "loss": 0.8075,
      "step": 544
    },
    {
      "epoch": 0.598654400659069,
      "grad_norm": 0.3531246483325958,
      "learning_rate": 0.00026678876678876677,
      "loss": 0.6986,
      "step": 545
    },
    {
      "epoch": 0.5997528491006453,
      "grad_norm": 0.36428287625312805,
      "learning_rate": 0.0002666666666666666,
      "loss": 0.6496,
      "step": 546
    },
    {
      "epoch": 0.6008512975422217,
      "grad_norm": 0.45706960558891296,
      "learning_rate": 0.00026654456654456654,
      "loss": 0.5646,
      "step": 547
    },
    {
      "epoch": 0.6019497459837979,
      "grad_norm": 0.39326363801956177,
      "learning_rate": 0.0002664224664224664,
      "loss": 0.5037,
      "step": 548
    },
    {
      "epoch": 0.6030481944253742,
      "grad_norm": 0.7158151268959045,
      "learning_rate": 0.00026630036630036625,
      "loss": 0.5643,
      "step": 549
    },
    {
      "epoch": 0.6041466428669504,
      "grad_norm": 0.398335337638855,
      "learning_rate": 0.00026617826617826617,
      "loss": 0.5462,
      "step": 550
    },
    {
      "epoch": 0.6052450913085267,
      "grad_norm": 0.8625812530517578,
      "learning_rate": 0.000266056166056166,
      "loss": 0.7898,
      "step": 551
    },
    {
      "epoch": 0.606343539750103,
      "grad_norm": 0.5558099150657654,
      "learning_rate": 0.0002659340659340659,
      "loss": 0.7968,
      "step": 552
    },
    {
      "epoch": 0.6074419881916793,
      "grad_norm": 0.6244741678237915,
      "learning_rate": 0.0002658119658119658,
      "loss": 0.9085,
      "step": 553
    },
    {
      "epoch": 0.6085404366332555,
      "grad_norm": 0.4907127916812897,
      "learning_rate": 0.00026568986568986565,
      "loss": 0.5683,
      "step": 554
    },
    {
      "epoch": 0.6096388850748318,
      "grad_norm": 0.6140159964561462,
      "learning_rate": 0.0002655677655677655,
      "loss": 0.5693,
      "step": 555
    },
    {
      "epoch": 0.610737333516408,
      "grad_norm": 0.41251274943351746,
      "learning_rate": 0.0002654456654456654,
      "loss": 0.728,
      "step": 556
    },
    {
      "epoch": 0.6118357819579844,
      "grad_norm": 0.43427684903144836,
      "learning_rate": 0.00026532356532356534,
      "loss": 0.5692,
      "step": 557
    },
    {
      "epoch": 0.6129342303995606,
      "grad_norm": 0.41471078991889954,
      "learning_rate": 0.00026520146520146514,
      "loss": 0.6616,
      "step": 558
    },
    {
      "epoch": 0.6140326788411369,
      "grad_norm": 0.4406953752040863,
      "learning_rate": 0.00026507936507936506,
      "loss": 0.4764,
      "step": 559
    },
    {
      "epoch": 0.6151311272827131,
      "grad_norm": 7.233060359954834,
      "learning_rate": 0.00026495726495726497,
      "loss": 0.6111,
      "step": 560
    },
    {
      "epoch": 0.6162295757242895,
      "grad_norm": 0.47008857131004333,
      "learning_rate": 0.0002648351648351648,
      "loss": 0.8145,
      "step": 561
    },
    {
      "epoch": 0.6173280241658657,
      "grad_norm": 0.47636717557907104,
      "learning_rate": 0.0002647130647130647,
      "loss": 0.8036,
      "step": 562
    },
    {
      "epoch": 0.618426472607442,
      "grad_norm": 0.526971161365509,
      "learning_rate": 0.0002645909645909646,
      "loss": 0.7559,
      "step": 563
    },
    {
      "epoch": 0.6195249210490182,
      "grad_norm": 0.5027382373809814,
      "learning_rate": 0.00026446886446886446,
      "loss": 0.7765,
      "step": 564
    },
    {
      "epoch": 0.6206233694905945,
      "grad_norm": 0.4222506284713745,
      "learning_rate": 0.0002643467643467643,
      "loss": 0.6376,
      "step": 565
    },
    {
      "epoch": 0.6217218179321709,
      "grad_norm": 0.6390372514724731,
      "learning_rate": 0.0002642246642246642,
      "loss": 0.8224,
      "step": 566
    },
    {
      "epoch": 0.6228202663737471,
      "grad_norm": 0.44495514035224915,
      "learning_rate": 0.0002641025641025641,
      "loss": 0.5995,
      "step": 567
    },
    {
      "epoch": 0.6239187148153233,
      "grad_norm": 0.7005137205123901,
      "learning_rate": 0.00026398046398046394,
      "loss": 0.4986,
      "step": 568
    },
    {
      "epoch": 0.6250171632568996,
      "grad_norm": 0.40745365619659424,
      "learning_rate": 0.0002638583638583638,
      "loss": 0.608,
      "step": 569
    },
    {
      "epoch": 0.6261156116984758,
      "grad_norm": 0.3449142277240753,
      "learning_rate": 0.0002637362637362637,
      "loss": 0.6253,
      "step": 570
    },
    {
      "epoch": 0.6272140601400522,
      "grad_norm": 0.4318457841873169,
      "learning_rate": 0.00026361416361416357,
      "loss": 0.6376,
      "step": 571
    },
    {
      "epoch": 0.6283125085816285,
      "grad_norm": 2.2202258110046387,
      "learning_rate": 0.00026349206349206343,
      "loss": 0.5477,
      "step": 572
    },
    {
      "epoch": 0.6294109570232047,
      "grad_norm": 0.6759721040725708,
      "learning_rate": 0.00026336996336996334,
      "loss": 1.1176,
      "step": 573
    },
    {
      "epoch": 0.630509405464781,
      "grad_norm": 1.7796927690505981,
      "learning_rate": 0.00026324786324786326,
      "loss": 0.8713,
      "step": 574
    },
    {
      "epoch": 0.6316078539063573,
      "grad_norm": 0.32952558994293213,
      "learning_rate": 0.0002631257631257631,
      "loss": 0.4711,
      "step": 575
    },
    {
      "epoch": 0.6327063023479336,
      "grad_norm": 0.40390628576278687,
      "learning_rate": 0.000263003663003663,
      "loss": 0.5412,
      "step": 576
    },
    {
      "epoch": 0.6338047507895098,
      "grad_norm": 0.7439208030700684,
      "learning_rate": 0.0002628815628815629,
      "loss": 0.7094,
      "step": 577
    },
    {
      "epoch": 0.6349031992310861,
      "grad_norm": 0.34505775570869446,
      "learning_rate": 0.00026275946275946274,
      "loss": 0.5939,
      "step": 578
    },
    {
      "epoch": 0.6360016476726623,
      "grad_norm": 0.9452011585235596,
      "learning_rate": 0.0002626373626373626,
      "loss": 0.5108,
      "step": 579
    },
    {
      "epoch": 0.6371000961142387,
      "grad_norm": 0.42789551615715027,
      "learning_rate": 0.0002625152625152625,
      "loss": 0.5661,
      "step": 580
    },
    {
      "epoch": 0.6381985445558149,
      "grad_norm": 0.3460575044155121,
      "learning_rate": 0.0002623931623931624,
      "loss": 0.8333,
      "step": 581
    },
    {
      "epoch": 0.6392969929973912,
      "grad_norm": 0.8932168483734131,
      "learning_rate": 0.00026227106227106223,
      "loss": 0.7058,
      "step": 582
    },
    {
      "epoch": 0.6403954414389674,
      "grad_norm": 0.8588842749595642,
      "learning_rate": 0.00026214896214896214,
      "loss": 0.6905,
      "step": 583
    },
    {
      "epoch": 0.6414938898805437,
      "grad_norm": 0.5097251534461975,
      "learning_rate": 0.000262026862026862,
      "loss": 0.8189,
      "step": 584
    },
    {
      "epoch": 0.64259233832212,
      "grad_norm": 0.45746755599975586,
      "learning_rate": 0.00026190476190476186,
      "loss": 0.7212,
      "step": 585
    },
    {
      "epoch": 0.6436907867636963,
      "grad_norm": 0.9576689600944519,
      "learning_rate": 0.0002617826617826618,
      "loss": 0.6159,
      "step": 586
    },
    {
      "epoch": 0.6447892352052725,
      "grad_norm": 0.5721899271011353,
      "learning_rate": 0.00026166056166056163,
      "loss": 0.6083,
      "step": 587
    },
    {
      "epoch": 0.6458876836468488,
      "grad_norm": 0.4851115942001343,
      "learning_rate": 0.00026153846153846154,
      "loss": 0.7678,
      "step": 588
    },
    {
      "epoch": 0.6469861320884251,
      "grad_norm": 0.6631761193275452,
      "learning_rate": 0.0002614163614163614,
      "loss": 0.7068,
      "step": 589
    },
    {
      "epoch": 0.6480845805300014,
      "grad_norm": 0.6862382292747498,
      "learning_rate": 0.00026129426129426126,
      "loss": 0.5766,
      "step": 590
    },
    {
      "epoch": 0.6491830289715776,
      "grad_norm": 0.3754968047142029,
      "learning_rate": 0.0002611721611721612,
      "loss": 0.7254,
      "step": 591
    },
    {
      "epoch": 0.6502814774131539,
      "grad_norm": 0.5239700078964233,
      "learning_rate": 0.00026105006105006103,
      "loss": 0.5777,
      "step": 592
    },
    {
      "epoch": 0.6513799258547301,
      "grad_norm": 0.5103443264961243,
      "learning_rate": 0.0002609279609279609,
      "loss": 1.0006,
      "step": 593
    },
    {
      "epoch": 0.6524783742963065,
      "grad_norm": 0.4733884632587433,
      "learning_rate": 0.0002608058608058608,
      "loss": 0.6851,
      "step": 594
    },
    {
      "epoch": 0.6535768227378828,
      "grad_norm": 0.5982065796852112,
      "learning_rate": 0.00026068376068376066,
      "loss": 0.6295,
      "step": 595
    },
    {
      "epoch": 0.654675271179459,
      "grad_norm": 1.2408190965652466,
      "learning_rate": 0.0002605616605616605,
      "loss": 0.8806,
      "step": 596
    },
    {
      "epoch": 0.6557737196210353,
      "grad_norm": 0.6005455851554871,
      "learning_rate": 0.00026043956043956043,
      "loss": 0.7186,
      "step": 597
    },
    {
      "epoch": 0.6568721680626116,
      "grad_norm": 0.33777105808258057,
      "learning_rate": 0.0002603174603174603,
      "loss": 0.4599,
      "step": 598
    },
    {
      "epoch": 0.6579706165041879,
      "grad_norm": 0.5336529612541199,
      "learning_rate": 0.00026019536019536015,
      "loss": 0.553,
      "step": 599
    },
    {
      "epoch": 0.6590690649457641,
      "grad_norm": 0.6930931806564331,
      "learning_rate": 0.00026007326007326006,
      "loss": 0.5686,
      "step": 600
    },
    {
      "epoch": 0.6601675133873404,
      "grad_norm": 1.1340439319610596,
      "learning_rate": 0.0002599511599511599,
      "loss": 0.5886,
      "step": 601
    },
    {
      "epoch": 0.6612659618289166,
      "grad_norm": 0.9833797812461853,
      "learning_rate": 0.0002598290598290598,
      "loss": 0.7109,
      "step": 602
    },
    {
      "epoch": 0.662364410270493,
      "grad_norm": 0.9305315017700195,
      "learning_rate": 0.0002597069597069597,
      "loss": 0.8341,
      "step": 603
    },
    {
      "epoch": 0.6634628587120692,
      "grad_norm": 0.9753265380859375,
      "learning_rate": 0.00025958485958485955,
      "loss": 0.7102,
      "step": 604
    },
    {
      "epoch": 0.6645613071536455,
      "grad_norm": 2.2342822551727295,
      "learning_rate": 0.00025946275946275946,
      "loss": 0.6784,
      "step": 605
    },
    {
      "epoch": 0.6656597555952217,
      "grad_norm": 0.6815157532691956,
      "learning_rate": 0.0002593406593406593,
      "loss": 0.7689,
      "step": 606
    },
    {
      "epoch": 0.666758204036798,
      "grad_norm": 0.7792591452598572,
      "learning_rate": 0.0002592185592185592,
      "loss": 0.9444,
      "step": 607
    },
    {
      "epoch": 0.6678566524783743,
      "grad_norm": 0.668251097202301,
      "learning_rate": 0.0002590964590964591,
      "loss": 0.6899,
      "step": 608
    },
    {
      "epoch": 0.6689551009199506,
      "grad_norm": 0.5041349530220032,
      "learning_rate": 0.00025897435897435895,
      "loss": 0.652,
      "step": 609
    },
    {
      "epoch": 0.6700535493615268,
      "grad_norm": 0.35069939494132996,
      "learning_rate": 0.0002588522588522588,
      "loss": 0.8102,
      "step": 610
    },
    {
      "epoch": 0.6711519978031031,
      "grad_norm": 3.324793577194214,
      "learning_rate": 0.0002587301587301587,
      "loss": 0.7936,
      "step": 611
    },
    {
      "epoch": 0.6722504462446794,
      "grad_norm": 0.6778903007507324,
      "learning_rate": 0.0002586080586080586,
      "loss": 0.6258,
      "step": 612
    },
    {
      "epoch": 0.6733488946862557,
      "grad_norm": 3.034745454788208,
      "learning_rate": 0.00025848595848595844,
      "loss": 0.697,
      "step": 613
    },
    {
      "epoch": 0.6744473431278319,
      "grad_norm": 2.563870429992676,
      "learning_rate": 0.00025836385836385835,
      "loss": 0.7596,
      "step": 614
    },
    {
      "epoch": 0.6755457915694082,
      "grad_norm": 0.45592913031578064,
      "learning_rate": 0.0002582417582417582,
      "loss": 0.7753,
      "step": 615
    },
    {
      "epoch": 0.6766442400109844,
      "grad_norm": 0.7209720015525818,
      "learning_rate": 0.00025811965811965807,
      "loss": 0.6907,
      "step": 616
    },
    {
      "epoch": 0.6777426884525608,
      "grad_norm": 0.4611949026584625,
      "learning_rate": 0.000257997557997558,
      "loss": 0.5896,
      "step": 617
    },
    {
      "epoch": 0.678841136894137,
      "grad_norm": 1.3885395526885986,
      "learning_rate": 0.0002578754578754579,
      "loss": 0.6344,
      "step": 618
    },
    {
      "epoch": 0.6799395853357133,
      "grad_norm": 0.544572651386261,
      "learning_rate": 0.00025775335775335775,
      "loss": 0.586,
      "step": 619
    },
    {
      "epoch": 0.6810380337772896,
      "grad_norm": 0.5637034177780151,
      "learning_rate": 0.0002576312576312576,
      "loss": 0.8284,
      "step": 620
    },
    {
      "epoch": 0.6821364822188658,
      "grad_norm": 1.170779824256897,
      "learning_rate": 0.00025750915750915747,
      "loss": 0.8818,
      "step": 621
    },
    {
      "epoch": 0.6832349306604422,
      "grad_norm": 0.4877263605594635,
      "learning_rate": 0.0002573870573870574,
      "loss": 0.9179,
      "step": 622
    },
    {
      "epoch": 0.6843333791020184,
      "grad_norm": 0.6684415340423584,
      "learning_rate": 0.00025726495726495724,
      "loss": 0.7358,
      "step": 623
    },
    {
      "epoch": 0.6854318275435947,
      "grad_norm": 0.6679075956344604,
      "learning_rate": 0.0002571428571428571,
      "loss": 0.6342,
      "step": 624
    },
    {
      "epoch": 0.6865302759851709,
      "grad_norm": 0.65242600440979,
      "learning_rate": 0.000257020757020757,
      "loss": 0.4762,
      "step": 625
    },
    {
      "epoch": 0.6876287244267473,
      "grad_norm": 0.806523859500885,
      "learning_rate": 0.00025689865689865687,
      "loss": 0.7621,
      "step": 626
    },
    {
      "epoch": 0.6887271728683235,
      "grad_norm": 1.09652578830719,
      "learning_rate": 0.0002567765567765567,
      "loss": 0.6594,
      "step": 627
    },
    {
      "epoch": 0.6898256213098998,
      "grad_norm": 0.412505179643631,
      "learning_rate": 0.00025665445665445664,
      "loss": 0.8026,
      "step": 628
    },
    {
      "epoch": 0.690924069751476,
      "grad_norm": 0.5801676511764526,
      "learning_rate": 0.0002565323565323565,
      "loss": 0.7026,
      "step": 629
    },
    {
      "epoch": 0.6920225181930523,
      "grad_norm": 0.6822883486747742,
      "learning_rate": 0.00025641025641025636,
      "loss": 0.4372,
      "step": 630
    },
    {
      "epoch": 0.6931209666346286,
      "grad_norm": 0.3455508351325989,
      "learning_rate": 0.00025628815628815627,
      "loss": 0.5624,
      "step": 631
    },
    {
      "epoch": 0.6942194150762049,
      "grad_norm": 0.3533216714859009,
      "learning_rate": 0.0002561660561660562,
      "loss": 0.7493,
      "step": 632
    },
    {
      "epoch": 0.6953178635177811,
      "grad_norm": 1.4306656122207642,
      "learning_rate": 0.000256043956043956,
      "loss": 0.7537,
      "step": 633
    },
    {
      "epoch": 0.6964163119593574,
      "grad_norm": 0.336393266916275,
      "learning_rate": 0.0002559218559218559,
      "loss": 0.787,
      "step": 634
    },
    {
      "epoch": 0.6975147604009336,
      "grad_norm": 0.5303547382354736,
      "learning_rate": 0.0002557997557997558,
      "loss": 0.5604,
      "step": 635
    },
    {
      "epoch": 0.69861320884251,
      "grad_norm": 0.5421821475028992,
      "learning_rate": 0.00025567765567765567,
      "loss": 0.6905,
      "step": 636
    },
    {
      "epoch": 0.6997116572840862,
      "grad_norm": 0.5445061922073364,
      "learning_rate": 0.00025555555555555553,
      "loss": 0.6389,
      "step": 637
    },
    {
      "epoch": 0.7008101057256625,
      "grad_norm": 0.42832881212234497,
      "learning_rate": 0.00025543345543345544,
      "loss": 0.7825,
      "step": 638
    },
    {
      "epoch": 0.7019085541672387,
      "grad_norm": 1.4624862670898438,
      "learning_rate": 0.0002553113553113553,
      "loss": 0.4964,
      "step": 639
    },
    {
      "epoch": 0.7030070026088151,
      "grad_norm": 0.38657426834106445,
      "learning_rate": 0.00025518925518925516,
      "loss": 0.5299,
      "step": 640
    },
    {
      "epoch": 0.7041054510503914,
      "grad_norm": 14.422834396362305,
      "learning_rate": 0.00025506715506715507,
      "loss": 0.5008,
      "step": 641
    },
    {
      "epoch": 0.7052038994919676,
      "grad_norm": 0.591106653213501,
      "learning_rate": 0.00025494505494505493,
      "loss": 0.6732,
      "step": 642
    },
    {
      "epoch": 0.7063023479335439,
      "grad_norm": 1.6697375774383545,
      "learning_rate": 0.0002548229548229548,
      "loss": 0.6782,
      "step": 643
    },
    {
      "epoch": 0.7074007963751201,
      "grad_norm": 1.670777678489685,
      "learning_rate": 0.0002547008547008547,
      "loss": 0.5275,
      "step": 644
    },
    {
      "epoch": 0.7084992448166965,
      "grad_norm": 2.3361563682556152,
      "learning_rate": 0.00025457875457875456,
      "loss": 0.4177,
      "step": 645
    },
    {
      "epoch": 0.7095976932582727,
      "grad_norm": 1.823844313621521,
      "learning_rate": 0.0002544566544566544,
      "loss": 0.5438,
      "step": 646
    },
    {
      "epoch": 0.710696141699849,
      "grad_norm": 0.5374146699905396,
      "learning_rate": 0.0002543345543345543,
      "loss": 0.6704,
      "step": 647
    },
    {
      "epoch": 0.7117945901414252,
      "grad_norm": 0.9709361791610718,
      "learning_rate": 0.0002542124542124542,
      "loss": 0.8896,
      "step": 648
    },
    {
      "epoch": 0.7128930385830015,
      "grad_norm": 0.7118197083473206,
      "learning_rate": 0.0002540903540903541,
      "loss": 0.766,
      "step": 649
    },
    {
      "epoch": 0.7139914870245778,
      "grad_norm": 0.4597225487232208,
      "learning_rate": 0.00025396825396825396,
      "loss": 0.7498,
      "step": 650
    },
    {
      "epoch": 0.7150899354661541,
      "grad_norm": 0.9708977937698364,
      "learning_rate": 0.0002538461538461538,
      "loss": 0.7602,
      "step": 651
    },
    {
      "epoch": 0.7161883839077303,
      "grad_norm": 0.8156960606575012,
      "learning_rate": 0.00025372405372405373,
      "loss": 1.1105,
      "step": 652
    },
    {
      "epoch": 0.7172868323493066,
      "grad_norm": 1.4135644435882568,
      "learning_rate": 0.0002536019536019536,
      "loss": 0.9203,
      "step": 653
    },
    {
      "epoch": 0.7183852807908829,
      "grad_norm": 0.5754226446151733,
      "learning_rate": 0.00025347985347985344,
      "loss": 0.5368,
      "step": 654
    },
    {
      "epoch": 0.7194837292324592,
      "grad_norm": 1.7644588947296143,
      "learning_rate": 0.00025335775335775336,
      "loss": 0.6451,
      "step": 655
    },
    {
      "epoch": 0.7205821776740354,
      "grad_norm": 4.35576868057251,
      "learning_rate": 0.0002532356532356532,
      "loss": 0.6732,
      "step": 656
    },
    {
      "epoch": 0.7216806261156117,
      "grad_norm": 1.1072558164596558,
      "learning_rate": 0.0002531135531135531,
      "loss": 0.7901,
      "step": 657
    },
    {
      "epoch": 0.7227790745571879,
      "grad_norm": 0.3916113078594208,
      "learning_rate": 0.000252991452991453,
      "loss": 0.7153,
      "step": 658
    },
    {
      "epoch": 0.7238775229987643,
      "grad_norm": 1.055137276649475,
      "learning_rate": 0.00025286935286935285,
      "loss": 0.8664,
      "step": 659
    },
    {
      "epoch": 0.7249759714403405,
      "grad_norm": 0.5966087579727173,
      "learning_rate": 0.0002527472527472527,
      "loss": 0.933,
      "step": 660
    },
    {
      "epoch": 0.7260744198819168,
      "grad_norm": 0.40958529710769653,
      "learning_rate": 0.0002526251526251526,
      "loss": 0.7196,
      "step": 661
    },
    {
      "epoch": 0.727172868323493,
      "grad_norm": 0.4636710584163666,
      "learning_rate": 0.0002525030525030525,
      "loss": 0.7039,
      "step": 662
    },
    {
      "epoch": 0.7282713167650693,
      "grad_norm": 0.6967337131500244,
      "learning_rate": 0.0002523809523809524,
      "loss": 0.8981,
      "step": 663
    },
    {
      "epoch": 0.7293697652066456,
      "grad_norm": 0.49781784415245056,
      "learning_rate": 0.00025225885225885225,
      "loss": 0.7239,
      "step": 664
    },
    {
      "epoch": 0.7304682136482219,
      "grad_norm": 0.940851628780365,
      "learning_rate": 0.0002521367521367521,
      "loss": 0.8199,
      "step": 665
    },
    {
      "epoch": 0.7315666620897981,
      "grad_norm": 1.0271226167678833,
      "learning_rate": 0.000252014652014652,
      "loss": 0.6757,
      "step": 666
    },
    {
      "epoch": 0.7326651105313744,
      "grad_norm": 0.5299912095069885,
      "learning_rate": 0.0002518925518925519,
      "loss": 0.8464,
      "step": 667
    },
    {
      "epoch": 0.7337635589729508,
      "grad_norm": 0.7060052156448364,
      "learning_rate": 0.00025177045177045173,
      "loss": 0.6541,
      "step": 668
    },
    {
      "epoch": 0.734862007414527,
      "grad_norm": 0.5419691205024719,
      "learning_rate": 0.00025164835164835165,
      "loss": 0.8741,
      "step": 669
    },
    {
      "epoch": 0.7359604558561033,
      "grad_norm": 0.6363463401794434,
      "learning_rate": 0.0002515262515262515,
      "loss": 0.7224,
      "step": 670
    },
    {
      "epoch": 0.7370589042976795,
      "grad_norm": 0.7622922658920288,
      "learning_rate": 0.00025140415140415136,
      "loss": 0.9402,
      "step": 671
    },
    {
      "epoch": 0.7381573527392558,
      "grad_norm": 0.7477490305900574,
      "learning_rate": 0.0002512820512820513,
      "loss": 0.6036,
      "step": 672
    },
    {
      "epoch": 0.7392558011808321,
      "grad_norm": 0.4813562333583832,
      "learning_rate": 0.00025115995115995113,
      "loss": 0.5982,
      "step": 673
    },
    {
      "epoch": 0.7403542496224084,
      "grad_norm": 3.112766981124878,
      "learning_rate": 0.000251037851037851,
      "loss": 0.5825,
      "step": 674
    },
    {
      "epoch": 0.7414526980639846,
      "grad_norm": 0.9523088932037354,
      "learning_rate": 0.0002509157509157509,
      "loss": 0.5698,
      "step": 675
    },
    {
      "epoch": 0.7425511465055609,
      "grad_norm": 0.3426001965999603,
      "learning_rate": 0.00025079365079365076,
      "loss": 0.5516,
      "step": 676
    },
    {
      "epoch": 0.7436495949471371,
      "grad_norm": 0.4866350591182709,
      "learning_rate": 0.0002506715506715506,
      "loss": 0.5466,
      "step": 677
    },
    {
      "epoch": 0.7447480433887135,
      "grad_norm": 0.6590595245361328,
      "learning_rate": 0.00025054945054945053,
      "loss": 0.7579,
      "step": 678
    },
    {
      "epoch": 0.7458464918302897,
      "grad_norm": 0.36733704805374146,
      "learning_rate": 0.0002504273504273504,
      "loss": 0.5114,
      "step": 679
    },
    {
      "epoch": 0.746944940271866,
      "grad_norm": 0.5890951156616211,
      "learning_rate": 0.0002503052503052503,
      "loss": 0.7196,
      "step": 680
    },
    {
      "epoch": 0.7480433887134422,
      "grad_norm": 0.8393438458442688,
      "learning_rate": 0.00025018315018315016,
      "loss": 0.6291,
      "step": 681
    },
    {
      "epoch": 0.7491418371550186,
      "grad_norm": 0.9745636582374573,
      "learning_rate": 0.00025006105006105,
      "loss": 0.8675,
      "step": 682
    },
    {
      "epoch": 0.7502402855965948,
      "grad_norm": 1.1764310598373413,
      "learning_rate": 0.00024993894993894993,
      "loss": 0.9384,
      "step": 683
    },
    {
      "epoch": 0.7513387340381711,
      "grad_norm": 0.6199970245361328,
      "learning_rate": 0.0002498168498168498,
      "loss": 0.5984,
      "step": 684
    },
    {
      "epoch": 0.7524371824797473,
      "grad_norm": 2.2708802223205566,
      "learning_rate": 0.00024969474969474965,
      "loss": 0.7867,
      "step": 685
    },
    {
      "epoch": 0.7535356309213236,
      "grad_norm": 0.6731462478637695,
      "learning_rate": 0.00024957264957264956,
      "loss": 0.5377,
      "step": 686
    },
    {
      "epoch": 0.7546340793629,
      "grad_norm": 0.991669774055481,
      "learning_rate": 0.0002494505494505494,
      "loss": 0.7015,
      "step": 687
    },
    {
      "epoch": 0.7557325278044762,
      "grad_norm": 0.5873506665229797,
      "learning_rate": 0.0002493284493284493,
      "loss": 0.567,
      "step": 688
    },
    {
      "epoch": 0.7568309762460524,
      "grad_norm": 1.5025473833084106,
      "learning_rate": 0.0002492063492063492,
      "loss": 0.6264,
      "step": 689
    },
    {
      "epoch": 0.7579294246876287,
      "grad_norm": 0.4942665696144104,
      "learning_rate": 0.00024908424908424905,
      "loss": 0.7623,
      "step": 690
    },
    {
      "epoch": 0.7590278731292049,
      "grad_norm": 0.5522105693817139,
      "learning_rate": 0.0002489621489621489,
      "loss": 0.6192,
      "step": 691
    },
    {
      "epoch": 0.7601263215707813,
      "grad_norm": 1.25243079662323,
      "learning_rate": 0.0002488400488400488,
      "loss": 0.8547,
      "step": 692
    },
    {
      "epoch": 0.7612247700123576,
      "grad_norm": 0.5228685140609741,
      "learning_rate": 0.00024871794871794874,
      "loss": 0.7365,
      "step": 693
    },
    {
      "epoch": 0.7623232184539338,
      "grad_norm": 1.5090827941894531,
      "learning_rate": 0.0002485958485958486,
      "loss": 0.9226,
      "step": 694
    },
    {
      "epoch": 0.76342166689551,
      "grad_norm": 3.3617379665374756,
      "learning_rate": 0.00024847374847374845,
      "loss": 0.7942,
      "step": 695
    },
    {
      "epoch": 0.7645201153370864,
      "grad_norm": 0.5350137948989868,
      "learning_rate": 0.0002483516483516483,
      "loss": 0.6254,
      "step": 696
    },
    {
      "epoch": 0.7656185637786627,
      "grad_norm": 0.8871312141418457,
      "learning_rate": 0.0002482295482295482,
      "loss": 0.8241,
      "step": 697
    },
    {
      "epoch": 0.7667170122202389,
      "grad_norm": 0.48593926429748535,
      "learning_rate": 0.0002481074481074481,
      "loss": 0.5707,
      "step": 698
    },
    {
      "epoch": 0.7678154606618152,
      "grad_norm": 0.7460000514984131,
      "learning_rate": 0.00024798534798534794,
      "loss": 0.9521,
      "step": 699
    },
    {
      "epoch": 0.7689139091033914,
      "grad_norm": 0.7105034589767456,
      "learning_rate": 0.00024786324786324785,
      "loss": 0.7513,
      "step": 700
    },
    {
      "epoch": 0.7700123575449678,
      "grad_norm": 0.40251481533050537,
      "learning_rate": 0.0002477411477411477,
      "loss": 0.6067,
      "step": 701
    },
    {
      "epoch": 0.771110805986544,
      "grad_norm": 0.452709436416626,
      "learning_rate": 0.00024761904761904757,
      "loss": 0.671,
      "step": 702
    },
    {
      "epoch": 0.7722092544281203,
      "grad_norm": 0.581453263759613,
      "learning_rate": 0.0002474969474969475,
      "loss": 0.5356,
      "step": 703
    },
    {
      "epoch": 0.7733077028696965,
      "grad_norm": 0.8013669848442078,
      "learning_rate": 0.00024737484737484734,
      "loss": 0.6889,
      "step": 704
    },
    {
      "epoch": 0.7744061513112728,
      "grad_norm": 1.1480565071105957,
      "learning_rate": 0.0002472527472527472,
      "loss": 0.7456,
      "step": 705
    },
    {
      "epoch": 0.7755045997528491,
      "grad_norm": 0.7568329572677612,
      "learning_rate": 0.0002471306471306471,
      "loss": 0.7455,
      "step": 706
    },
    {
      "epoch": 0.7766030481944254,
      "grad_norm": 0.4223226308822632,
      "learning_rate": 0.000247008547008547,
      "loss": 0.7138,
      "step": 707
    },
    {
      "epoch": 0.7777014966360016,
      "grad_norm": 0.372872531414032,
      "learning_rate": 0.00024688644688644683,
      "loss": 0.8037,
      "step": 708
    },
    {
      "epoch": 0.7787999450775779,
      "grad_norm": 0.968614399433136,
      "learning_rate": 0.00024676434676434674,
      "loss": 0.5943,
      "step": 709
    },
    {
      "epoch": 0.7798983935191542,
      "grad_norm": 0.801157534122467,
      "learning_rate": 0.00024664224664224665,
      "loss": 0.9467,
      "step": 710
    },
    {
      "epoch": 0.7809968419607305,
      "grad_norm": 0.7115808129310608,
      "learning_rate": 0.0002465201465201465,
      "loss": 0.7828,
      "step": 711
    },
    {
      "epoch": 0.7820952904023067,
      "grad_norm": 1.2951349020004272,
      "learning_rate": 0.00024639804639804637,
      "loss": 0.6221,
      "step": 712
    },
    {
      "epoch": 0.783193738843883,
      "grad_norm": 0.47706693410873413,
      "learning_rate": 0.0002462759462759463,
      "loss": 0.3641,
      "step": 713
    },
    {
      "epoch": 0.7842921872854592,
      "grad_norm": 0.8871097564697266,
      "learning_rate": 0.00024615384615384614,
      "loss": 0.6177,
      "step": 714
    },
    {
      "epoch": 0.7853906357270356,
      "grad_norm": 0.7920973896980286,
      "learning_rate": 0.000246031746031746,
      "loss": 0.5858,
      "step": 715
    },
    {
      "epoch": 0.7864890841686119,
      "grad_norm": 0.49732694029808044,
      "learning_rate": 0.0002459096459096459,
      "loss": 0.5176,
      "step": 716
    },
    {
      "epoch": 0.7875875326101881,
      "grad_norm": 0.34965720772743225,
      "learning_rate": 0.00024578754578754577,
      "loss": 0.4983,
      "step": 717
    },
    {
      "epoch": 0.7886859810517644,
      "grad_norm": 0.45963025093078613,
      "learning_rate": 0.00024566544566544563,
      "loss": 0.7756,
      "step": 718
    },
    {
      "epoch": 0.7897844294933407,
      "grad_norm": 0.5802373290061951,
      "learning_rate": 0.00024554334554334554,
      "loss": 0.5773,
      "step": 719
    },
    {
      "epoch": 0.790882877934917,
      "grad_norm": 1.8482742309570312,
      "learning_rate": 0.0002454212454212454,
      "loss": 0.7978,
      "step": 720
    },
    {
      "epoch": 0.7919813263764932,
      "grad_norm": 0.5821959972381592,
      "learning_rate": 0.00024529914529914526,
      "loss": 0.7483,
      "step": 721
    },
    {
      "epoch": 0.7930797748180695,
      "grad_norm": 0.9352701306343079,
      "learning_rate": 0.0002451770451770451,
      "loss": 0.6979,
      "step": 722
    },
    {
      "epoch": 0.7941782232596457,
      "grad_norm": 0.554032564163208,
      "learning_rate": 0.00024505494505494503,
      "loss": 0.6773,
      "step": 723
    },
    {
      "epoch": 0.7952766717012221,
      "grad_norm": 0.6914504766464233,
      "learning_rate": 0.00024493284493284494,
      "loss": 0.6548,
      "step": 724
    },
    {
      "epoch": 0.7963751201427983,
      "grad_norm": 0.40804949402809143,
      "learning_rate": 0.0002448107448107448,
      "loss": 0.4634,
      "step": 725
    },
    {
      "epoch": 0.7974735685843746,
      "grad_norm": 0.4965716302394867,
      "learning_rate": 0.00024468864468864466,
      "loss": 0.4879,
      "step": 726
    },
    {
      "epoch": 0.7985720170259508,
      "grad_norm": 0.48798999190330505,
      "learning_rate": 0.00024456654456654457,
      "loss": 0.7003,
      "step": 727
    },
    {
      "epoch": 0.7996704654675271,
      "grad_norm": 0.6946013569831848,
      "learning_rate": 0.00024444444444444443,
      "loss": 0.7508,
      "step": 728
    },
    {
      "epoch": 0.8007689139091034,
      "grad_norm": 0.4310678243637085,
      "learning_rate": 0.0002443223443223443,
      "loss": 0.5765,
      "step": 729
    },
    {
      "epoch": 0.8018673623506797,
      "grad_norm": 0.5407636761665344,
      "learning_rate": 0.0002442002442002442,
      "loss": 0.5445,
      "step": 730
    },
    {
      "epoch": 0.8029658107922559,
      "grad_norm": 0.6281490921974182,
      "learning_rate": 0.00024407814407814403,
      "loss": 0.9319,
      "step": 731
    },
    {
      "epoch": 0.8040642592338322,
      "grad_norm": 1.2027008533477783,
      "learning_rate": 0.00024395604395604394,
      "loss": 0.3957,
      "step": 732
    },
    {
      "epoch": 0.8051627076754085,
      "grad_norm": 0.543230414390564,
      "learning_rate": 0.00024383394383394383,
      "loss": 0.7919,
      "step": 733
    },
    {
      "epoch": 0.8062611561169848,
      "grad_norm": 0.4269828498363495,
      "learning_rate": 0.0002437118437118437,
      "loss": 0.6081,
      "step": 734
    },
    {
      "epoch": 0.807359604558561,
      "grad_norm": 1.2857966423034668,
      "learning_rate": 0.00024358974358974357,
      "loss": 0.8654,
      "step": 735
    },
    {
      "epoch": 0.8084580530001373,
      "grad_norm": 0.6370485424995422,
      "learning_rate": 0.00024346764346764346,
      "loss": 0.8053,
      "step": 736
    },
    {
      "epoch": 0.8095565014417135,
      "grad_norm": 1.1288559436798096,
      "learning_rate": 0.00024334554334554332,
      "loss": 0.8709,
      "step": 737
    },
    {
      "epoch": 0.8106549498832899,
      "grad_norm": 0.5601497292518616,
      "learning_rate": 0.0002432234432234432,
      "loss": 0.7982,
      "step": 738
    },
    {
      "epoch": 0.8117533983248661,
      "grad_norm": 0.476745069026947,
      "learning_rate": 0.0002431013431013431,
      "loss": 0.7372,
      "step": 739
    },
    {
      "epoch": 0.8128518467664424,
      "grad_norm": 0.4287762939929962,
      "learning_rate": 0.00024297924297924295,
      "loss": 0.5686,
      "step": 740
    },
    {
      "epoch": 0.8139502952080186,
      "grad_norm": 0.7039306163787842,
      "learning_rate": 0.00024285714285714283,
      "loss": 0.7976,
      "step": 741
    },
    {
      "epoch": 0.8150487436495949,
      "grad_norm": 0.47433528304100037,
      "learning_rate": 0.00024273504273504272,
      "loss": 0.6375,
      "step": 742
    },
    {
      "epoch": 0.8161471920911713,
      "grad_norm": 0.5443944931030273,
      "learning_rate": 0.00024261294261294258,
      "loss": 0.6793,
      "step": 743
    },
    {
      "epoch": 0.8172456405327475,
      "grad_norm": 0.516094982624054,
      "learning_rate": 0.00024249084249084246,
      "loss": 0.785,
      "step": 744
    },
    {
      "epoch": 0.8183440889743238,
      "grad_norm": 0.6694304347038269,
      "learning_rate": 0.00024236874236874237,
      "loss": 0.5431,
      "step": 745
    },
    {
      "epoch": 0.8194425374159,
      "grad_norm": 0.5309669375419617,
      "learning_rate": 0.00024224664224664223,
      "loss": 0.5806,
      "step": 746
    },
    {
      "epoch": 0.8205409858574764,
      "grad_norm": 0.5502971410751343,
      "learning_rate": 0.00024212454212454212,
      "loss": 0.5053,
      "step": 747
    },
    {
      "epoch": 0.8216394342990526,
      "grad_norm": 0.5242869853973389,
      "learning_rate": 0.00024200244200244198,
      "loss": 0.8189,
      "step": 748
    },
    {
      "epoch": 0.8227378827406289,
      "grad_norm": 0.4131311774253845,
      "learning_rate": 0.00024188034188034186,
      "loss": 0.7074,
      "step": 749
    },
    {
      "epoch": 0.8238363311822051,
      "grad_norm": 0.599915087223053,
      "learning_rate": 0.00024175824175824175,
      "loss": 0.9408,
      "step": 750
    },
    {
      "epoch": 0.8249347796237814,
      "grad_norm": 0.3683515191078186,
      "learning_rate": 0.0002416361416361416,
      "loss": 0.6675,
      "step": 751
    },
    {
      "epoch": 0.8260332280653577,
      "grad_norm": 1.633415699005127,
      "learning_rate": 0.0002415140415140415,
      "loss": 0.6768,
      "step": 752
    },
    {
      "epoch": 0.827131676506934,
      "grad_norm": 0.3848377764225006,
      "learning_rate": 0.00024139194139194138,
      "loss": 0.485,
      "step": 753
    },
    {
      "epoch": 0.8282301249485102,
      "grad_norm": 0.4116027355194092,
      "learning_rate": 0.00024126984126984123,
      "loss": 0.8253,
      "step": 754
    },
    {
      "epoch": 0.8293285733900865,
      "grad_norm": 0.5805407762527466,
      "learning_rate": 0.00024114774114774112,
      "loss": 0.825,
      "step": 755
    },
    {
      "epoch": 0.8304270218316627,
      "grad_norm": 1.2401742935180664,
      "learning_rate": 0.000241025641025641,
      "loss": 0.6394,
      "step": 756
    },
    {
      "epoch": 0.8315254702732391,
      "grad_norm": 0.42345038056373596,
      "learning_rate": 0.00024090354090354086,
      "loss": 0.6958,
      "step": 757
    },
    {
      "epoch": 0.8326239187148153,
      "grad_norm": 1.3758116960525513,
      "learning_rate": 0.00024078144078144075,
      "loss": 0.6997,
      "step": 758
    },
    {
      "epoch": 0.8337223671563916,
      "grad_norm": 1.1826672554016113,
      "learning_rate": 0.00024065934065934066,
      "loss": 0.7908,
      "step": 759
    },
    {
      "epoch": 0.8348208155979678,
      "grad_norm": 1.0752373933792114,
      "learning_rate": 0.0002405372405372405,
      "loss": 0.8896,
      "step": 760
    },
    {
      "epoch": 0.8359192640395442,
      "grad_norm": 0.3347112834453583,
      "learning_rate": 0.0002404151404151404,
      "loss": 0.8202,
      "step": 761
    },
    {
      "epoch": 0.8370177124811204,
      "grad_norm": 0.5837082266807556,
      "learning_rate": 0.0002402930402930403,
      "loss": 0.7502,
      "step": 762
    },
    {
      "epoch": 0.8381161609226967,
      "grad_norm": 0.5439388751983643,
      "learning_rate": 0.00024017094017094015,
      "loss": 0.6928,
      "step": 763
    },
    {
      "epoch": 0.839214609364273,
      "grad_norm": 0.35348060727119446,
      "learning_rate": 0.00024004884004884004,
      "loss": 0.5495,
      "step": 764
    },
    {
      "epoch": 0.8403130578058492,
      "grad_norm": 0.4943974018096924,
      "learning_rate": 0.00023992673992673992,
      "loss": 0.9218,
      "step": 765
    },
    {
      "epoch": 0.8414115062474256,
      "grad_norm": 0.628667414188385,
      "learning_rate": 0.00023980463980463978,
      "loss": 0.6266,
      "step": 766
    },
    {
      "epoch": 0.8425099546890018,
      "grad_norm": 0.822575032711029,
      "learning_rate": 0.00023968253968253966,
      "loss": 0.791,
      "step": 767
    },
    {
      "epoch": 0.843608403130578,
      "grad_norm": 0.3044184446334839,
      "learning_rate": 0.00023956043956043955,
      "loss": 0.6048,
      "step": 768
    },
    {
      "epoch": 0.8447068515721543,
      "grad_norm": 0.40807369351387024,
      "learning_rate": 0.0002394383394383394,
      "loss": 0.6286,
      "step": 769
    },
    {
      "epoch": 0.8458053000137306,
      "grad_norm": 1.2373838424682617,
      "learning_rate": 0.0002393162393162393,
      "loss": 0.5133,
      "step": 770
    },
    {
      "epoch": 0.8469037484553069,
      "grad_norm": 0.5104987025260925,
      "learning_rate": 0.00023919413919413918,
      "loss": 0.591,
      "step": 771
    },
    {
      "epoch": 0.8480021968968832,
      "grad_norm": 0.6644220352172852,
      "learning_rate": 0.00023907203907203904,
      "loss": 0.7039,
      "step": 772
    },
    {
      "epoch": 0.8491006453384594,
      "grad_norm": 0.5887960195541382,
      "learning_rate": 0.00023894993894993892,
      "loss": 0.7017,
      "step": 773
    },
    {
      "epoch": 0.8501990937800357,
      "grad_norm": 0.6568577885627747,
      "learning_rate": 0.00023882783882783878,
      "loss": 0.6131,
      "step": 774
    },
    {
      "epoch": 0.851297542221612,
      "grad_norm": 0.6594721674919128,
      "learning_rate": 0.00023870573870573867,
      "loss": 0.6079,
      "step": 775
    },
    {
      "epoch": 0.8523959906631883,
      "grad_norm": 12.29937744140625,
      "learning_rate": 0.00023858363858363858,
      "loss": 1.1068,
      "step": 776
    },
    {
      "epoch": 0.8534944391047645,
      "grad_norm": 1.175355315208435,
      "learning_rate": 0.00023846153846153844,
      "loss": 0.734,
      "step": 777
    },
    {
      "epoch": 0.8545928875463408,
      "grad_norm": 1.7128019332885742,
      "learning_rate": 0.00023833943833943832,
      "loss": 0.6395,
      "step": 778
    },
    {
      "epoch": 0.855691335987917,
      "grad_norm": 0.6479717493057251,
      "learning_rate": 0.0002382173382173382,
      "loss": 0.8572,
      "step": 779
    },
    {
      "epoch": 0.8567897844294934,
      "grad_norm": 0.9646544456481934,
      "learning_rate": 0.00023809523809523807,
      "loss": 1.1168,
      "step": 780
    },
    {
      "epoch": 0.8578882328710696,
      "grad_norm": 0.8290930986404419,
      "learning_rate": 0.00023797313797313795,
      "loss": 0.4413,
      "step": 781
    },
    {
      "epoch": 0.8589866813126459,
      "grad_norm": 0.6690389513969421,
      "learning_rate": 0.00023785103785103784,
      "loss": 1.1878,
      "step": 782
    },
    {
      "epoch": 0.8600851297542221,
      "grad_norm": 0.6602356433868408,
      "learning_rate": 0.0002377289377289377,
      "loss": 0.5862,
      "step": 783
    },
    {
      "epoch": 0.8611835781957984,
      "grad_norm": 0.612316370010376,
      "learning_rate": 0.00023760683760683758,
      "loss": 0.7971,
      "step": 784
    },
    {
      "epoch": 0.8622820266373747,
      "grad_norm": 0.7429434657096863,
      "learning_rate": 0.00023748473748473747,
      "loss": 0.6265,
      "step": 785
    },
    {
      "epoch": 0.863380475078951,
      "grad_norm": 0.40107640624046326,
      "learning_rate": 0.00023736263736263733,
      "loss": 0.6697,
      "step": 786
    },
    {
      "epoch": 0.8644789235205272,
      "grad_norm": 0.45808035135269165,
      "learning_rate": 0.0002372405372405372,
      "loss": 0.7443,
      "step": 787
    },
    {
      "epoch": 0.8655773719621035,
      "grad_norm": 0.36327049136161804,
      "learning_rate": 0.0002371184371184371,
      "loss": 0.6518,
      "step": 788
    },
    {
      "epoch": 0.8666758204036799,
      "grad_norm": 0.45617833733558655,
      "learning_rate": 0.00023699633699633696,
      "loss": 0.792,
      "step": 789
    },
    {
      "epoch": 0.8677742688452561,
      "grad_norm": 0.5354835391044617,
      "learning_rate": 0.00023687423687423687,
      "loss": 0.7788,
      "step": 790
    },
    {
      "epoch": 0.8688727172868324,
      "grad_norm": 0.9770327210426331,
      "learning_rate": 0.00023675213675213675,
      "loss": 0.7267,
      "step": 791
    },
    {
      "epoch": 0.8699711657284086,
      "grad_norm": 0.646757960319519,
      "learning_rate": 0.0002366300366300366,
      "loss": 0.7234,
      "step": 792
    },
    {
      "epoch": 0.8710696141699849,
      "grad_norm": 0.4694693982601166,
      "learning_rate": 0.0002365079365079365,
      "loss": 0.8261,
      "step": 793
    },
    {
      "epoch": 0.8721680626115612,
      "grad_norm": 0.9923954606056213,
      "learning_rate": 0.00023638583638583638,
      "loss": 0.703,
      "step": 794
    },
    {
      "epoch": 0.8732665110531375,
      "grad_norm": 1.6440534591674805,
      "learning_rate": 0.00023626373626373624,
      "loss": 0.7654,
      "step": 795
    },
    {
      "epoch": 0.8743649594947137,
      "grad_norm": 0.3947128653526306,
      "learning_rate": 0.00023614163614163613,
      "loss": 0.637,
      "step": 796
    },
    {
      "epoch": 0.87546340793629,
      "grad_norm": 3.4264323711395264,
      "learning_rate": 0.000236019536019536,
      "loss": 0.7325,
      "step": 797
    },
    {
      "epoch": 0.8765618563778662,
      "grad_norm": 0.5469256043434143,
      "learning_rate": 0.00023589743589743587,
      "loss": 0.8203,
      "step": 798
    },
    {
      "epoch": 0.8776603048194426,
      "grad_norm": 0.5184471011161804,
      "learning_rate": 0.00023577533577533576,
      "loss": 0.7895,
      "step": 799
    },
    {
      "epoch": 0.8787587532610188,
      "grad_norm": 0.8231347799301147,
      "learning_rate": 0.00023565323565323562,
      "loss": 0.7888,
      "step": 800
    },
    {
      "epoch": 0.8798572017025951,
      "grad_norm": 14.826855659484863,
      "learning_rate": 0.0002355311355311355,
      "loss": 0.7564,
      "step": 801
    },
    {
      "epoch": 0.8809556501441713,
      "grad_norm": 0.5809927582740784,
      "learning_rate": 0.00023540903540903539,
      "loss": 0.6702,
      "step": 802
    },
    {
      "epoch": 0.8820540985857477,
      "grad_norm": 0.7244674563407898,
      "learning_rate": 0.00023528693528693524,
      "loss": 0.6475,
      "step": 803
    },
    {
      "epoch": 0.8831525470273239,
      "grad_norm": 0.8071272373199463,
      "learning_rate": 0.00023516483516483513,
      "loss": 0.7434,
      "step": 804
    },
    {
      "epoch": 0.8842509954689002,
      "grad_norm": 0.6872429847717285,
      "learning_rate": 0.00023504273504273504,
      "loss": 0.5968,
      "step": 805
    },
    {
      "epoch": 0.8853494439104764,
      "grad_norm": 9.353965759277344,
      "learning_rate": 0.00023492063492063487,
      "loss": 0.4228,
      "step": 806
    },
    {
      "epoch": 0.8864478923520527,
      "grad_norm": 0.47151222825050354,
      "learning_rate": 0.00023479853479853479,
      "loss": 0.6832,
      "step": 807
    },
    {
      "epoch": 0.887546340793629,
      "grad_norm": 1.4599422216415405,
      "learning_rate": 0.00023467643467643467,
      "loss": 0.6692,
      "step": 808
    },
    {
      "epoch": 0.8886447892352053,
      "grad_norm": 0.45811519026756287,
      "learning_rate": 0.00023455433455433453,
      "loss": 0.787,
      "step": 809
    },
    {
      "epoch": 0.8897432376767815,
      "grad_norm": 1.077709674835205,
      "learning_rate": 0.00023443223443223442,
      "loss": 0.6695,
      "step": 810
    },
    {
      "epoch": 0.8908416861183578,
      "grad_norm": 0.5702061057090759,
      "learning_rate": 0.0002343101343101343,
      "loss": 0.5858,
      "step": 811
    },
    {
      "epoch": 0.891940134559934,
      "grad_norm": 2.2391059398651123,
      "learning_rate": 0.00023418803418803416,
      "loss": 0.6688,
      "step": 812
    },
    {
      "epoch": 0.8930385830015104,
      "grad_norm": 1.6974279880523682,
      "learning_rate": 0.00023406593406593405,
      "loss": 0.8545,
      "step": 813
    },
    {
      "epoch": 0.8941370314430866,
      "grad_norm": 0.983435869216919,
      "learning_rate": 0.00023394383394383393,
      "loss": 0.8128,
      "step": 814
    },
    {
      "epoch": 0.8952354798846629,
      "grad_norm": 0.44103240966796875,
      "learning_rate": 0.0002338217338217338,
      "loss": 0.7968,
      "step": 815
    },
    {
      "epoch": 0.8963339283262391,
      "grad_norm": 1.0707038640975952,
      "learning_rate": 0.00023369963369963367,
      "loss": 0.6996,
      "step": 816
    },
    {
      "epoch": 0.8974323767678155,
      "grad_norm": 0.8029122352600098,
      "learning_rate": 0.00023357753357753356,
      "loss": 0.7911,
      "step": 817
    },
    {
      "epoch": 0.8985308252093918,
      "grad_norm": 0.46339499950408936,
      "learning_rate": 0.00023345543345543342,
      "loss": 0.7712,
      "step": 818
    },
    {
      "epoch": 0.899629273650968,
      "grad_norm": 1.020947813987732,
      "learning_rate": 0.0002333333333333333,
      "loss": 0.6865,
      "step": 819
    },
    {
      "epoch": 0.9007277220925443,
      "grad_norm": 0.5332039594650269,
      "learning_rate": 0.00023321123321123322,
      "loss": 0.8352,
      "step": 820
    },
    {
      "epoch": 0.9018261705341205,
      "grad_norm": 0.40052923560142517,
      "learning_rate": 0.00023308913308913307,
      "loss": 0.5435,
      "step": 821
    },
    {
      "epoch": 0.9029246189756969,
      "grad_norm": 0.6643521189689636,
      "learning_rate": 0.00023296703296703296,
      "loss": 0.7406,
      "step": 822
    },
    {
      "epoch": 0.9040230674172731,
      "grad_norm": 0.7514997720718384,
      "learning_rate": 0.00023284493284493285,
      "loss": 0.7595,
      "step": 823
    },
    {
      "epoch": 0.9051215158588494,
      "grad_norm": 0.7124571204185486,
      "learning_rate": 0.0002327228327228327,
      "loss": 0.5736,
      "step": 824
    },
    {
      "epoch": 0.9062199643004256,
      "grad_norm": 0.6757075786590576,
      "learning_rate": 0.0002326007326007326,
      "loss": 0.6275,
      "step": 825
    },
    {
      "epoch": 0.9073184127420019,
      "grad_norm": 0.4200783669948578,
      "learning_rate": 0.00023247863247863245,
      "loss": 0.6267,
      "step": 826
    },
    {
      "epoch": 0.9084168611835782,
      "grad_norm": 0.5442836284637451,
      "learning_rate": 0.00023235653235653233,
      "loss": 0.6814,
      "step": 827
    },
    {
      "epoch": 0.9095153096251545,
      "grad_norm": 0.4859601557254791,
      "learning_rate": 0.00023223443223443222,
      "loss": 0.6451,
      "step": 828
    },
    {
      "epoch": 0.9106137580667307,
      "grad_norm": 0.7353097200393677,
      "learning_rate": 0.00023211233211233208,
      "loss": 0.6723,
      "step": 829
    },
    {
      "epoch": 0.911712206508307,
      "grad_norm": 0.6389304995536804,
      "learning_rate": 0.00023199023199023196,
      "loss": 0.9429,
      "step": 830
    },
    {
      "epoch": 0.9128106549498833,
      "grad_norm": 0.6813933849334717,
      "learning_rate": 0.00023186813186813185,
      "loss": 0.5319,
      "step": 831
    },
    {
      "epoch": 0.9139091033914596,
      "grad_norm": 0.40023690462112427,
      "learning_rate": 0.0002317460317460317,
      "loss": 0.5808,
      "step": 832
    },
    {
      "epoch": 0.9150075518330358,
      "grad_norm": 0.5327205657958984,
      "learning_rate": 0.0002316239316239316,
      "loss": 0.6666,
      "step": 833
    },
    {
      "epoch": 0.9161060002746121,
      "grad_norm": 1.672450065612793,
      "learning_rate": 0.0002315018315018315,
      "loss": 0.7758,
      "step": 834
    },
    {
      "epoch": 0.9172044487161883,
      "grad_norm": 0.5022990703582764,
      "learning_rate": 0.00023137973137973134,
      "loss": 0.6309,
      "step": 835
    },
    {
      "epoch": 0.9183028971577647,
      "grad_norm": 0.43023642897605896,
      "learning_rate": 0.00023125763125763125,
      "loss": 0.5343,
      "step": 836
    },
    {
      "epoch": 0.919401345599341,
      "grad_norm": 0.6878641843795776,
      "learning_rate": 0.00023113553113553113,
      "loss": 0.7268,
      "step": 837
    },
    {
      "epoch": 0.9204997940409172,
      "grad_norm": 0.40551453828811646,
      "learning_rate": 0.000231013431013431,
      "loss": 0.5784,
      "step": 838
    },
    {
      "epoch": 0.9215982424824934,
      "grad_norm": 0.412356436252594,
      "learning_rate": 0.00023089133089133088,
      "loss": 0.7685,
      "step": 839
    },
    {
      "epoch": 0.9226966909240698,
      "grad_norm": 1.1603305339813232,
      "learning_rate": 0.00023076923076923076,
      "loss": 0.518,
      "step": 840
    },
    {
      "epoch": 0.9237951393656461,
      "grad_norm": 0.6733229756355286,
      "learning_rate": 0.00023064713064713062,
      "loss": 0.5883,
      "step": 841
    },
    {
      "epoch": 0.9248935878072223,
      "grad_norm": 0.619434654712677,
      "learning_rate": 0.0002305250305250305,
      "loss": 0.6244,
      "step": 842
    },
    {
      "epoch": 0.9259920362487986,
      "grad_norm": 0.6989772319793701,
      "learning_rate": 0.0002304029304029304,
      "loss": 0.5763,
      "step": 843
    },
    {
      "epoch": 0.9270904846903748,
      "grad_norm": 0.6276418566703796,
      "learning_rate": 0.00023028083028083025,
      "loss": 0.4762,
      "step": 844
    },
    {
      "epoch": 0.9281889331319512,
      "grad_norm": 0.5577360987663269,
      "learning_rate": 0.00023015873015873014,
      "loss": 0.6254,
      "step": 845
    },
    {
      "epoch": 0.9292873815735274,
      "grad_norm": 0.6185848116874695,
      "learning_rate": 0.00023003663003663002,
      "loss": 1.0182,
      "step": 846
    },
    {
      "epoch": 0.9303858300151037,
      "grad_norm": 1.2415262460708618,
      "learning_rate": 0.00022991452991452988,
      "loss": 0.4677,
      "step": 847
    },
    {
      "epoch": 0.9314842784566799,
      "grad_norm": 0.4582594335079193,
      "learning_rate": 0.00022979242979242977,
      "loss": 0.6308,
      "step": 848
    },
    {
      "epoch": 0.9325827268982562,
      "grad_norm": 0.4749620258808136,
      "learning_rate": 0.00022967032967032962,
      "loss": 0.6217,
      "step": 849
    },
    {
      "epoch": 0.9336811753398325,
      "grad_norm": 0.48614588379859924,
      "learning_rate": 0.0002295482295482295,
      "loss": 0.7469,
      "step": 850
    },
    {
      "epoch": 0.9347796237814088,
      "grad_norm": 0.7357453107833862,
      "learning_rate": 0.00022942612942612942,
      "loss": 0.5978,
      "step": 851
    },
    {
      "epoch": 0.935878072222985,
      "grad_norm": 0.53326815366745,
      "learning_rate": 0.00022930402930402928,
      "loss": 0.7678,
      "step": 852
    },
    {
      "epoch": 0.9369765206645613,
      "grad_norm": 0.4853271245956421,
      "learning_rate": 0.00022918192918192917,
      "loss": 0.4888,
      "step": 853
    },
    {
      "epoch": 0.9380749691061376,
      "grad_norm": 1.6529743671417236,
      "learning_rate": 0.00022905982905982905,
      "loss": 0.6103,
      "step": 854
    },
    {
      "epoch": 0.9391734175477139,
      "grad_norm": 0.8255143165588379,
      "learning_rate": 0.0002289377289377289,
      "loss": 0.6977,
      "step": 855
    },
    {
      "epoch": 0.9402718659892901,
      "grad_norm": 0.3999016284942627,
      "learning_rate": 0.0002288156288156288,
      "loss": 0.5398,
      "step": 856
    },
    {
      "epoch": 0.9413703144308664,
      "grad_norm": 1.933090329170227,
      "learning_rate": 0.00022869352869352868,
      "loss": 1.0827,
      "step": 857
    },
    {
      "epoch": 0.9424687628724426,
      "grad_norm": 0.8884105682373047,
      "learning_rate": 0.00022857142857142854,
      "loss": 0.702,
      "step": 858
    },
    {
      "epoch": 0.943567211314019,
      "grad_norm": 0.4555901885032654,
      "learning_rate": 0.00022844932844932843,
      "loss": 0.8737,
      "step": 859
    },
    {
      "epoch": 0.9446656597555952,
      "grad_norm": 0.535915732383728,
      "learning_rate": 0.0002283272283272283,
      "loss": 0.7036,
      "step": 860
    },
    {
      "epoch": 0.9457641081971715,
      "grad_norm": 0.7607597708702087,
      "learning_rate": 0.00022820512820512817,
      "loss": 0.8707,
      "step": 861
    },
    {
      "epoch": 0.9468625566387477,
      "grad_norm": 0.4056457579135895,
      "learning_rate": 0.00022808302808302805,
      "loss": 0.6658,
      "step": 862
    },
    {
      "epoch": 0.947961005080324,
      "grad_norm": 0.5472984313964844,
      "learning_rate": 0.00022796092796092794,
      "loss": 0.5429,
      "step": 863
    },
    {
      "epoch": 0.9490594535219004,
      "grad_norm": 0.6866592764854431,
      "learning_rate": 0.0002278388278388278,
      "loss": 0.7343,
      "step": 864
    },
    {
      "epoch": 0.9501579019634766,
      "grad_norm": 0.5244406461715698,
      "learning_rate": 0.0002277167277167277,
      "loss": 0.669,
      "step": 865
    },
    {
      "epoch": 0.9512563504050529,
      "grad_norm": 0.45024383068084717,
      "learning_rate": 0.0002275946275946276,
      "loss": 0.9062,
      "step": 866
    },
    {
      "epoch": 0.9523547988466291,
      "grad_norm": 0.4252873659133911,
      "learning_rate": 0.00022747252747252745,
      "loss": 0.6109,
      "step": 867
    },
    {
      "epoch": 0.9534532472882055,
      "grad_norm": 0.50081467628479,
      "learning_rate": 0.00022735042735042734,
      "loss": 0.5266,
      "step": 868
    },
    {
      "epoch": 0.9545516957297817,
      "grad_norm": 0.9674072861671448,
      "learning_rate": 0.00022722832722832723,
      "loss": 0.7197,
      "step": 869
    },
    {
      "epoch": 0.955650144171358,
      "grad_norm": 1.572348952293396,
      "learning_rate": 0.00022710622710622708,
      "loss": 0.4728,
      "step": 870
    },
    {
      "epoch": 0.9567485926129342,
      "grad_norm": 0.6033158898353577,
      "learning_rate": 0.00022698412698412697,
      "loss": 0.6394,
      "step": 871
    },
    {
      "epoch": 0.9578470410545105,
      "grad_norm": 0.5810523629188538,
      "learning_rate": 0.00022686202686202686,
      "loss": 0.8813,
      "step": 872
    },
    {
      "epoch": 0.9589454894960868,
      "grad_norm": 0.46345213055610657,
      "learning_rate": 0.00022673992673992671,
      "loss": 0.5828,
      "step": 873
    },
    {
      "epoch": 0.9600439379376631,
      "grad_norm": 0.5414748191833496,
      "learning_rate": 0.0002266178266178266,
      "loss": 0.6311,
      "step": 874
    },
    {
      "epoch": 0.9611423863792393,
      "grad_norm": 0.9083818197250366,
      "learning_rate": 0.00022649572649572646,
      "loss": 0.961,
      "step": 875
    },
    {
      "epoch": 0.9622408348208156,
      "grad_norm": 0.786993145942688,
      "learning_rate": 0.00022637362637362634,
      "loss": 0.7825,
      "step": 876
    },
    {
      "epoch": 0.9633392832623918,
      "grad_norm": 0.7639968991279602,
      "learning_rate": 0.00022625152625152623,
      "loss": 0.8989,
      "step": 877
    },
    {
      "epoch": 0.9644377317039682,
      "grad_norm": 0.43360400199890137,
      "learning_rate": 0.0002261294261294261,
      "loss": 0.6747,
      "step": 878
    },
    {
      "epoch": 0.9655361801455444,
      "grad_norm": 0.8512898683547974,
      "learning_rate": 0.00022600732600732597,
      "loss": 0.7152,
      "step": 879
    },
    {
      "epoch": 0.9666346285871207,
      "grad_norm": 0.46903684735298157,
      "learning_rate": 0.00022588522588522589,
      "loss": 0.7594,
      "step": 880
    },
    {
      "epoch": 0.9677330770286969,
      "grad_norm": 1.9560080766677856,
      "learning_rate": 0.00022576312576312572,
      "loss": 0.598,
      "step": 881
    },
    {
      "epoch": 0.9688315254702733,
      "grad_norm": 1.1595470905303955,
      "learning_rate": 0.00022564102564102563,
      "loss": 0.6005,
      "step": 882
    },
    {
      "epoch": 0.9699299739118495,
      "grad_norm": 0.7318668365478516,
      "learning_rate": 0.00022551892551892551,
      "loss": 0.7327,
      "step": 883
    },
    {
      "epoch": 0.9710284223534258,
      "grad_norm": 0.6557647585868835,
      "learning_rate": 0.00022539682539682537,
      "loss": 0.5858,
      "step": 884
    },
    {
      "epoch": 0.972126870795002,
      "grad_norm": 0.5645928382873535,
      "learning_rate": 0.00022527472527472526,
      "loss": 0.5818,
      "step": 885
    },
    {
      "epoch": 0.9732253192365783,
      "grad_norm": 0.4630253314971924,
      "learning_rate": 0.00022515262515262514,
      "loss": 0.8363,
      "step": 886
    },
    {
      "epoch": 0.9743237676781547,
      "grad_norm": 0.6750912666320801,
      "learning_rate": 0.000225030525030525,
      "loss": 0.8865,
      "step": 887
    },
    {
      "epoch": 0.9754222161197309,
      "grad_norm": 0.6309487819671631,
      "learning_rate": 0.0002249084249084249,
      "loss": 0.5596,
      "step": 888
    },
    {
      "epoch": 0.9765206645613072,
      "grad_norm": 0.9696050882339478,
      "learning_rate": 0.00022478632478632477,
      "loss": 0.7752,
      "step": 889
    },
    {
      "epoch": 0.9776191130028834,
      "grad_norm": 0.7614735960960388,
      "learning_rate": 0.00022466422466422463,
      "loss": 0.7131,
      "step": 890
    },
    {
      "epoch": 0.9787175614444596,
      "grad_norm": 0.4971006214618683,
      "learning_rate": 0.00022454212454212452,
      "loss": 0.6218,
      "step": 891
    },
    {
      "epoch": 0.979816009886036,
      "grad_norm": 0.47809773683547974,
      "learning_rate": 0.0002244200244200244,
      "loss": 0.5678,
      "step": 892
    },
    {
      "epoch": 0.9809144583276123,
      "grad_norm": 0.5959337949752808,
      "learning_rate": 0.00022429792429792426,
      "loss": 1.0002,
      "step": 893
    },
    {
      "epoch": 0.9820129067691885,
      "grad_norm": 0.45277753472328186,
      "learning_rate": 0.00022417582417582415,
      "loss": 0.7321,
      "step": 894
    },
    {
      "epoch": 0.9831113552107648,
      "grad_norm": 1.279405951499939,
      "learning_rate": 0.00022405372405372406,
      "loss": 0.7912,
      "step": 895
    },
    {
      "epoch": 0.9842098036523411,
      "grad_norm": 0.49885687232017517,
      "learning_rate": 0.00022393162393162392,
      "loss": 0.5558,
      "step": 896
    },
    {
      "epoch": 0.9853082520939174,
      "grad_norm": 0.474979430437088,
      "learning_rate": 0.0002238095238095238,
      "loss": 0.7095,
      "step": 897
    },
    {
      "epoch": 0.9864067005354936,
      "grad_norm": 0.3826389014720917,
      "learning_rate": 0.0002236874236874237,
      "loss": 0.5695,
      "step": 898
    },
    {
      "epoch": 0.9875051489770699,
      "grad_norm": 0.33514517545700073,
      "learning_rate": 0.00022356532356532355,
      "loss": 0.6341,
      "step": 899
    },
    {
      "epoch": 0.9886035974186461,
      "grad_norm": 0.5049251914024353,
      "learning_rate": 0.00022344322344322343,
      "loss": 0.5577,
      "step": 900
    },
    {
      "epoch": 0.9897020458602225,
      "grad_norm": 0.5179988145828247,
      "learning_rate": 0.0002233211233211233,
      "loss": 0.5769,
      "step": 901
    },
    {
      "epoch": 0.9908004943017987,
      "grad_norm": 0.5194469094276428,
      "learning_rate": 0.00022319902319902318,
      "loss": 0.5466,
      "step": 902
    },
    {
      "epoch": 0.991898942743375,
      "grad_norm": 0.46941491961479187,
      "learning_rate": 0.00022307692307692306,
      "loss": 0.642,
      "step": 903
    },
    {
      "epoch": 0.9929973911849512,
      "grad_norm": 0.379682719707489,
      "learning_rate": 0.00022295482295482292,
      "loss": 0.5508,
      "step": 904
    },
    {
      "epoch": 0.9940958396265275,
      "grad_norm": 1.3844119310379028,
      "learning_rate": 0.0002228327228327228,
      "loss": 0.8814,
      "step": 905
    },
    {
      "epoch": 0.9951942880681038,
      "grad_norm": 2.497697114944458,
      "learning_rate": 0.0002227106227106227,
      "loss": 0.8116,
      "step": 906
    },
    {
      "epoch": 0.9962927365096801,
      "grad_norm": 0.36689239740371704,
      "learning_rate": 0.00022258852258852255,
      "loss": 0.5001,
      "step": 907
    },
    {
      "epoch": 0.9973911849512563,
      "grad_norm": 0.39868447184562683,
      "learning_rate": 0.00022246642246642243,
      "loss": 0.6913,
      "step": 908
    },
    {
      "epoch": 0.9984896333928326,
      "grad_norm": 0.5270336270332336,
      "learning_rate": 0.00022234432234432235,
      "loss": 0.5401,
      "step": 909
    },
    {
      "epoch": 0.999588081834409,
      "grad_norm": 0.4079851508140564,
      "learning_rate": 0.00022222222222222218,
      "loss": 0.471,
      "step": 910
    },
    {
      "epoch": 1.000686530275985,
      "grad_norm": 0.43189048767089844,
      "learning_rate": 0.0002221001221001221,
      "loss": 0.8237,
      "step": 911
    },
    {
      "epoch": 1.0017849787175614,
      "grad_norm": 0.52342289686203,
      "learning_rate": 0.00022197802197802198,
      "loss": 0.6363,
      "step": 912
    },
    {
      "epoch": 1.0028834271591378,
      "grad_norm": 0.38078904151916504,
      "learning_rate": 0.00022185592185592184,
      "loss": 0.4411,
      "step": 913
    },
    {
      "epoch": 1.003981875600714,
      "grad_norm": 0.5302817821502686,
      "learning_rate": 0.00022173382173382172,
      "loss": 0.858,
      "step": 914
    },
    {
      "epoch": 1.0050803240422903,
      "grad_norm": 0.3696751892566681,
      "learning_rate": 0.0002216117216117216,
      "loss": 0.8766,
      "step": 915
    },
    {
      "epoch": 1.0061787724838664,
      "grad_norm": 0.7566766738891602,
      "learning_rate": 0.00022148962148962146,
      "loss": 1.067,
      "step": 916
    },
    {
      "epoch": 1.0072772209254428,
      "grad_norm": 0.7399318218231201,
      "learning_rate": 0.00022136752136752135,
      "loss": 0.6683,
      "step": 917
    },
    {
      "epoch": 1.0083756693670192,
      "grad_norm": 0.5435899496078491,
      "learning_rate": 0.00022124542124542124,
      "loss": 0.6045,
      "step": 918
    },
    {
      "epoch": 1.0094741178085953,
      "grad_norm": 0.9680571556091309,
      "learning_rate": 0.0002211233211233211,
      "loss": 0.7546,
      "step": 919
    },
    {
      "epoch": 1.0105725662501717,
      "grad_norm": 0.6131067872047424,
      "learning_rate": 0.00022100122100122098,
      "loss": 0.6655,
      "step": 920
    },
    {
      "epoch": 1.0116710146917478,
      "grad_norm": 0.8093316555023193,
      "learning_rate": 0.00022087912087912086,
      "loss": 0.4812,
      "step": 921
    },
    {
      "epoch": 1.0127694631333242,
      "grad_norm": 0.5077763199806213,
      "learning_rate": 0.00022075702075702072,
      "loss": 0.5357,
      "step": 922
    },
    {
      "epoch": 1.0138679115749005,
      "grad_norm": 0.4767695963382721,
      "learning_rate": 0.0002206349206349206,
      "loss": 0.5807,
      "step": 923
    },
    {
      "epoch": 1.0149663600164767,
      "grad_norm": 0.3215581178665161,
      "learning_rate": 0.00022051282051282052,
      "loss": 0.5773,
      "step": 924
    },
    {
      "epoch": 1.016064808458053,
      "grad_norm": 0.425603985786438,
      "learning_rate": 0.00022039072039072035,
      "loss": 0.5441,
      "step": 925
    },
    {
      "epoch": 1.0171632568996292,
      "grad_norm": 0.6131730079650879,
      "learning_rate": 0.00022026862026862027,
      "loss": 0.856,
      "step": 926
    },
    {
      "epoch": 1.0182617053412055,
      "grad_norm": 0.5472941398620605,
      "learning_rate": 0.00022014652014652012,
      "loss": 0.8228,
      "step": 927
    },
    {
      "epoch": 1.0193601537827819,
      "grad_norm": 0.46728211641311646,
      "learning_rate": 0.00022002442002442,
      "loss": 0.7615,
      "step": 928
    },
    {
      "epoch": 1.020458602224358,
      "grad_norm": 0.39919501543045044,
      "learning_rate": 0.0002199023199023199,
      "loss": 0.709,
      "step": 929
    },
    {
      "epoch": 1.0215570506659344,
      "grad_norm": 0.564400315284729,
      "learning_rate": 0.00021978021978021975,
      "loss": 0.5941,
      "step": 930
    },
    {
      "epoch": 1.0226554991075107,
      "grad_norm": 0.39073804020881653,
      "learning_rate": 0.00021965811965811964,
      "loss": 0.6386,
      "step": 931
    },
    {
      "epoch": 1.0237539475490869,
      "grad_norm": 0.3725563585758209,
      "learning_rate": 0.00021953601953601952,
      "loss": 0.4766,
      "step": 932
    },
    {
      "epoch": 1.0248523959906632,
      "grad_norm": 1.319197654724121,
      "learning_rate": 0.00021941391941391938,
      "loss": 0.8465,
      "step": 933
    },
    {
      "epoch": 1.0259508444322394,
      "grad_norm": 0.5126785635948181,
      "learning_rate": 0.00021929181929181927,
      "loss": 0.5103,
      "step": 934
    },
    {
      "epoch": 1.0270492928738157,
      "grad_norm": 0.5401897430419922,
      "learning_rate": 0.00021916971916971915,
      "loss": 0.5879,
      "step": 935
    },
    {
      "epoch": 1.028147741315392,
      "grad_norm": 0.47014057636260986,
      "learning_rate": 0.000219047619047619,
      "loss": 0.658,
      "step": 936
    },
    {
      "epoch": 1.0292461897569682,
      "grad_norm": 0.49227291345596313,
      "learning_rate": 0.0002189255189255189,
      "loss": 0.5271,
      "step": 937
    },
    {
      "epoch": 1.0303446381985446,
      "grad_norm": 0.8186778426170349,
      "learning_rate": 0.00021880341880341878,
      "loss": 0.6491,
      "step": 938
    },
    {
      "epoch": 1.0314430866401207,
      "grad_norm": 0.46345674991607666,
      "learning_rate": 0.00021868131868131864,
      "loss": 0.7935,
      "step": 939
    },
    {
      "epoch": 1.032541535081697,
      "grad_norm": 1.7300915718078613,
      "learning_rate": 0.00021855921855921855,
      "loss": 0.516,
      "step": 940
    },
    {
      "epoch": 1.0336399835232735,
      "grad_norm": 0.5100822448730469,
      "learning_rate": 0.00021843711843711844,
      "loss": 0.8286,
      "step": 941
    },
    {
      "epoch": 1.0347384319648496,
      "grad_norm": 0.42278483510017395,
      "learning_rate": 0.0002183150183150183,
      "loss": 0.7312,
      "step": 942
    },
    {
      "epoch": 1.035836880406426,
      "grad_norm": 0.42105185985565186,
      "learning_rate": 0.00021819291819291818,
      "loss": 0.5729,
      "step": 943
    },
    {
      "epoch": 1.036935328848002,
      "grad_norm": 0.5117312669754028,
      "learning_rate": 0.00021807081807081807,
      "loss": 0.7688,
      "step": 944
    },
    {
      "epoch": 1.0380337772895785,
      "grad_norm": 0.4982740879058838,
      "learning_rate": 0.00021794871794871793,
      "loss": 0.5746,
      "step": 945
    },
    {
      "epoch": 1.0391322257311548,
      "grad_norm": 0.5181052684783936,
      "learning_rate": 0.0002178266178266178,
      "loss": 0.8446,
      "step": 946
    },
    {
      "epoch": 1.040230674172731,
      "grad_norm": 5.104315757751465,
      "learning_rate": 0.0002177045177045177,
      "loss": 0.9641,
      "step": 947
    },
    {
      "epoch": 1.0413291226143073,
      "grad_norm": 0.7384645938873291,
      "learning_rate": 0.00021758241758241756,
      "loss": 0.7168,
      "step": 948
    },
    {
      "epoch": 1.0424275710558835,
      "grad_norm": 0.4367550313472748,
      "learning_rate": 0.00021746031746031744,
      "loss": 0.7139,
      "step": 949
    },
    {
      "epoch": 1.0435260194974598,
      "grad_norm": 0.7332566380500793,
      "learning_rate": 0.00021733821733821733,
      "loss": 0.7082,
      "step": 950
    },
    {
      "epoch": 1.0446244679390362,
      "grad_norm": 0.4191775918006897,
      "learning_rate": 0.00021721611721611719,
      "loss": 0.7986,
      "step": 951
    },
    {
      "epoch": 1.0457229163806123,
      "grad_norm": 0.33929941058158875,
      "learning_rate": 0.00021709401709401707,
      "loss": 0.3784,
      "step": 952
    },
    {
      "epoch": 1.0468213648221887,
      "grad_norm": 0.5255181789398193,
      "learning_rate": 0.00021697191697191693,
      "loss": 0.5842,
      "step": 953
    },
    {
      "epoch": 1.047919813263765,
      "grad_norm": 0.5401780605316162,
      "learning_rate": 0.00021684981684981681,
      "loss": 0.7939,
      "step": 954
    },
    {
      "epoch": 1.0490182617053412,
      "grad_norm": 0.34873855113983154,
      "learning_rate": 0.00021672771672771673,
      "loss": 0.7957,
      "step": 955
    },
    {
      "epoch": 1.0501167101469175,
      "grad_norm": 0.33418160676956177,
      "learning_rate": 0.00021660561660561656,
      "loss": 0.6037,
      "step": 956
    },
    {
      "epoch": 1.0512151585884937,
      "grad_norm": 0.3197249174118042,
      "learning_rate": 0.00021648351648351647,
      "loss": 0.5223,
      "step": 957
    },
    {
      "epoch": 1.05231360703007,
      "grad_norm": 0.5962835550308228,
      "learning_rate": 0.00021636141636141636,
      "loss": 0.5213,
      "step": 958
    },
    {
      "epoch": 1.0534120554716464,
      "grad_norm": 1.3891643285751343,
      "learning_rate": 0.00021623931623931622,
      "loss": 0.6781,
      "step": 959
    },
    {
      "epoch": 1.0545105039132225,
      "grad_norm": 0.42117932438850403,
      "learning_rate": 0.0002161172161172161,
      "loss": 0.6363,
      "step": 960
    },
    {
      "epoch": 1.055608952354799,
      "grad_norm": 0.4514491558074951,
      "learning_rate": 0.00021599511599511599,
      "loss": 0.6904,
      "step": 961
    },
    {
      "epoch": 1.056707400796375,
      "grad_norm": 0.4863387644290924,
      "learning_rate": 0.00021587301587301584,
      "loss": 0.6595,
      "step": 962
    },
    {
      "epoch": 1.0578058492379514,
      "grad_norm": 0.6178450584411621,
      "learning_rate": 0.00021575091575091573,
      "loss": 0.8412,
      "step": 963
    },
    {
      "epoch": 1.0589042976795278,
      "grad_norm": 0.3728642761707306,
      "learning_rate": 0.00021562881562881562,
      "loss": 0.629,
      "step": 964
    },
    {
      "epoch": 1.060002746121104,
      "grad_norm": 0.7554892301559448,
      "learning_rate": 0.00021550671550671547,
      "loss": 0.5804,
      "step": 965
    },
    {
      "epoch": 1.0611011945626803,
      "grad_norm": 0.550298273563385,
      "learning_rate": 0.00021538461538461536,
      "loss": 0.476,
      "step": 966
    },
    {
      "epoch": 1.0621996430042564,
      "grad_norm": 0.4082244336605072,
      "learning_rate": 0.00021526251526251524,
      "loss": 0.4001,
      "step": 967
    },
    {
      "epoch": 1.0632980914458328,
      "grad_norm": 1.2327499389648438,
      "learning_rate": 0.0002151404151404151,
      "loss": 0.4583,
      "step": 968
    },
    {
      "epoch": 1.0643965398874091,
      "grad_norm": 0.860550045967102,
      "learning_rate": 0.000215018315018315,
      "loss": 0.6415,
      "step": 969
    },
    {
      "epoch": 1.0654949883289853,
      "grad_norm": 0.558860182762146,
      "learning_rate": 0.0002148962148962149,
      "loss": 0.6215,
      "step": 970
    },
    {
      "epoch": 1.0665934367705616,
      "grad_norm": 0.7794890403747559,
      "learning_rate": 0.00021477411477411476,
      "loss": 0.5094,
      "step": 971
    },
    {
      "epoch": 1.0676918852121378,
      "grad_norm": 0.48574942350387573,
      "learning_rate": 0.00021465201465201465,
      "loss": 0.7385,
      "step": 972
    },
    {
      "epoch": 1.0687903336537141,
      "grad_norm": 0.4496791660785675,
      "learning_rate": 0.00021452991452991453,
      "loss": 0.5036,
      "step": 973
    },
    {
      "epoch": 1.0698887820952905,
      "grad_norm": 0.5360952615737915,
      "learning_rate": 0.0002144078144078144,
      "loss": 0.6825,
      "step": 974
    },
    {
      "epoch": 1.0709872305368666,
      "grad_norm": 0.5783904194831848,
      "learning_rate": 0.00021428571428571427,
      "loss": 0.6736,
      "step": 975
    },
    {
      "epoch": 1.072085678978443,
      "grad_norm": 2.290815830230713,
      "learning_rate": 0.00021416361416361416,
      "loss": 0.696,
      "step": 976
    },
    {
      "epoch": 1.0731841274200193,
      "grad_norm": 1.3432899713516235,
      "learning_rate": 0.00021404151404151402,
      "loss": 0.5296,
      "step": 977
    },
    {
      "epoch": 1.0742825758615955,
      "grad_norm": 0.5308722257614136,
      "learning_rate": 0.0002139194139194139,
      "loss": 0.6642,
      "step": 978
    },
    {
      "epoch": 1.0753810243031718,
      "grad_norm": 0.7245768904685974,
      "learning_rate": 0.00021379731379731376,
      "loss": 0.6811,
      "step": 979
    },
    {
      "epoch": 1.076479472744748,
      "grad_norm": 0.3873349726200104,
      "learning_rate": 0.00021367521367521365,
      "loss": 0.8503,
      "step": 980
    },
    {
      "epoch": 1.0775779211863243,
      "grad_norm": 0.5792405605316162,
      "learning_rate": 0.00021355311355311353,
      "loss": 0.4543,
      "step": 981
    },
    {
      "epoch": 1.0786763696279005,
      "grad_norm": 0.6543241143226624,
      "learning_rate": 0.0002134310134310134,
      "loss": 0.7778,
      "step": 982
    },
    {
      "epoch": 1.0797748180694768,
      "grad_norm": 0.5572071075439453,
      "learning_rate": 0.00021330891330891328,
      "loss": 0.8446,
      "step": 983
    },
    {
      "epoch": 1.0808732665110532,
      "grad_norm": 0.5798014402389526,
      "learning_rate": 0.0002131868131868132,
      "loss": 0.7461,
      "step": 984
    },
    {
      "epoch": 1.0819717149526293,
      "grad_norm": 0.8282085657119751,
      "learning_rate": 0.00021306471306471302,
      "loss": 0.612,
      "step": 985
    },
    {
      "epoch": 1.0830701633942057,
      "grad_norm": 0.5782580971717834,
      "learning_rate": 0.00021294261294261293,
      "loss": 0.5506,
      "step": 986
    },
    {
      "epoch": 1.084168611835782,
      "grad_norm": 0.3826775848865509,
      "learning_rate": 0.00021282051282051282,
      "loss": 0.7859,
      "step": 987
    },
    {
      "epoch": 1.0852670602773582,
      "grad_norm": 0.534752368927002,
      "learning_rate": 0.00021269841269841268,
      "loss": 0.8835,
      "step": 988
    },
    {
      "epoch": 1.0863655087189346,
      "grad_norm": 0.45931264758110046,
      "learning_rate": 0.00021257631257631256,
      "loss": 0.6694,
      "step": 989
    },
    {
      "epoch": 1.0874639571605107,
      "grad_norm": 0.6106250286102295,
      "learning_rate": 0.00021245421245421245,
      "loss": 0.8274,
      "step": 990
    },
    {
      "epoch": 1.088562405602087,
      "grad_norm": 0.3704061806201935,
      "learning_rate": 0.0002123321123321123,
      "loss": 0.7449,
      "step": 991
    },
    {
      "epoch": 1.0896608540436634,
      "grad_norm": 0.3922840356826782,
      "learning_rate": 0.0002122100122100122,
      "loss": 0.5845,
      "step": 992
    },
    {
      "epoch": 1.0907593024852396,
      "grad_norm": 0.48152726888656616,
      "learning_rate": 0.00021208791208791208,
      "loss": 0.6608,
      "step": 993
    },
    {
      "epoch": 1.091857750926816,
      "grad_norm": 0.42257216572761536,
      "learning_rate": 0.00021196581196581194,
      "loss": 0.6379,
      "step": 994
    },
    {
      "epoch": 1.092956199368392,
      "grad_norm": 0.4746345579624176,
      "learning_rate": 0.00021184371184371182,
      "loss": 0.6467,
      "step": 995
    },
    {
      "epoch": 1.0940546478099684,
      "grad_norm": 0.3915644884109497,
      "learning_rate": 0.0002117216117216117,
      "loss": 0.9699,
      "step": 996
    },
    {
      "epoch": 1.0951530962515448,
      "grad_norm": 0.5957880020141602,
      "learning_rate": 0.00021159951159951157,
      "loss": 0.6917,
      "step": 997
    },
    {
      "epoch": 1.096251544693121,
      "grad_norm": 0.4327985942363739,
      "learning_rate": 0.00021147741147741145,
      "loss": 0.8091,
      "step": 998
    },
    {
      "epoch": 1.0973499931346973,
      "grad_norm": 0.42600274085998535,
      "learning_rate": 0.00021135531135531136,
      "loss": 0.7685,
      "step": 999
    },
    {
      "epoch": 1.0984484415762734,
      "grad_norm": 0.7165039777755737,
      "learning_rate": 0.0002112332112332112,
      "loss": 0.8646,
      "step": 1000
    },
    {
      "epoch": 1.0995468900178498,
      "grad_norm": 0.447652131319046,
      "learning_rate": 0.0002111111111111111,
      "loss": 0.521,
      "step": 1001
    },
    {
      "epoch": 1.1006453384594261,
      "grad_norm": 0.3022591769695282,
      "learning_rate": 0.000210989010989011,
      "loss": 0.6099,
      "step": 1002
    },
    {
      "epoch": 1.1017437869010023,
      "grad_norm": 0.32764387130737305,
      "learning_rate": 0.00021086691086691085,
      "loss": 0.5624,
      "step": 1003
    },
    {
      "epoch": 1.1028422353425786,
      "grad_norm": 0.7301959991455078,
      "learning_rate": 0.00021074481074481074,
      "loss": 0.6091,
      "step": 1004
    },
    {
      "epoch": 1.1039406837841548,
      "grad_norm": 0.4734131097793579,
      "learning_rate": 0.0002106227106227106,
      "loss": 0.6849,
      "step": 1005
    },
    {
      "epoch": 1.1050391322257311,
      "grad_norm": 0.7214820384979248,
      "learning_rate": 0.00021050061050061048,
      "loss": 0.789,
      "step": 1006
    },
    {
      "epoch": 1.1061375806673075,
      "grad_norm": 0.31265702843666077,
      "learning_rate": 0.00021037851037851037,
      "loss": 0.5176,
      "step": 1007
    },
    {
      "epoch": 1.1072360291088836,
      "grad_norm": 0.5804157257080078,
      "learning_rate": 0.00021025641025641022,
      "loss": 1.0152,
      "step": 1008
    },
    {
      "epoch": 1.10833447755046,
      "grad_norm": 0.3624595105648041,
      "learning_rate": 0.0002101343101343101,
      "loss": 0.6843,
      "step": 1009
    },
    {
      "epoch": 1.1094329259920364,
      "grad_norm": 0.5099515318870544,
      "learning_rate": 0.00021001221001221,
      "loss": 0.5568,
      "step": 1010
    },
    {
      "epoch": 1.1105313744336125,
      "grad_norm": 0.46201249957084656,
      "learning_rate": 0.00020989010989010985,
      "loss": 0.5883,
      "step": 1011
    },
    {
      "epoch": 1.1116298228751889,
      "grad_norm": 0.4493483603000641,
      "learning_rate": 0.00020976800976800974,
      "loss": 0.8338,
      "step": 1012
    },
    {
      "epoch": 1.112728271316765,
      "grad_norm": 0.4771614968776703,
      "learning_rate": 0.00020964590964590963,
      "loss": 0.7251,
      "step": 1013
    },
    {
      "epoch": 1.1138267197583414,
      "grad_norm": 2.073347806930542,
      "learning_rate": 0.00020952380952380948,
      "loss": 0.8921,
      "step": 1014
    },
    {
      "epoch": 1.1149251681999177,
      "grad_norm": 0.435680091381073,
      "learning_rate": 0.0002094017094017094,
      "loss": 0.5444,
      "step": 1015
    },
    {
      "epoch": 1.1160236166414939,
      "grad_norm": 0.46824783086776733,
      "learning_rate": 0.00020927960927960928,
      "loss": 0.5591,
      "step": 1016
    },
    {
      "epoch": 1.1171220650830702,
      "grad_norm": 0.43938374519348145,
      "learning_rate": 0.00020915750915750914,
      "loss": 0.7476,
      "step": 1017
    },
    {
      "epoch": 1.1182205135246464,
      "grad_norm": 0.3620377779006958,
      "learning_rate": 0.00020903540903540903,
      "loss": 0.5763,
      "step": 1018
    },
    {
      "epoch": 1.1193189619662227,
      "grad_norm": 0.612406313419342,
      "learning_rate": 0.0002089133089133089,
      "loss": 0.706,
      "step": 1019
    },
    {
      "epoch": 1.120417410407799,
      "grad_norm": 0.5045173168182373,
      "learning_rate": 0.00020879120879120877,
      "loss": 0.6799,
      "step": 1020
    },
    {
      "epoch": 1.1215158588493752,
      "grad_norm": 0.4815331995487213,
      "learning_rate": 0.00020866910866910865,
      "loss": 0.8845,
      "step": 1021
    },
    {
      "epoch": 1.1226143072909516,
      "grad_norm": 0.3756159245967865,
      "learning_rate": 0.00020854700854700854,
      "loss": 0.5545,
      "step": 1022
    },
    {
      "epoch": 1.1237127557325277,
      "grad_norm": 0.3184347152709961,
      "learning_rate": 0.0002084249084249084,
      "loss": 0.5109,
      "step": 1023
    },
    {
      "epoch": 1.124811204174104,
      "grad_norm": 0.4000808298587799,
      "learning_rate": 0.00020830280830280828,
      "loss": 0.8363,
      "step": 1024
    },
    {
      "epoch": 1.1259096526156804,
      "grad_norm": 0.3930743336677551,
      "learning_rate": 0.00020818070818070817,
      "loss": 0.6183,
      "step": 1025
    },
    {
      "epoch": 1.1270081010572566,
      "grad_norm": 0.7536817789077759,
      "learning_rate": 0.00020805860805860803,
      "loss": 0.7511,
      "step": 1026
    },
    {
      "epoch": 1.128106549498833,
      "grad_norm": 0.5012079477310181,
      "learning_rate": 0.00020793650793650791,
      "loss": 0.6346,
      "step": 1027
    },
    {
      "epoch": 1.129204997940409,
      "grad_norm": 0.9914690852165222,
      "learning_rate": 0.00020781440781440783,
      "loss": 0.5827,
      "step": 1028
    },
    {
      "epoch": 1.1303034463819854,
      "grad_norm": 0.9096476435661316,
      "learning_rate": 0.00020769230769230766,
      "loss": 1.0235,
      "step": 1029
    },
    {
      "epoch": 1.1314018948235618,
      "grad_norm": 0.6668229699134827,
      "learning_rate": 0.00020757020757020757,
      "loss": 0.741,
      "step": 1030
    },
    {
      "epoch": 1.132500343265138,
      "grad_norm": 0.3232771158218384,
      "learning_rate": 0.0002074481074481074,
      "loss": 0.6206,
      "step": 1031
    },
    {
      "epoch": 1.1335987917067143,
      "grad_norm": 0.278003990650177,
      "learning_rate": 0.00020732600732600731,
      "loss": 0.5661,
      "step": 1032
    },
    {
      "epoch": 1.1346972401482907,
      "grad_norm": 1.481213927268982,
      "learning_rate": 0.0002072039072039072,
      "loss": 0.6422,
      "step": 1033
    },
    {
      "epoch": 1.1357956885898668,
      "grad_norm": 0.4688512682914734,
      "learning_rate": 0.00020708180708180706,
      "loss": 0.4163,
      "step": 1034
    },
    {
      "epoch": 1.1368941370314432,
      "grad_norm": 0.6438425779342651,
      "learning_rate": 0.00020695970695970694,
      "loss": 0.6241,
      "step": 1035
    },
    {
      "epoch": 1.1379925854730193,
      "grad_norm": 0.5013176798820496,
      "learning_rate": 0.00020683760683760683,
      "loss": 0.6273,
      "step": 1036
    },
    {
      "epoch": 1.1390910339145957,
      "grad_norm": 0.5178597569465637,
      "learning_rate": 0.0002067155067155067,
      "loss": 0.7489,
      "step": 1037
    },
    {
      "epoch": 1.1401894823561718,
      "grad_norm": 0.5804840922355652,
      "learning_rate": 0.00020659340659340657,
      "loss": 0.9142,
      "step": 1038
    },
    {
      "epoch": 1.1412879307977482,
      "grad_norm": 0.47613444924354553,
      "learning_rate": 0.00020647130647130646,
      "loss": 0.9531,
      "step": 1039
    },
    {
      "epoch": 1.1423863792393245,
      "grad_norm": 0.4835624694824219,
      "learning_rate": 0.00020634920634920632,
      "loss": 0.6349,
      "step": 1040
    },
    {
      "epoch": 1.1434848276809007,
      "grad_norm": 0.38351112604141235,
      "learning_rate": 0.0002062271062271062,
      "loss": 0.4726,
      "step": 1041
    },
    {
      "epoch": 1.144583276122477,
      "grad_norm": 0.5533854365348816,
      "learning_rate": 0.0002061050061050061,
      "loss": 0.5108,
      "step": 1042
    },
    {
      "epoch": 1.1456817245640534,
      "grad_norm": 0.4842824637889862,
      "learning_rate": 0.00020598290598290595,
      "loss": 0.6038,
      "step": 1043
    },
    {
      "epoch": 1.1467801730056295,
      "grad_norm": 0.552798330783844,
      "learning_rate": 0.00020586080586080583,
      "loss": 0.8056,
      "step": 1044
    },
    {
      "epoch": 1.1478786214472059,
      "grad_norm": 0.40466025471687317,
      "learning_rate": 0.00020573870573870574,
      "loss": 0.6234,
      "step": 1045
    },
    {
      "epoch": 1.148977069888782,
      "grad_norm": 0.6988784074783325,
      "learning_rate": 0.0002056166056166056,
      "loss": 0.7721,
      "step": 1046
    },
    {
      "epoch": 1.1500755183303584,
      "grad_norm": 0.4852863550186157,
      "learning_rate": 0.0002054945054945055,
      "loss": 0.6074,
      "step": 1047
    },
    {
      "epoch": 1.1511739667719347,
      "grad_norm": 0.4548696279525757,
      "learning_rate": 0.00020537240537240537,
      "loss": 0.5592,
      "step": 1048
    },
    {
      "epoch": 1.1522724152135109,
      "grad_norm": 0.9355410933494568,
      "learning_rate": 0.00020525030525030523,
      "loss": 0.8618,
      "step": 1049
    },
    {
      "epoch": 1.1533708636550872,
      "grad_norm": 0.5641398429870605,
      "learning_rate": 0.00020512820512820512,
      "loss": 0.704,
      "step": 1050
    },
    {
      "epoch": 1.1544693120966634,
      "grad_norm": 0.48187771439552307,
      "learning_rate": 0.000205006105006105,
      "loss": 0.6008,
      "step": 1051
    },
    {
      "epoch": 1.1555677605382397,
      "grad_norm": 0.41609904170036316,
      "learning_rate": 0.00020488400488400486,
      "loss": 0.8812,
      "step": 1052
    },
    {
      "epoch": 1.156666208979816,
      "grad_norm": 0.919477105140686,
      "learning_rate": 0.00020476190476190475,
      "loss": 0.6597,
      "step": 1053
    },
    {
      "epoch": 1.1577646574213922,
      "grad_norm": 0.5008611083030701,
      "learning_rate": 0.0002046398046398046,
      "loss": 0.6501,
      "step": 1054
    },
    {
      "epoch": 1.1588631058629686,
      "grad_norm": 0.39832696318626404,
      "learning_rate": 0.0002045177045177045,
      "loss": 0.6232,
      "step": 1055
    },
    {
      "epoch": 1.159961554304545,
      "grad_norm": 0.5290446281433105,
      "learning_rate": 0.00020439560439560438,
      "loss": 0.6123,
      "step": 1056
    },
    {
      "epoch": 1.161060002746121,
      "grad_norm": 0.40837669372558594,
      "learning_rate": 0.00020427350427350423,
      "loss": 0.4989,
      "step": 1057
    },
    {
      "epoch": 1.1621584511876974,
      "grad_norm": 0.43407055735588074,
      "learning_rate": 0.00020415140415140412,
      "loss": 0.6961,
      "step": 1058
    },
    {
      "epoch": 1.1632568996292736,
      "grad_norm": 0.7601787447929382,
      "learning_rate": 0.00020402930402930403,
      "loss": 0.9308,
      "step": 1059
    },
    {
      "epoch": 1.16435534807085,
      "grad_norm": 0.452628493309021,
      "learning_rate": 0.00020390720390720386,
      "loss": 0.6478,
      "step": 1060
    },
    {
      "epoch": 1.165453796512426,
      "grad_norm": 0.4524000287055969,
      "learning_rate": 0.00020378510378510378,
      "loss": 0.4499,
      "step": 1061
    },
    {
      "epoch": 1.1665522449540024,
      "grad_norm": 0.5971822142601013,
      "learning_rate": 0.00020366300366300366,
      "loss": 0.6402,
      "step": 1062
    },
    {
      "epoch": 1.1676506933955788,
      "grad_norm": 0.36858659982681274,
      "learning_rate": 0.00020354090354090352,
      "loss": 0.6511,
      "step": 1063
    },
    {
      "epoch": 1.168749141837155,
      "grad_norm": 0.47295433282852173,
      "learning_rate": 0.0002034188034188034,
      "loss": 0.5977,
      "step": 1064
    },
    {
      "epoch": 1.1698475902787313,
      "grad_norm": 0.4402971565723419,
      "learning_rate": 0.0002032967032967033,
      "loss": 0.4824,
      "step": 1065
    },
    {
      "epoch": 1.1709460387203077,
      "grad_norm": 0.3752620816230774,
      "learning_rate": 0.00020317460317460315,
      "loss": 0.6519,
      "step": 1066
    },
    {
      "epoch": 1.1720444871618838,
      "grad_norm": 0.45207279920578003,
      "learning_rate": 0.00020305250305250303,
      "loss": 0.6869,
      "step": 1067
    },
    {
      "epoch": 1.1731429356034602,
      "grad_norm": 0.4255804121494293,
      "learning_rate": 0.00020293040293040292,
      "loss": 0.7289,
      "step": 1068
    },
    {
      "epoch": 1.1742413840450363,
      "grad_norm": 0.48725178837776184,
      "learning_rate": 0.00020280830280830278,
      "loss": 0.5472,
      "step": 1069
    },
    {
      "epoch": 1.1753398324866127,
      "grad_norm": 0.37094470858573914,
      "learning_rate": 0.00020268620268620266,
      "loss": 0.558,
      "step": 1070
    },
    {
      "epoch": 1.176438280928189,
      "grad_norm": 0.4191375970840454,
      "learning_rate": 0.00020256410256410255,
      "loss": 0.6422,
      "step": 1071
    },
    {
      "epoch": 1.1775367293697652,
      "grad_norm": 0.4091531038284302,
      "learning_rate": 0.0002024420024420024,
      "loss": 0.6705,
      "step": 1072
    },
    {
      "epoch": 1.1786351778113415,
      "grad_norm": 0.4876718521118164,
      "learning_rate": 0.0002023199023199023,
      "loss": 0.8265,
      "step": 1073
    },
    {
      "epoch": 1.1797336262529177,
      "grad_norm": 0.43008798360824585,
      "learning_rate": 0.0002021978021978022,
      "loss": 0.5159,
      "step": 1074
    },
    {
      "epoch": 1.180832074694494,
      "grad_norm": 0.47896140813827515,
      "learning_rate": 0.00020207570207570204,
      "loss": 0.5455,
      "step": 1075
    },
    {
      "epoch": 1.1819305231360704,
      "grad_norm": 0.5313389301300049,
      "learning_rate": 0.00020195360195360195,
      "loss": 0.7628,
      "step": 1076
    },
    {
      "epoch": 1.1830289715776465,
      "grad_norm": 0.46337512135505676,
      "learning_rate": 0.00020183150183150184,
      "loss": 0.6661,
      "step": 1077
    },
    {
      "epoch": 1.1841274200192229,
      "grad_norm": 0.4304458498954773,
      "learning_rate": 0.0002017094017094017,
      "loss": 0.7019,
      "step": 1078
    },
    {
      "epoch": 1.185225868460799,
      "grad_norm": 0.638445258140564,
      "learning_rate": 0.00020158730158730158,
      "loss": 0.6972,
      "step": 1079
    },
    {
      "epoch": 1.1863243169023754,
      "grad_norm": 1.8217968940734863,
      "learning_rate": 0.00020146520146520144,
      "loss": 0.5217,
      "step": 1080
    },
    {
      "epoch": 1.1874227653439517,
      "grad_norm": 0.4996611773967743,
      "learning_rate": 0.00020134310134310132,
      "loss": 0.6767,
      "step": 1081
    },
    {
      "epoch": 1.1885212137855279,
      "grad_norm": 0.43705832958221436,
      "learning_rate": 0.0002012210012210012,
      "loss": 0.7364,
      "step": 1082
    },
    {
      "epoch": 1.1896196622271042,
      "grad_norm": 0.4148736596107483,
      "learning_rate": 0.00020109890109890107,
      "loss": 0.7544,
      "step": 1083
    },
    {
      "epoch": 1.1907181106686804,
      "grad_norm": 0.5772218108177185,
      "learning_rate": 0.00020097680097680095,
      "loss": 0.6349,
      "step": 1084
    },
    {
      "epoch": 1.1918165591102567,
      "grad_norm": 0.9127015471458435,
      "learning_rate": 0.00020085470085470084,
      "loss": 0.4772,
      "step": 1085
    },
    {
      "epoch": 1.192915007551833,
      "grad_norm": 0.46906840801239014,
      "learning_rate": 0.0002007326007326007,
      "loss": 0.6184,
      "step": 1086
    },
    {
      "epoch": 1.1940134559934092,
      "grad_norm": 0.38405168056488037,
      "learning_rate": 0.00020061050061050058,
      "loss": 0.5027,
      "step": 1087
    },
    {
      "epoch": 1.1951119044349856,
      "grad_norm": 0.6352836489677429,
      "learning_rate": 0.00020048840048840047,
      "loss": 0.6674,
      "step": 1088
    },
    {
      "epoch": 1.196210352876562,
      "grad_norm": 0.6750807762145996,
      "learning_rate": 0.00020036630036630033,
      "loss": 0.5707,
      "step": 1089
    },
    {
      "epoch": 1.197308801318138,
      "grad_norm": 0.5661985874176025,
      "learning_rate": 0.00020024420024420024,
      "loss": 0.8298,
      "step": 1090
    },
    {
      "epoch": 1.1984072497597145,
      "grad_norm": 0.6393309831619263,
      "learning_rate": 0.00020012210012210012,
      "loss": 0.7397,
      "step": 1091
    },
    {
      "epoch": 1.1995056982012906,
      "grad_norm": 0.5442856550216675,
      "learning_rate": 0.00019999999999999998,
      "loss": 0.7176,
      "step": 1092
    },
    {
      "epoch": 1.200604146642867,
      "grad_norm": 1.0100654363632202,
      "learning_rate": 0.00019987789987789987,
      "loss": 0.8052,
      "step": 1093
    },
    {
      "epoch": 1.201702595084443,
      "grad_norm": 0.3916209936141968,
      "learning_rate": 0.00019975579975579975,
      "loss": 0.5951,
      "step": 1094
    },
    {
      "epoch": 1.2028010435260195,
      "grad_norm": 0.3890608847141266,
      "learning_rate": 0.0001996336996336996,
      "loss": 0.8129,
      "step": 1095
    },
    {
      "epoch": 1.2038994919675958,
      "grad_norm": 0.4267507493495941,
      "learning_rate": 0.0001995115995115995,
      "loss": 0.8741,
      "step": 1096
    },
    {
      "epoch": 1.204997940409172,
      "grad_norm": 0.49055561423301697,
      "learning_rate": 0.00019938949938949938,
      "loss": 0.901,
      "step": 1097
    },
    {
      "epoch": 1.2060963888507483,
      "grad_norm": 0.6662428379058838,
      "learning_rate": 0.00019926739926739924,
      "loss": 0.4971,
      "step": 1098
    },
    {
      "epoch": 1.2071948372923247,
      "grad_norm": 0.4469052255153656,
      "learning_rate": 0.00019914529914529913,
      "loss": 0.6593,
      "step": 1099
    },
    {
      "epoch": 1.2082932857339008,
      "grad_norm": 0.5514255166053772,
      "learning_rate": 0.000199023199023199,
      "loss": 0.8033,
      "step": 1100
    },
    {
      "epoch": 1.2093917341754772,
      "grad_norm": 0.4838184714317322,
      "learning_rate": 0.00019890109890109887,
      "loss": 0.5533,
      "step": 1101
    },
    {
      "epoch": 1.2104901826170533,
      "grad_norm": 0.6061891913414001,
      "learning_rate": 0.00019877899877899876,
      "loss": 0.5837,
      "step": 1102
    },
    {
      "epoch": 1.2115886310586297,
      "grad_norm": 0.3387523889541626,
      "learning_rate": 0.00019865689865689867,
      "loss": 0.455,
      "step": 1103
    },
    {
      "epoch": 1.212687079500206,
      "grad_norm": 0.5204731225967407,
      "learning_rate": 0.0001985347985347985,
      "loss": 0.6869,
      "step": 1104
    },
    {
      "epoch": 1.2137855279417822,
      "grad_norm": 0.5747571587562561,
      "learning_rate": 0.0001984126984126984,
      "loss": 0.7208,
      "step": 1105
    },
    {
      "epoch": 1.2148839763833585,
      "grad_norm": 0.5382461547851562,
      "learning_rate": 0.00019829059829059824,
      "loss": 0.6035,
      "step": 1106
    },
    {
      "epoch": 1.2159824248249347,
      "grad_norm": 0.44335421919822693,
      "learning_rate": 0.00019816849816849816,
      "loss": 0.8563,
      "step": 1107
    },
    {
      "epoch": 1.217080873266511,
      "grad_norm": 0.3059934675693512,
      "learning_rate": 0.00019804639804639804,
      "loss": 0.6422,
      "step": 1108
    },
    {
      "epoch": 1.2181793217080874,
      "grad_norm": 0.4306177794933319,
      "learning_rate": 0.0001979242979242979,
      "loss": 0.5347,
      "step": 1109
    },
    {
      "epoch": 1.2192777701496635,
      "grad_norm": 0.5196095705032349,
      "learning_rate": 0.00019780219780219779,
      "loss": 0.5996,
      "step": 1110
    },
    {
      "epoch": 1.22037621859124,
      "grad_norm": 0.4814283549785614,
      "learning_rate": 0.00019768009768009767,
      "loss": 0.6782,
      "step": 1111
    },
    {
      "epoch": 1.2214746670328163,
      "grad_norm": 0.2287791222333908,
      "learning_rate": 0.00019755799755799753,
      "loss": 0.5908,
      "step": 1112
    },
    {
      "epoch": 1.2225731154743924,
      "grad_norm": 0.43044313788414,
      "learning_rate": 0.00019743589743589742,
      "loss": 0.6554,
      "step": 1113
    },
    {
      "epoch": 1.2236715639159688,
      "grad_norm": 0.390874445438385,
      "learning_rate": 0.0001973137973137973,
      "loss": 0.5777,
      "step": 1114
    },
    {
      "epoch": 1.224770012357545,
      "grad_norm": 0.5380458235740662,
      "learning_rate": 0.00019719169719169716,
      "loss": 0.467,
      "step": 1115
    },
    {
      "epoch": 1.2258684607991213,
      "grad_norm": 0.6176440119743347,
      "learning_rate": 0.00019706959706959704,
      "loss": 0.5625,
      "step": 1116
    },
    {
      "epoch": 1.2269669092406974,
      "grad_norm": 0.4321332275867462,
      "learning_rate": 0.00019694749694749693,
      "loss": 0.7262,
      "step": 1117
    },
    {
      "epoch": 1.2280653576822738,
      "grad_norm": 0.5679623484611511,
      "learning_rate": 0.0001968253968253968,
      "loss": 0.8216,
      "step": 1118
    },
    {
      "epoch": 1.2291638061238501,
      "grad_norm": 0.4741218686103821,
      "learning_rate": 0.00019670329670329667,
      "loss": 0.7164,
      "step": 1119
    },
    {
      "epoch": 1.2302622545654263,
      "grad_norm": 0.6570267677307129,
      "learning_rate": 0.00019658119658119659,
      "loss": 0.7606,
      "step": 1120
    },
    {
      "epoch": 1.2313607030070026,
      "grad_norm": 0.4256306290626526,
      "learning_rate": 0.00019645909645909644,
      "loss": 0.5137,
      "step": 1121
    },
    {
      "epoch": 1.232459151448579,
      "grad_norm": 0.4444984793663025,
      "learning_rate": 0.00019633699633699633,
      "loss": 0.8863,
      "step": 1122
    },
    {
      "epoch": 1.2335575998901551,
      "grad_norm": 0.458133339881897,
      "learning_rate": 0.00019621489621489622,
      "loss": 0.6445,
      "step": 1123
    },
    {
      "epoch": 1.2346560483317315,
      "grad_norm": 0.6087627410888672,
      "learning_rate": 0.00019609279609279607,
      "loss": 0.5625,
      "step": 1124
    },
    {
      "epoch": 1.2357544967733076,
      "grad_norm": 0.42782312631607056,
      "learning_rate": 0.00019597069597069596,
      "loss": 0.6321,
      "step": 1125
    },
    {
      "epoch": 1.236852945214884,
      "grad_norm": 0.49623987078666687,
      "learning_rate": 0.00019584859584859585,
      "loss": 0.6473,
      "step": 1126
    },
    {
      "epoch": 1.2379513936564603,
      "grad_norm": 0.5348198413848877,
      "learning_rate": 0.0001957264957264957,
      "loss": 0.6948,
      "step": 1127
    },
    {
      "epoch": 1.2390498420980365,
      "grad_norm": 0.44476062059402466,
      "learning_rate": 0.0001956043956043956,
      "loss": 0.5917,
      "step": 1128
    },
    {
      "epoch": 1.2401482905396128,
      "grad_norm": 0.5777286291122437,
      "learning_rate": 0.00019548229548229547,
      "loss": 0.7474,
      "step": 1129
    },
    {
      "epoch": 1.241246738981189,
      "grad_norm": 0.3132689893245697,
      "learning_rate": 0.00019536019536019533,
      "loss": 0.5827,
      "step": 1130
    },
    {
      "epoch": 1.2423451874227653,
      "grad_norm": 0.3898192346096039,
      "learning_rate": 0.00019523809523809522,
      "loss": 0.5469,
      "step": 1131
    },
    {
      "epoch": 1.2434436358643417,
      "grad_norm": 0.338693767786026,
      "learning_rate": 0.00019511599511599508,
      "loss": 0.704,
      "step": 1132
    },
    {
      "epoch": 1.2445420843059178,
      "grad_norm": 0.4276609718799591,
      "learning_rate": 0.00019499389499389496,
      "loss": 0.7269,
      "step": 1133
    },
    {
      "epoch": 1.2456405327474942,
      "grad_norm": 0.7320281863212585,
      "learning_rate": 0.00019487179487179487,
      "loss": 0.62,
      "step": 1134
    },
    {
      "epoch": 1.2467389811890706,
      "grad_norm": 0.4023820757865906,
      "learning_rate": 0.0001947496947496947,
      "loss": 0.4234,
      "step": 1135
    },
    {
      "epoch": 1.2478374296306467,
      "grad_norm": 0.3218212425708771,
      "learning_rate": 0.00019462759462759462,
      "loss": 0.5325,
      "step": 1136
    },
    {
      "epoch": 1.248935878072223,
      "grad_norm": 0.45131513476371765,
      "learning_rate": 0.0001945054945054945,
      "loss": 0.5667,
      "step": 1137
    },
    {
      "epoch": 1.2500343265137992,
      "grad_norm": 0.604475200176239,
      "learning_rate": 0.00019438339438339436,
      "loss": 0.9018,
      "step": 1138
    },
    {
      "epoch": 1.2511327749553756,
      "grad_norm": 0.46968311071395874,
      "learning_rate": 0.00019426129426129425,
      "loss": 0.7946,
      "step": 1139
    },
    {
      "epoch": 1.2522312233969517,
      "grad_norm": 0.3960346281528473,
      "learning_rate": 0.00019413919413919413,
      "loss": 0.7719,
      "step": 1140
    },
    {
      "epoch": 1.253329671838528,
      "grad_norm": 0.5146461129188538,
      "learning_rate": 0.000194017094017094,
      "loss": 0.8946,
      "step": 1141
    },
    {
      "epoch": 1.2544281202801044,
      "grad_norm": 0.6343802809715271,
      "learning_rate": 0.00019389499389499388,
      "loss": 0.7822,
      "step": 1142
    },
    {
      "epoch": 1.2555265687216806,
      "grad_norm": 0.4646434485912323,
      "learning_rate": 0.00019377289377289376,
      "loss": 0.6722,
      "step": 1143
    },
    {
      "epoch": 1.256625017163257,
      "grad_norm": 0.48127877712249756,
      "learning_rate": 0.00019365079365079362,
      "loss": 0.9059,
      "step": 1144
    },
    {
      "epoch": 1.2577234656048333,
      "grad_norm": 0.4040716290473938,
      "learning_rate": 0.0001935286935286935,
      "loss": 0.7288,
      "step": 1145
    },
    {
      "epoch": 1.2588219140464094,
      "grad_norm": 0.43992865085601807,
      "learning_rate": 0.0001934065934065934,
      "loss": 0.5804,
      "step": 1146
    },
    {
      "epoch": 1.2599203624879858,
      "grad_norm": 0.41578513383865356,
      "learning_rate": 0.00019328449328449325,
      "loss": 0.5459,
      "step": 1147
    },
    {
      "epoch": 1.261018810929562,
      "grad_norm": 0.40165719389915466,
      "learning_rate": 0.00019316239316239314,
      "loss": 0.6001,
      "step": 1148
    },
    {
      "epoch": 1.2621172593711383,
      "grad_norm": 0.43200212717056274,
      "learning_rate": 0.00019304029304029305,
      "loss": 0.8712,
      "step": 1149
    },
    {
      "epoch": 1.2632157078127144,
      "grad_norm": 0.3217264413833618,
      "learning_rate": 0.00019291819291819288,
      "loss": 0.6074,
      "step": 1150
    },
    {
      "epoch": 1.2643141562542908,
      "grad_norm": 0.3964528441429138,
      "learning_rate": 0.0001927960927960928,
      "loss": 0.6131,
      "step": 1151
    },
    {
      "epoch": 1.2654126046958671,
      "grad_norm": 0.5151070952415466,
      "learning_rate": 0.00019267399267399268,
      "loss": 0.6992,
      "step": 1152
    },
    {
      "epoch": 1.2665110531374433,
      "grad_norm": 0.5902129411697388,
      "learning_rate": 0.00019255189255189254,
      "loss": 0.7311,
      "step": 1153
    },
    {
      "epoch": 1.2676095015790196,
      "grad_norm": 0.5386108160018921,
      "learning_rate": 0.00019242979242979242,
      "loss": 0.6469,
      "step": 1154
    },
    {
      "epoch": 1.268707950020596,
      "grad_norm": 0.384093701839447,
      "learning_rate": 0.0001923076923076923,
      "loss": 0.7111,
      "step": 1155
    },
    {
      "epoch": 1.2698063984621721,
      "grad_norm": 0.34160250425338745,
      "learning_rate": 0.00019218559218559217,
      "loss": 0.5396,
      "step": 1156
    },
    {
      "epoch": 1.2709048469037485,
      "grad_norm": 0.6590912938117981,
      "learning_rate": 0.00019206349206349205,
      "loss": 1.1613,
      "step": 1157
    },
    {
      "epoch": 1.2720032953453249,
      "grad_norm": 0.6230842471122742,
      "learning_rate": 0.0001919413919413919,
      "loss": 0.7701,
      "step": 1158
    },
    {
      "epoch": 1.273101743786901,
      "grad_norm": 0.3881864547729492,
      "learning_rate": 0.0001918192918192918,
      "loss": 0.633,
      "step": 1159
    },
    {
      "epoch": 1.2742001922284774,
      "grad_norm": 0.4538264274597168,
      "learning_rate": 0.00019169719169719168,
      "loss": 0.451,
      "step": 1160
    },
    {
      "epoch": 1.2752986406700535,
      "grad_norm": 0.6188018321990967,
      "learning_rate": 0.00019157509157509154,
      "loss": 0.9563,
      "step": 1161
    },
    {
      "epoch": 1.2763970891116299,
      "grad_norm": 0.4172852039337158,
      "learning_rate": 0.00019145299145299142,
      "loss": 0.8284,
      "step": 1162
    },
    {
      "epoch": 1.277495537553206,
      "grad_norm": 0.338623583316803,
      "learning_rate": 0.0001913308913308913,
      "loss": 0.6745,
      "step": 1163
    },
    {
      "epoch": 1.2785939859947824,
      "grad_norm": 0.3960900902748108,
      "learning_rate": 0.00019120879120879117,
      "loss": 0.6508,
      "step": 1164
    },
    {
      "epoch": 1.2796924344363587,
      "grad_norm": 0.37232962250709534,
      "learning_rate": 0.00019108669108669108,
      "loss": 0.7347,
      "step": 1165
    },
    {
      "epoch": 1.2807908828779349,
      "grad_norm": 0.47092223167419434,
      "learning_rate": 0.00019096459096459097,
      "loss": 0.8251,
      "step": 1166
    },
    {
      "epoch": 1.2818893313195112,
      "grad_norm": 0.4647108316421509,
      "learning_rate": 0.00019084249084249082,
      "loss": 0.556,
      "step": 1167
    },
    {
      "epoch": 1.2829877797610876,
      "grad_norm": 0.5812810659408569,
      "learning_rate": 0.0001907203907203907,
      "loss": 0.6802,
      "step": 1168
    },
    {
      "epoch": 1.2840862282026637,
      "grad_norm": 0.3731052279472351,
      "learning_rate": 0.0001905982905982906,
      "loss": 0.6384,
      "step": 1169
    },
    {
      "epoch": 1.28518467664424,
      "grad_norm": 0.47995856404304504,
      "learning_rate": 0.00019047619047619045,
      "loss": 0.4914,
      "step": 1170
    },
    {
      "epoch": 1.2862831250858162,
      "grad_norm": 0.3223705589771271,
      "learning_rate": 0.00019035409035409034,
      "loss": 0.6676,
      "step": 1171
    },
    {
      "epoch": 1.2873815735273926,
      "grad_norm": 0.5643377304077148,
      "learning_rate": 0.00019023199023199023,
      "loss": 0.8224,
      "step": 1172
    },
    {
      "epoch": 1.2884800219689687,
      "grad_norm": 0.48324450850486755,
      "learning_rate": 0.00019010989010989008,
      "loss": 0.8005,
      "step": 1173
    },
    {
      "epoch": 1.289578470410545,
      "grad_norm": 0.40516728162765503,
      "learning_rate": 0.00018998778998778997,
      "loss": 0.5463,
      "step": 1174
    },
    {
      "epoch": 1.2906769188521214,
      "grad_norm": 0.45521625876426697,
      "learning_rate": 0.00018986568986568985,
      "loss": 0.7562,
      "step": 1175
    },
    {
      "epoch": 1.2917753672936976,
      "grad_norm": 0.38747909665107727,
      "learning_rate": 0.0001897435897435897,
      "loss": 0.5074,
      "step": 1176
    },
    {
      "epoch": 1.292873815735274,
      "grad_norm": 0.39688000082969666,
      "learning_rate": 0.0001896214896214896,
      "loss": 0.3551,
      "step": 1177
    },
    {
      "epoch": 1.2939722641768503,
      "grad_norm": 0.6891604065895081,
      "learning_rate": 0.0001894993894993895,
      "loss": 0.601,
      "step": 1178
    },
    {
      "epoch": 1.2950707126184264,
      "grad_norm": 0.5177300572395325,
      "learning_rate": 0.00018937728937728934,
      "loss": 0.5188,
      "step": 1179
    },
    {
      "epoch": 1.2961691610600028,
      "grad_norm": 0.3166979253292084,
      "learning_rate": 0.00018925518925518926,
      "loss": 0.8411,
      "step": 1180
    },
    {
      "epoch": 1.2972676095015792,
      "grad_norm": 0.6637437343597412,
      "learning_rate": 0.00018913308913308914,
      "loss": 0.7256,
      "step": 1181
    },
    {
      "epoch": 1.2983660579431553,
      "grad_norm": 0.424932599067688,
      "learning_rate": 0.000189010989010989,
      "loss": 0.783,
      "step": 1182
    },
    {
      "epoch": 1.2994645063847314,
      "grad_norm": 0.47751033306121826,
      "learning_rate": 0.00018888888888888888,
      "loss": 0.7039,
      "step": 1183
    },
    {
      "epoch": 1.3005629548263078,
      "grad_norm": 0.4332704544067383,
      "learning_rate": 0.00018876678876678874,
      "loss": 0.4797,
      "step": 1184
    },
    {
      "epoch": 1.3016614032678842,
      "grad_norm": 0.439431756734848,
      "learning_rate": 0.00018864468864468863,
      "loss": 0.6256,
      "step": 1185
    },
    {
      "epoch": 1.3027598517094603,
      "grad_norm": 0.4334176480770111,
      "learning_rate": 0.00018852258852258851,
      "loss": 0.5583,
      "step": 1186
    },
    {
      "epoch": 1.3038583001510367,
      "grad_norm": 0.42080724239349365,
      "learning_rate": 0.00018840048840048837,
      "loss": 0.461,
      "step": 1187
    },
    {
      "epoch": 1.304956748592613,
      "grad_norm": 0.41007399559020996,
      "learning_rate": 0.00018827838827838826,
      "loss": 0.4746,
      "step": 1188
    },
    {
      "epoch": 1.3060551970341892,
      "grad_norm": 0.3763822019100189,
      "learning_rate": 0.00018815628815628814,
      "loss": 0.5352,
      "step": 1189
    },
    {
      "epoch": 1.3071536454757655,
      "grad_norm": 0.5557730197906494,
      "learning_rate": 0.000188034188034188,
      "loss": 0.5404,
      "step": 1190
    },
    {
      "epoch": 1.3082520939173419,
      "grad_norm": 0.43677788972854614,
      "learning_rate": 0.0001879120879120879,
      "loss": 0.7111,
      "step": 1191
    },
    {
      "epoch": 1.309350542358918,
      "grad_norm": 0.6084219217300415,
      "learning_rate": 0.00018778998778998777,
      "loss": 0.7524,
      "step": 1192
    },
    {
      "epoch": 1.3104489908004944,
      "grad_norm": 0.7219144701957703,
      "learning_rate": 0.00018766788766788763,
      "loss": 0.6182,
      "step": 1193
    },
    {
      "epoch": 1.3115474392420705,
      "grad_norm": 0.5280331969261169,
      "learning_rate": 0.00018754578754578752,
      "loss": 0.8023,
      "step": 1194
    },
    {
      "epoch": 1.3126458876836469,
      "grad_norm": 0.42130032181739807,
      "learning_rate": 0.00018742368742368743,
      "loss": 0.5673,
      "step": 1195
    },
    {
      "epoch": 1.313744336125223,
      "grad_norm": 0.6063292026519775,
      "learning_rate": 0.0001873015873015873,
      "loss": 0.6438,
      "step": 1196
    },
    {
      "epoch": 1.3148427845667994,
      "grad_norm": 0.4073690176010132,
      "learning_rate": 0.00018717948717948717,
      "loss": 0.7099,
      "step": 1197
    },
    {
      "epoch": 1.3159412330083757,
      "grad_norm": 0.5419113636016846,
      "learning_rate": 0.00018705738705738706,
      "loss": 0.6451,
      "step": 1198
    },
    {
      "epoch": 1.3170396814499519,
      "grad_norm": 0.4489867091178894,
      "learning_rate": 0.00018693528693528692,
      "loss": 0.7522,
      "step": 1199
    },
    {
      "epoch": 1.3181381298915282,
      "grad_norm": 0.3536837697029114,
      "learning_rate": 0.0001868131868131868,
      "loss": 0.6201,
      "step": 1200
    },
    {
      "epoch": 1.3192365783331046,
      "grad_norm": 0.42462313175201416,
      "learning_rate": 0.0001866910866910867,
      "loss": 0.4804,
      "step": 1201
    },
    {
      "epoch": 1.3203350267746807,
      "grad_norm": 0.612319827079773,
      "learning_rate": 0.00018656898656898655,
      "loss": 0.8546,
      "step": 1202
    },
    {
      "epoch": 1.321433475216257,
      "grad_norm": 0.5242000222206116,
      "learning_rate": 0.00018644688644688643,
      "loss": 0.7577,
      "step": 1203
    },
    {
      "epoch": 1.3225319236578332,
      "grad_norm": 0.5688628554344177,
      "learning_rate": 0.00018632478632478632,
      "loss": 0.6645,
      "step": 1204
    },
    {
      "epoch": 1.3236303720994096,
      "grad_norm": 0.3695731461048126,
      "learning_rate": 0.00018620268620268618,
      "loss": 0.4979,
      "step": 1205
    },
    {
      "epoch": 1.3247288205409857,
      "grad_norm": 0.44525593519210815,
      "learning_rate": 0.00018608058608058606,
      "loss": 0.807,
      "step": 1206
    },
    {
      "epoch": 1.325827268982562,
      "grad_norm": 0.37627971172332764,
      "learning_rate": 0.00018595848595848595,
      "loss": 0.6584,
      "step": 1207
    },
    {
      "epoch": 1.3269257174241385,
      "grad_norm": 0.39727315306663513,
      "learning_rate": 0.0001858363858363858,
      "loss": 0.5565,
      "step": 1208
    },
    {
      "epoch": 1.3280241658657146,
      "grad_norm": 0.4151424169540405,
      "learning_rate": 0.00018571428571428572,
      "loss": 0.81,
      "step": 1209
    },
    {
      "epoch": 1.329122614307291,
      "grad_norm": 0.37529075145721436,
      "learning_rate": 0.00018559218559218555,
      "loss": 0.6188,
      "step": 1210
    },
    {
      "epoch": 1.3302210627488673,
      "grad_norm": 0.43061408400535583,
      "learning_rate": 0.00018547008547008546,
      "loss": 0.814,
      "step": 1211
    },
    {
      "epoch": 1.3313195111904434,
      "grad_norm": 0.437511682510376,
      "learning_rate": 0.00018534798534798535,
      "loss": 0.55,
      "step": 1212
    },
    {
      "epoch": 1.3324179596320198,
      "grad_norm": 0.5172685980796814,
      "learning_rate": 0.0001852258852258852,
      "loss": 0.6551,
      "step": 1213
    },
    {
      "epoch": 1.3335164080735962,
      "grad_norm": 0.3292716443538666,
      "learning_rate": 0.0001851037851037851,
      "loss": 0.5108,
      "step": 1214
    },
    {
      "epoch": 1.3346148565151723,
      "grad_norm": 0.7129474878311157,
      "learning_rate": 0.00018498168498168498,
      "loss": 0.7197,
      "step": 1215
    },
    {
      "epoch": 1.3357133049567487,
      "grad_norm": 0.46317145228385925,
      "learning_rate": 0.00018485958485958483,
      "loss": 0.6553,
      "step": 1216
    },
    {
      "epoch": 1.3368117533983248,
      "grad_norm": 0.5539398789405823,
      "learning_rate": 0.00018473748473748472,
      "loss": 0.7057,
      "step": 1217
    },
    {
      "epoch": 1.3379102018399012,
      "grad_norm": 0.40555253624916077,
      "learning_rate": 0.0001846153846153846,
      "loss": 0.5976,
      "step": 1218
    },
    {
      "epoch": 1.3390086502814773,
      "grad_norm": 0.462704062461853,
      "learning_rate": 0.00018449328449328446,
      "loss": 0.7018,
      "step": 1219
    },
    {
      "epoch": 1.3401070987230537,
      "grad_norm": 0.407287061214447,
      "learning_rate": 0.00018437118437118435,
      "loss": 0.4726,
      "step": 1220
    },
    {
      "epoch": 1.34120554716463,
      "grad_norm": 0.3654995858669281,
      "learning_rate": 0.00018424908424908423,
      "loss": 0.5811,
      "step": 1221
    },
    {
      "epoch": 1.3423039956062062,
      "grad_norm": 0.46455878019332886,
      "learning_rate": 0.0001841269841269841,
      "loss": 0.8998,
      "step": 1222
    },
    {
      "epoch": 1.3434024440477825,
      "grad_norm": 0.47929346561431885,
      "learning_rate": 0.00018400488400488398,
      "loss": 0.7348,
      "step": 1223
    },
    {
      "epoch": 1.344500892489359,
      "grad_norm": 0.7128652930259705,
      "learning_rate": 0.0001838827838827839,
      "loss": 1.2647,
      "step": 1224
    },
    {
      "epoch": 1.345599340930935,
      "grad_norm": 0.3956572413444519,
      "learning_rate": 0.00018376068376068372,
      "loss": 0.6985,
      "step": 1225
    },
    {
      "epoch": 1.3466977893725114,
      "grad_norm": 0.5585309863090515,
      "learning_rate": 0.00018363858363858364,
      "loss": 1.0086,
      "step": 1226
    },
    {
      "epoch": 1.3477962378140875,
      "grad_norm": 1.5960838794708252,
      "learning_rate": 0.00018351648351648352,
      "loss": 0.644,
      "step": 1227
    },
    {
      "epoch": 1.3488946862556639,
      "grad_norm": 0.6499342322349548,
      "learning_rate": 0.00018339438339438338,
      "loss": 0.7698,
      "step": 1228
    },
    {
      "epoch": 1.34999313469724,
      "grad_norm": 0.42246925830841064,
      "learning_rate": 0.00018327228327228326,
      "loss": 0.5614,
      "step": 1229
    },
    {
      "epoch": 1.3510915831388164,
      "grad_norm": 0.42192572355270386,
      "learning_rate": 0.00018315018315018315,
      "loss": 0.7726,
      "step": 1230
    },
    {
      "epoch": 1.3521900315803927,
      "grad_norm": 0.6409221887588501,
      "learning_rate": 0.000183028083028083,
      "loss": 0.5928,
      "step": 1231
    },
    {
      "epoch": 1.3532884800219689,
      "grad_norm": 1.328852653503418,
      "learning_rate": 0.0001829059829059829,
      "loss": 0.7861,
      "step": 1232
    },
    {
      "epoch": 1.3543869284635452,
      "grad_norm": 0.4519331753253937,
      "learning_rate": 0.00018278388278388275,
      "loss": 0.5938,
      "step": 1233
    },
    {
      "epoch": 1.3554853769051216,
      "grad_norm": 0.3942720592021942,
      "learning_rate": 0.00018266178266178264,
      "loss": 0.4781,
      "step": 1234
    },
    {
      "epoch": 1.3565838253466977,
      "grad_norm": 0.5066869258880615,
      "learning_rate": 0.00018253968253968252,
      "loss": 0.8069,
      "step": 1235
    },
    {
      "epoch": 1.357682273788274,
      "grad_norm": 0.37002792954444885,
      "learning_rate": 0.00018241758241758238,
      "loss": 0.5737,
      "step": 1236
    },
    {
      "epoch": 1.3587807222298505,
      "grad_norm": 0.3738810122013092,
      "learning_rate": 0.00018229548229548227,
      "loss": 0.5169,
      "step": 1237
    },
    {
      "epoch": 1.3598791706714266,
      "grad_norm": 0.44956260919570923,
      "learning_rate": 0.00018217338217338215,
      "loss": 0.5614,
      "step": 1238
    },
    {
      "epoch": 1.3609776191130027,
      "grad_norm": 0.34839004278182983,
      "learning_rate": 0.000182051282051282,
      "loss": 0.5783,
      "step": 1239
    },
    {
      "epoch": 1.362076067554579,
      "grad_norm": 0.30152127146720886,
      "learning_rate": 0.00018192918192918192,
      "loss": 0.4321,
      "step": 1240
    },
    {
      "epoch": 1.3631745159961555,
      "grad_norm": 0.6672345399856567,
      "learning_rate": 0.0001818070818070818,
      "loss": 0.6073,
      "step": 1241
    },
    {
      "epoch": 1.3642729644377316,
      "grad_norm": 0.45652687549591064,
      "learning_rate": 0.00018168498168498167,
      "loss": 0.6193,
      "step": 1242
    },
    {
      "epoch": 1.365371412879308,
      "grad_norm": 0.6392306089401245,
      "learning_rate": 0.00018156288156288155,
      "loss": 0.8388,
      "step": 1243
    },
    {
      "epoch": 1.3664698613208843,
      "grad_norm": 0.5510252714157104,
      "learning_rate": 0.00018144078144078144,
      "loss": 0.6512,
      "step": 1244
    },
    {
      "epoch": 1.3675683097624605,
      "grad_norm": 0.38780227303504944,
      "learning_rate": 0.0001813186813186813,
      "loss": 0.6835,
      "step": 1245
    },
    {
      "epoch": 1.3686667582040368,
      "grad_norm": 0.47472965717315674,
      "learning_rate": 0.00018119658119658118,
      "loss": 0.6625,
      "step": 1246
    },
    {
      "epoch": 1.3697652066456132,
      "grad_norm": 0.3599228262901306,
      "learning_rate": 0.00018107448107448107,
      "loss": 0.5063,
      "step": 1247
    },
    {
      "epoch": 1.3708636550871893,
      "grad_norm": 0.3284567892551422,
      "learning_rate": 0.00018095238095238093,
      "loss": 0.7679,
      "step": 1248
    },
    {
      "epoch": 1.3719621035287657,
      "grad_norm": 0.5258575081825256,
      "learning_rate": 0.0001808302808302808,
      "loss": 0.6213,
      "step": 1249
    },
    {
      "epoch": 1.3730605519703418,
      "grad_norm": 0.3211069405078888,
      "learning_rate": 0.0001807081807081807,
      "loss": 0.5306,
      "step": 1250
    },
    {
      "epoch": 1.3741590004119182,
      "grad_norm": 0.6325588822364807,
      "learning_rate": 0.00018058608058608056,
      "loss": 0.8104,
      "step": 1251
    },
    {
      "epoch": 1.3752574488534943,
      "grad_norm": 0.4994303584098816,
      "learning_rate": 0.00018046398046398044,
      "loss": 0.6464,
      "step": 1252
    },
    {
      "epoch": 1.3763558972950707,
      "grad_norm": 0.3013019263744354,
      "learning_rate": 0.00018034188034188035,
      "loss": 0.4749,
      "step": 1253
    },
    {
      "epoch": 1.377454345736647,
      "grad_norm": 1.0342131853103638,
      "learning_rate": 0.00018021978021978018,
      "loss": 0.7995,
      "step": 1254
    },
    {
      "epoch": 1.3785527941782232,
      "grad_norm": 0.40213823318481445,
      "learning_rate": 0.0001800976800976801,
      "loss": 0.8791,
      "step": 1255
    },
    {
      "epoch": 1.3796512426197995,
      "grad_norm": 0.37126532196998596,
      "learning_rate": 0.00017997557997557998,
      "loss": 0.551,
      "step": 1256
    },
    {
      "epoch": 1.380749691061376,
      "grad_norm": 0.3417685031890869,
      "learning_rate": 0.00017985347985347984,
      "loss": 0.583,
      "step": 1257
    },
    {
      "epoch": 1.381848139502952,
      "grad_norm": 0.33571329712867737,
      "learning_rate": 0.00017973137973137973,
      "loss": 0.4927,
      "step": 1258
    },
    {
      "epoch": 1.3829465879445284,
      "grad_norm": 0.5128073692321777,
      "learning_rate": 0.00017960927960927959,
      "loss": 0.5903,
      "step": 1259
    },
    {
      "epoch": 1.3840450363861048,
      "grad_norm": 0.5345245599746704,
      "learning_rate": 0.00017948717948717947,
      "loss": 0.5828,
      "step": 1260
    },
    {
      "epoch": 1.385143484827681,
      "grad_norm": 0.312639981508255,
      "learning_rate": 0.00017936507936507936,
      "loss": 0.6905,
      "step": 1261
    },
    {
      "epoch": 1.386241933269257,
      "grad_norm": 0.4795394837856293,
      "learning_rate": 0.00017924297924297921,
      "loss": 0.6193,
      "step": 1262
    },
    {
      "epoch": 1.3873403817108334,
      "grad_norm": 0.39672231674194336,
      "learning_rate": 0.0001791208791208791,
      "loss": 0.7833,
      "step": 1263
    },
    {
      "epoch": 1.3884388301524098,
      "grad_norm": 0.46752655506134033,
      "learning_rate": 0.00017899877899877899,
      "loss": 0.6385,
      "step": 1264
    },
    {
      "epoch": 1.389537278593986,
      "grad_norm": 0.5376736521720886,
      "learning_rate": 0.00017887667887667884,
      "loss": 0.6362,
      "step": 1265
    },
    {
      "epoch": 1.3906357270355623,
      "grad_norm": 0.5675904750823975,
      "learning_rate": 0.00017875457875457873,
      "loss": 0.7975,
      "step": 1266
    },
    {
      "epoch": 1.3917341754771386,
      "grad_norm": 0.5429015755653381,
      "learning_rate": 0.00017863247863247861,
      "loss": 0.5415,
      "step": 1267
    },
    {
      "epoch": 1.3928326239187148,
      "grad_norm": 0.3714626729488373,
      "learning_rate": 0.00017851037851037847,
      "loss": 0.7104,
      "step": 1268
    },
    {
      "epoch": 1.3939310723602911,
      "grad_norm": 0.7549324035644531,
      "learning_rate": 0.00017838827838827836,
      "loss": 0.698,
      "step": 1269
    },
    {
      "epoch": 1.3950295208018675,
      "grad_norm": 0.36867257952690125,
      "learning_rate": 0.00017826617826617827,
      "loss": 0.6019,
      "step": 1270
    },
    {
      "epoch": 1.3961279692434436,
      "grad_norm": 0.42439624667167664,
      "learning_rate": 0.00017814407814407813,
      "loss": 0.4626,
      "step": 1271
    },
    {
      "epoch": 1.39722641768502,
      "grad_norm": 0.4768877923488617,
      "learning_rate": 0.00017802197802197802,
      "loss": 0.671,
      "step": 1272
    },
    {
      "epoch": 1.3983248661265961,
      "grad_norm": 0.3415908217430115,
      "learning_rate": 0.0001778998778998779,
      "loss": 0.5904,
      "step": 1273
    },
    {
      "epoch": 1.3994233145681725,
      "grad_norm": 0.5370535850524902,
      "learning_rate": 0.00017777777777777776,
      "loss": 0.578,
      "step": 1274
    },
    {
      "epoch": 1.4005217630097486,
      "grad_norm": 0.61114901304245,
      "learning_rate": 0.00017765567765567764,
      "loss": 0.6498,
      "step": 1275
    },
    {
      "epoch": 1.401620211451325,
      "grad_norm": 0.3491772711277008,
      "learning_rate": 0.00017753357753357753,
      "loss": 0.6057,
      "step": 1276
    },
    {
      "epoch": 1.4027186598929013,
      "grad_norm": 0.4992705285549164,
      "learning_rate": 0.0001774114774114774,
      "loss": 0.8541,
      "step": 1277
    },
    {
      "epoch": 1.4038171083344775,
      "grad_norm": 0.5476379990577698,
      "learning_rate": 0.00017728937728937727,
      "loss": 0.5608,
      "step": 1278
    },
    {
      "epoch": 1.4049155567760538,
      "grad_norm": 0.6107895374298096,
      "learning_rate": 0.00017716727716727716,
      "loss": 0.7437,
      "step": 1279
    },
    {
      "epoch": 1.4060140052176302,
      "grad_norm": 0.510809600353241,
      "learning_rate": 0.00017704517704517702,
      "loss": 0.6569,
      "step": 1280
    },
    {
      "epoch": 1.4071124536592063,
      "grad_norm": 0.5050077438354492,
      "learning_rate": 0.0001769230769230769,
      "loss": 0.6566,
      "step": 1281
    },
    {
      "epoch": 1.4082109021007827,
      "grad_norm": 0.44812703132629395,
      "learning_rate": 0.0001768009768009768,
      "loss": 0.6557,
      "step": 1282
    },
    {
      "epoch": 1.4093093505423588,
      "grad_norm": 0.5216537714004517,
      "learning_rate": 0.00017667887667887665,
      "loss": 0.7311,
      "step": 1283
    },
    {
      "epoch": 1.4104077989839352,
      "grad_norm": 0.5608856081962585,
      "learning_rate": 0.00017655677655677656,
      "loss": 0.9001,
      "step": 1284
    },
    {
      "epoch": 1.4115062474255113,
      "grad_norm": 0.47205066680908203,
      "learning_rate": 0.0001764346764346764,
      "loss": 0.5214,
      "step": 1285
    },
    {
      "epoch": 1.4126046958670877,
      "grad_norm": 0.4073629081249237,
      "learning_rate": 0.0001763125763125763,
      "loss": 0.483,
      "step": 1286
    },
    {
      "epoch": 1.413703144308664,
      "grad_norm": 0.42381593585014343,
      "learning_rate": 0.0001761904761904762,
      "loss": 0.4895,
      "step": 1287
    },
    {
      "epoch": 1.4148015927502402,
      "grad_norm": 0.629356861114502,
      "learning_rate": 0.00017606837606837605,
      "loss": 0.4639,
      "step": 1288
    },
    {
      "epoch": 1.4159000411918166,
      "grad_norm": 0.3123486340045929,
      "learning_rate": 0.00017594627594627593,
      "loss": 0.4575,
      "step": 1289
    },
    {
      "epoch": 1.416998489633393,
      "grad_norm": 0.4163682460784912,
      "learning_rate": 0.00017582417582417582,
      "loss": 0.7511,
      "step": 1290
    },
    {
      "epoch": 1.418096938074969,
      "grad_norm": 0.5697455406188965,
      "learning_rate": 0.00017570207570207568,
      "loss": 0.5977,
      "step": 1291
    },
    {
      "epoch": 1.4191953865165454,
      "grad_norm": 0.39232510328292847,
      "learning_rate": 0.00017557997557997556,
      "loss": 0.6133,
      "step": 1292
    },
    {
      "epoch": 1.4202938349581218,
      "grad_norm": 0.5452993512153625,
      "learning_rate": 0.00017545787545787545,
      "loss": 0.6596,
      "step": 1293
    },
    {
      "epoch": 1.421392283399698,
      "grad_norm": 0.39080601930618286,
      "learning_rate": 0.0001753357753357753,
      "loss": 0.7422,
      "step": 1294
    },
    {
      "epoch": 1.4224907318412743,
      "grad_norm": 0.6513398289680481,
      "learning_rate": 0.0001752136752136752,
      "loss": 0.5277,
      "step": 1295
    },
    {
      "epoch": 1.4235891802828504,
      "grad_norm": 0.4627130329608917,
      "learning_rate": 0.00017509157509157508,
      "loss": 0.6296,
      "step": 1296
    },
    {
      "epoch": 1.4246876287244268,
      "grad_norm": 0.499700129032135,
      "learning_rate": 0.00017496947496947494,
      "loss": 0.689,
      "step": 1297
    },
    {
      "epoch": 1.425786077166003,
      "grad_norm": 0.4668709635734558,
      "learning_rate": 0.00017484737484737482,
      "loss": 0.784,
      "step": 1298
    },
    {
      "epoch": 1.4268845256075793,
      "grad_norm": 0.6378145217895508,
      "learning_rate": 0.00017472527472527473,
      "loss": 0.5077,
      "step": 1299
    },
    {
      "epoch": 1.4279829740491556,
      "grad_norm": 0.6320174336433411,
      "learning_rate": 0.00017460317460317457,
      "loss": 1.061,
      "step": 1300
    },
    {
      "epoch": 1.4290814224907318,
      "grad_norm": 0.48719078302383423,
      "learning_rate": 0.00017448107448107448,
      "loss": 0.7181,
      "step": 1301
    },
    {
      "epoch": 1.4301798709323081,
      "grad_norm": 0.5345287919044495,
      "learning_rate": 0.00017435897435897436,
      "loss": 0.5599,
      "step": 1302
    },
    {
      "epoch": 1.4312783193738845,
      "grad_norm": 0.567857563495636,
      "learning_rate": 0.00017423687423687422,
      "loss": 0.6294,
      "step": 1303
    },
    {
      "epoch": 1.4323767678154606,
      "grad_norm": 0.5715040564537048,
      "learning_rate": 0.0001741147741147741,
      "loss": 0.5326,
      "step": 1304
    },
    {
      "epoch": 1.433475216257037,
      "grad_norm": 0.40048834681510925,
      "learning_rate": 0.000173992673992674,
      "loss": 0.687,
      "step": 1305
    },
    {
      "epoch": 1.4345736646986131,
      "grad_norm": 0.4964540898799896,
      "learning_rate": 0.00017387057387057385,
      "loss": 0.6149,
      "step": 1306
    },
    {
      "epoch": 1.4356721131401895,
      "grad_norm": 0.5018569231033325,
      "learning_rate": 0.00017374847374847374,
      "loss": 0.4224,
      "step": 1307
    },
    {
      "epoch": 1.4367705615817656,
      "grad_norm": 0.6026094555854797,
      "learning_rate": 0.00017362637362637362,
      "loss": 0.8934,
      "step": 1308
    },
    {
      "epoch": 1.437869010023342,
      "grad_norm": 0.33409950137138367,
      "learning_rate": 0.00017350427350427348,
      "loss": 0.6725,
      "step": 1309
    },
    {
      "epoch": 1.4389674584649184,
      "grad_norm": 0.43982234597206116,
      "learning_rate": 0.00017338217338217337,
      "loss": 0.9203,
      "step": 1310
    },
    {
      "epoch": 1.4400659069064945,
      "grad_norm": 0.843877911567688,
      "learning_rate": 0.00017326007326007322,
      "loss": 0.6028,
      "step": 1311
    },
    {
      "epoch": 1.4411643553480709,
      "grad_norm": 0.35148733854293823,
      "learning_rate": 0.0001731379731379731,
      "loss": 0.7503,
      "step": 1312
    },
    {
      "epoch": 1.4422628037896472,
      "grad_norm": 0.4561845362186432,
      "learning_rate": 0.000173015873015873,
      "loss": 0.6577,
      "step": 1313
    },
    {
      "epoch": 1.4433612522312234,
      "grad_norm": 0.47295713424682617,
      "learning_rate": 0.00017289377289377285,
      "loss": 0.8013,
      "step": 1314
    },
    {
      "epoch": 1.4444597006727997,
      "grad_norm": 0.46340033411979675,
      "learning_rate": 0.00017277167277167277,
      "loss": 0.73,
      "step": 1315
    },
    {
      "epoch": 1.445558149114376,
      "grad_norm": 0.49221453070640564,
      "learning_rate": 0.00017264957264957265,
      "loss": 0.6735,
      "step": 1316
    },
    {
      "epoch": 1.4466565975559522,
      "grad_norm": 0.36250925064086914,
      "learning_rate": 0.0001725274725274725,
      "loss": 0.7463,
      "step": 1317
    },
    {
      "epoch": 1.4477550459975284,
      "grad_norm": 0.3832615911960602,
      "learning_rate": 0.0001724053724053724,
      "loss": 0.7295,
      "step": 1318
    },
    {
      "epoch": 1.4488534944391047,
      "grad_norm": 0.7413591742515564,
      "learning_rate": 0.00017228327228327228,
      "loss": 0.7627,
      "step": 1319
    },
    {
      "epoch": 1.449951942880681,
      "grad_norm": 0.45626765489578247,
      "learning_rate": 0.00017216117216117214,
      "loss": 0.727,
      "step": 1320
    },
    {
      "epoch": 1.4510503913222572,
      "grad_norm": 0.3024120330810547,
      "learning_rate": 0.00017203907203907202,
      "loss": 0.3986,
      "step": 1321
    },
    {
      "epoch": 1.4521488397638336,
      "grad_norm": 0.31635284423828125,
      "learning_rate": 0.0001719169719169719,
      "loss": 0.3469,
      "step": 1322
    },
    {
      "epoch": 1.45324728820541,
      "grad_norm": 0.36893391609191895,
      "learning_rate": 0.00017179487179487177,
      "loss": 0.7017,
      "step": 1323
    },
    {
      "epoch": 1.454345736646986,
      "grad_norm": 0.4804024398326874,
      "learning_rate": 0.00017167277167277165,
      "loss": 0.8811,
      "step": 1324
    },
    {
      "epoch": 1.4554441850885624,
      "grad_norm": 0.4446522295475006,
      "learning_rate": 0.00017155067155067154,
      "loss": 0.8027,
      "step": 1325
    },
    {
      "epoch": 1.4565426335301388,
      "grad_norm": 0.27936413884162903,
      "learning_rate": 0.0001714285714285714,
      "loss": 0.3846,
      "step": 1326
    },
    {
      "epoch": 1.457641081971715,
      "grad_norm": 0.3312259316444397,
      "learning_rate": 0.00017130647130647128,
      "loss": 0.4852,
      "step": 1327
    },
    {
      "epoch": 1.4587395304132913,
      "grad_norm": 0.4751642644405365,
      "learning_rate": 0.0001711843711843712,
      "loss": 0.7337,
      "step": 1328
    },
    {
      "epoch": 1.4598379788548674,
      "grad_norm": 0.5365067720413208,
      "learning_rate": 0.00017106227106227103,
      "loss": 0.8052,
      "step": 1329
    },
    {
      "epoch": 1.4609364272964438,
      "grad_norm": 0.5944942831993103,
      "learning_rate": 0.00017094017094017094,
      "loss": 0.7673,
      "step": 1330
    },
    {
      "epoch": 1.46203487573802,
      "grad_norm": 0.48244431614875793,
      "learning_rate": 0.00017081807081807083,
      "loss": 0.855,
      "step": 1331
    },
    {
      "epoch": 1.4631333241795963,
      "grad_norm": 0.32348135113716125,
      "learning_rate": 0.00017069597069597068,
      "loss": 0.5133,
      "step": 1332
    },
    {
      "epoch": 1.4642317726211727,
      "grad_norm": 0.6455866694450378,
      "learning_rate": 0.00017057387057387057,
      "loss": 0.6825,
      "step": 1333
    },
    {
      "epoch": 1.4653302210627488,
      "grad_norm": 0.3937522768974304,
      "learning_rate": 0.00017045177045177045,
      "loss": 0.6335,
      "step": 1334
    },
    {
      "epoch": 1.4664286695043252,
      "grad_norm": 0.33579352498054504,
      "learning_rate": 0.0001703296703296703,
      "loss": 0.4711,
      "step": 1335
    },
    {
      "epoch": 1.4675271179459015,
      "grad_norm": 0.5055533647537231,
      "learning_rate": 0.0001702075702075702,
      "loss": 0.6512,
      "step": 1336
    },
    {
      "epoch": 1.4686255663874777,
      "grad_norm": 0.40702182054519653,
      "learning_rate": 0.00017008547008547006,
      "loss": 0.8833,
      "step": 1337
    },
    {
      "epoch": 1.469724014829054,
      "grad_norm": 0.3574135899543762,
      "learning_rate": 0.00016996336996336994,
      "loss": 0.7127,
      "step": 1338
    },
    {
      "epoch": 1.4708224632706302,
      "grad_norm": 0.45641472935676575,
      "learning_rate": 0.00016984126984126983,
      "loss": 0.7258,
      "step": 1339
    },
    {
      "epoch": 1.4719209117122065,
      "grad_norm": 1.5012352466583252,
      "learning_rate": 0.0001697191697191697,
      "loss": 0.8065,
      "step": 1340
    },
    {
      "epoch": 1.4730193601537827,
      "grad_norm": 0.5025885701179504,
      "learning_rate": 0.00016959706959706957,
      "loss": 0.9377,
      "step": 1341
    },
    {
      "epoch": 1.474117808595359,
      "grad_norm": 0.2942202687263489,
      "learning_rate": 0.00016947496947496946,
      "loss": 0.5693,
      "step": 1342
    },
    {
      "epoch": 1.4752162570369354,
      "grad_norm": 0.48770126700401306,
      "learning_rate": 0.00016935286935286932,
      "loss": 0.5483,
      "step": 1343
    },
    {
      "epoch": 1.4763147054785115,
      "grad_norm": 0.3853349983692169,
      "learning_rate": 0.0001692307692307692,
      "loss": 0.5787,
      "step": 1344
    },
    {
      "epoch": 1.4774131539200879,
      "grad_norm": 0.3593169152736664,
      "learning_rate": 0.00016910866910866911,
      "loss": 0.6426,
      "step": 1345
    },
    {
      "epoch": 1.4785116023616642,
      "grad_norm": 0.5932713150978088,
      "learning_rate": 0.00016898656898656897,
      "loss": 0.7543,
      "step": 1346
    },
    {
      "epoch": 1.4796100508032404,
      "grad_norm": 0.43406638503074646,
      "learning_rate": 0.00016886446886446886,
      "loss": 0.7868,
      "step": 1347
    },
    {
      "epoch": 1.4807084992448167,
      "grad_norm": 0.38596048951148987,
      "learning_rate": 0.00016874236874236874,
      "loss": 0.49,
      "step": 1348
    },
    {
      "epoch": 1.481806947686393,
      "grad_norm": 0.42844533920288086,
      "learning_rate": 0.0001686202686202686,
      "loss": 0.6485,
      "step": 1349
    },
    {
      "epoch": 1.4829053961279692,
      "grad_norm": 0.5165280103683472,
      "learning_rate": 0.0001684981684981685,
      "loss": 0.6924,
      "step": 1350
    },
    {
      "epoch": 1.4840038445695456,
      "grad_norm": 0.5717988610267639,
      "learning_rate": 0.00016837606837606837,
      "loss": 0.5624,
      "step": 1351
    },
    {
      "epoch": 1.4851022930111217,
      "grad_norm": 0.4384293556213379,
      "learning_rate": 0.00016825396825396823,
      "loss": 0.7895,
      "step": 1352
    },
    {
      "epoch": 1.486200741452698,
      "grad_norm": 0.5472243428230286,
      "learning_rate": 0.00016813186813186812,
      "loss": 0.8838,
      "step": 1353
    },
    {
      "epoch": 1.4872991898942742,
      "grad_norm": 0.3903232216835022,
      "learning_rate": 0.000168009768009768,
      "loss": 0.5452,
      "step": 1354
    },
    {
      "epoch": 1.4883976383358506,
      "grad_norm": 0.3799583613872528,
      "learning_rate": 0.00016788766788766786,
      "loss": 0.8931,
      "step": 1355
    },
    {
      "epoch": 1.489496086777427,
      "grad_norm": 0.4481349289417267,
      "learning_rate": 0.00016776556776556775,
      "loss": 0.5956,
      "step": 1356
    },
    {
      "epoch": 1.490594535219003,
      "grad_norm": 0.45875266194343567,
      "learning_rate": 0.00016764346764346763,
      "loss": 0.4729,
      "step": 1357
    },
    {
      "epoch": 1.4916929836605795,
      "grad_norm": 0.494112104177475,
      "learning_rate": 0.0001675213675213675,
      "loss": 0.6416,
      "step": 1358
    },
    {
      "epoch": 1.4927914321021558,
      "grad_norm": 0.3976772725582123,
      "learning_rate": 0.0001673992673992674,
      "loss": 0.6601,
      "step": 1359
    },
    {
      "epoch": 1.493889880543732,
      "grad_norm": 0.29009610414505005,
      "learning_rate": 0.0001672771672771673,
      "loss": 0.4261,
      "step": 1360
    },
    {
      "epoch": 1.4949883289853083,
      "grad_norm": 0.5540419816970825,
      "learning_rate": 0.00016715506715506715,
      "loss": 0.8206,
      "step": 1361
    },
    {
      "epoch": 1.4960867774268845,
      "grad_norm": 0.41308313608169556,
      "learning_rate": 0.00016703296703296703,
      "loss": 0.7862,
      "step": 1362
    },
    {
      "epoch": 1.4971852258684608,
      "grad_norm": 0.6565150618553162,
      "learning_rate": 0.0001669108669108669,
      "loss": 0.6963,
      "step": 1363
    },
    {
      "epoch": 1.498283674310037,
      "grad_norm": 0.4901321530342102,
      "learning_rate": 0.00016678876678876678,
      "loss": 0.7063,
      "step": 1364
    },
    {
      "epoch": 1.4993821227516133,
      "grad_norm": 0.4676086902618408,
      "learning_rate": 0.00016666666666666666,
      "loss": 0.5142,
      "step": 1365
    },
    {
      "epoch": 1.5004805711931897,
      "grad_norm": 0.4745628833770752,
      "learning_rate": 0.00016654456654456652,
      "loss": 0.7659,
      "step": 1366
    },
    {
      "epoch": 1.5015790196347658,
      "grad_norm": 0.42693057656288147,
      "learning_rate": 0.0001664224664224664,
      "loss": 0.9233,
      "step": 1367
    },
    {
      "epoch": 1.5026774680763422,
      "grad_norm": 0.4110391139984131,
      "learning_rate": 0.0001663003663003663,
      "loss": 0.5062,
      "step": 1368
    },
    {
      "epoch": 1.5037759165179185,
      "grad_norm": 0.3090996742248535,
      "learning_rate": 0.00016617826617826615,
      "loss": 0.4462,
      "step": 1369
    },
    {
      "epoch": 1.5048743649594947,
      "grad_norm": 0.42027410864830017,
      "learning_rate": 0.00016605616605616603,
      "loss": 0.8589,
      "step": 1370
    },
    {
      "epoch": 1.505972813401071,
      "grad_norm": 0.38396796584129333,
      "learning_rate": 0.00016593406593406592,
      "loss": 0.6609,
      "step": 1371
    },
    {
      "epoch": 1.5070712618426474,
      "grad_norm": 0.5236012935638428,
      "learning_rate": 0.00016581196581196578,
      "loss": 0.6506,
      "step": 1372
    },
    {
      "epoch": 1.5081697102842235,
      "grad_norm": 0.7232113480567932,
      "learning_rate": 0.00016568986568986566,
      "loss": 0.6689,
      "step": 1373
    },
    {
      "epoch": 1.5092681587257997,
      "grad_norm": 0.4777502417564392,
      "learning_rate": 0.00016556776556776558,
      "loss": 0.5701,
      "step": 1374
    },
    {
      "epoch": 1.510366607167376,
      "grad_norm": 0.39154767990112305,
      "learning_rate": 0.0001654456654456654,
      "loss": 0.4906,
      "step": 1375
    },
    {
      "epoch": 1.5114650556089524,
      "grad_norm": 0.469382107257843,
      "learning_rate": 0.00016532356532356532,
      "loss": 0.5768,
      "step": 1376
    },
    {
      "epoch": 1.5125635040505285,
      "grad_norm": 0.3485945761203766,
      "learning_rate": 0.0001652014652014652,
      "loss": 0.7814,
      "step": 1377
    },
    {
      "epoch": 1.513661952492105,
      "grad_norm": 0.4375949203968048,
      "learning_rate": 0.00016507936507936506,
      "loss": 0.6328,
      "step": 1378
    },
    {
      "epoch": 1.5147604009336813,
      "grad_norm": 0.47778064012527466,
      "learning_rate": 0.00016495726495726495,
      "loss": 0.635,
      "step": 1379
    },
    {
      "epoch": 1.5158588493752574,
      "grad_norm": 0.3515126705169678,
      "learning_rate": 0.00016483516483516484,
      "loss": 0.7014,
      "step": 1380
    },
    {
      "epoch": 1.5169572978168337,
      "grad_norm": 0.3710018992424011,
      "learning_rate": 0.0001647130647130647,
      "loss": 0.7903,
      "step": 1381
    },
    {
      "epoch": 1.51805574625841,
      "grad_norm": 0.37630394101142883,
      "learning_rate": 0.00016459096459096458,
      "loss": 0.5446,
      "step": 1382
    },
    {
      "epoch": 1.5191541946999862,
      "grad_norm": 0.4312807321548462,
      "learning_rate": 0.00016446886446886446,
      "loss": 0.6101,
      "step": 1383
    },
    {
      "epoch": 1.5202526431415624,
      "grad_norm": 0.399384468793869,
      "learning_rate": 0.00016434676434676432,
      "loss": 0.5734,
      "step": 1384
    },
    {
      "epoch": 1.521351091583139,
      "grad_norm": 0.41233471035957336,
      "learning_rate": 0.0001642246642246642,
      "loss": 0.6525,
      "step": 1385
    },
    {
      "epoch": 1.522449540024715,
      "grad_norm": 0.5215228199958801,
      "learning_rate": 0.0001641025641025641,
      "loss": 0.4804,
      "step": 1386
    },
    {
      "epoch": 1.5235479884662912,
      "grad_norm": 0.42069393396377563,
      "learning_rate": 0.00016398046398046395,
      "loss": 0.5517,
      "step": 1387
    },
    {
      "epoch": 1.5246464369078676,
      "grad_norm": 1.7902978658676147,
      "learning_rate": 0.00016385836385836384,
      "loss": 0.6295,
      "step": 1388
    },
    {
      "epoch": 1.525744885349444,
      "grad_norm": 0.7353507280349731,
      "learning_rate": 0.0001637362637362637,
      "loss": 1.0585,
      "step": 1389
    },
    {
      "epoch": 1.52684333379102,
      "grad_norm": 0.45992404222488403,
      "learning_rate": 0.0001636141636141636,
      "loss": 0.7671,
      "step": 1390
    },
    {
      "epoch": 1.5279417822325965,
      "grad_norm": 0.3927334249019623,
      "learning_rate": 0.0001634920634920635,
      "loss": 0.7479,
      "step": 1391
    },
    {
      "epoch": 1.5290402306741728,
      "grad_norm": 0.32833003997802734,
      "learning_rate": 0.00016336996336996335,
      "loss": 0.5774,
      "step": 1392
    },
    {
      "epoch": 1.530138679115749,
      "grad_norm": 0.4306529462337494,
      "learning_rate": 0.00016324786324786324,
      "loss": 0.6317,
      "step": 1393
    },
    {
      "epoch": 1.5312371275573253,
      "grad_norm": 0.5411052703857422,
      "learning_rate": 0.00016312576312576312,
      "loss": 0.6637,
      "step": 1394
    },
    {
      "epoch": 1.5323355759989017,
      "grad_norm": 0.633800745010376,
      "learning_rate": 0.00016300366300366298,
      "loss": 0.7145,
      "step": 1395
    },
    {
      "epoch": 1.5334340244404778,
      "grad_norm": 0.6986578702926636,
      "learning_rate": 0.00016288156288156287,
      "loss": 0.7194,
      "step": 1396
    },
    {
      "epoch": 1.534532472882054,
      "grad_norm": 0.5223686695098877,
      "learning_rate": 0.00016275946275946275,
      "loss": 0.7849,
      "step": 1397
    },
    {
      "epoch": 1.5356309213236303,
      "grad_norm": 0.5342483520507812,
      "learning_rate": 0.0001626373626373626,
      "loss": 0.8885,
      "step": 1398
    },
    {
      "epoch": 1.5367293697652067,
      "grad_norm": 0.5467656850814819,
      "learning_rate": 0.0001625152625152625,
      "loss": 0.6265,
      "step": 1399
    },
    {
      "epoch": 1.5378278182067828,
      "grad_norm": 0.4483658969402313,
      "learning_rate": 0.00016239316239316238,
      "loss": 0.7133,
      "step": 1400
    },
    {
      "epoch": 1.5389262666483592,
      "grad_norm": 0.5714216232299805,
      "learning_rate": 0.00016227106227106224,
      "loss": 0.5212,
      "step": 1401
    },
    {
      "epoch": 1.5400247150899355,
      "grad_norm": 0.5487145781517029,
      "learning_rate": 0.00016214896214896213,
      "loss": 0.6276,
      "step": 1402
    },
    {
      "epoch": 1.5411231635315117,
      "grad_norm": 0.3687078654766083,
      "learning_rate": 0.00016202686202686204,
      "loss": 0.7512,
      "step": 1403
    },
    {
      "epoch": 1.542221611973088,
      "grad_norm": 0.3596762418746948,
      "learning_rate": 0.00016190476190476187,
      "loss": 0.7192,
      "step": 1404
    },
    {
      "epoch": 1.5433200604146644,
      "grad_norm": 0.4092305898666382,
      "learning_rate": 0.00016178266178266178,
      "loss": 0.7339,
      "step": 1405
    },
    {
      "epoch": 1.5444185088562405,
      "grad_norm": 0.4018193483352661,
      "learning_rate": 0.00016166056166056167,
      "loss": 0.7213,
      "step": 1406
    },
    {
      "epoch": 1.5455169572978167,
      "grad_norm": 0.4993208646774292,
      "learning_rate": 0.00016153846153846153,
      "loss": 0.6362,
      "step": 1407
    },
    {
      "epoch": 1.5466154057393933,
      "grad_norm": 0.3958855867385864,
      "learning_rate": 0.0001614163614163614,
      "loss": 0.8482,
      "step": 1408
    },
    {
      "epoch": 1.5477138541809694,
      "grad_norm": 0.32689765095710754,
      "learning_rate": 0.0001612942612942613,
      "loss": 0.6583,
      "step": 1409
    },
    {
      "epoch": 1.5488123026225455,
      "grad_norm": 0.48947611451148987,
      "learning_rate": 0.00016117216117216116,
      "loss": 0.6707,
      "step": 1410
    },
    {
      "epoch": 1.549910751064122,
      "grad_norm": 0.3446139395236969,
      "learning_rate": 0.00016105006105006104,
      "loss": 0.8914,
      "step": 1411
    },
    {
      "epoch": 1.5510091995056983,
      "grad_norm": 0.585746705532074,
      "learning_rate": 0.0001609279609279609,
      "loss": 0.5413,
      "step": 1412
    },
    {
      "epoch": 1.5521076479472744,
      "grad_norm": 0.6561328172683716,
      "learning_rate": 0.00016080586080586079,
      "loss": 0.3728,
      "step": 1413
    },
    {
      "epoch": 1.5532060963888508,
      "grad_norm": 0.47158828377723694,
      "learning_rate": 0.00016068376068376067,
      "loss": 0.6525,
      "step": 1414
    },
    {
      "epoch": 1.5543045448304271,
      "grad_norm": 0.3676914572715759,
      "learning_rate": 0.00016056166056166053,
      "loss": 0.7395,
      "step": 1415
    },
    {
      "epoch": 1.5554029932720033,
      "grad_norm": 0.608076810836792,
      "learning_rate": 0.00016043956043956041,
      "loss": 0.5289,
      "step": 1416
    },
    {
      "epoch": 1.5565014417135794,
      "grad_norm": 0.44940462708473206,
      "learning_rate": 0.0001603174603174603,
      "loss": 0.6282,
      "step": 1417
    },
    {
      "epoch": 1.557599890155156,
      "grad_norm": 0.48062869906425476,
      "learning_rate": 0.00016019536019536016,
      "loss": 0.7438,
      "step": 1418
    },
    {
      "epoch": 1.5586983385967321,
      "grad_norm": 0.43834635615348816,
      "learning_rate": 0.00016007326007326004,
      "loss": 0.4248,
      "step": 1419
    },
    {
      "epoch": 1.5597967870383083,
      "grad_norm": 0.5203731060028076,
      "learning_rate": 0.00015995115995115996,
      "loss": 0.91,
      "step": 1420
    },
    {
      "epoch": 1.5608952354798846,
      "grad_norm": 0.5766960978507996,
      "learning_rate": 0.00015982905982905981,
      "loss": 0.7211,
      "step": 1421
    },
    {
      "epoch": 1.561993683921461,
      "grad_norm": 0.3048666715621948,
      "learning_rate": 0.0001597069597069597,
      "loss": 0.5618,
      "step": 1422
    },
    {
      "epoch": 1.5630921323630371,
      "grad_norm": 0.3916679322719574,
      "learning_rate": 0.00015958485958485959,
      "loss": 0.6954,
      "step": 1423
    },
    {
      "epoch": 1.5641905808046135,
      "grad_norm": 0.6336612105369568,
      "learning_rate": 0.00015946275946275944,
      "loss": 0.6368,
      "step": 1424
    },
    {
      "epoch": 1.5652890292461898,
      "grad_norm": 0.8314816355705261,
      "learning_rate": 0.00015934065934065933,
      "loss": 0.7633,
      "step": 1425
    },
    {
      "epoch": 1.566387477687766,
      "grad_norm": 0.46973487734794617,
      "learning_rate": 0.00015921855921855922,
      "loss": 0.6915,
      "step": 1426
    },
    {
      "epoch": 1.5674859261293423,
      "grad_norm": 0.48737633228302,
      "learning_rate": 0.00015909645909645907,
      "loss": 0.5346,
      "step": 1427
    },
    {
      "epoch": 1.5685843745709187,
      "grad_norm": 0.548876941204071,
      "learning_rate": 0.00015897435897435896,
      "loss": 1.0449,
      "step": 1428
    },
    {
      "epoch": 1.5696828230124948,
      "grad_norm": 0.5039654970169067,
      "learning_rate": 0.00015885225885225884,
      "loss": 0.9953,
      "step": 1429
    },
    {
      "epoch": 1.570781271454071,
      "grad_norm": 0.7233378887176514,
      "learning_rate": 0.0001587301587301587,
      "loss": 0.7068,
      "step": 1430
    },
    {
      "epoch": 1.5718797198956473,
      "grad_norm": 0.5767638683319092,
      "learning_rate": 0.0001586080586080586,
      "loss": 0.8055,
      "step": 1431
    },
    {
      "epoch": 1.5729781683372237,
      "grad_norm": 0.34450021386146545,
      "learning_rate": 0.00015848595848595847,
      "loss": 0.726,
      "step": 1432
    },
    {
      "epoch": 1.5740766167787998,
      "grad_norm": 0.8474962711334229,
      "learning_rate": 0.00015836385836385833,
      "loss": 0.6974,
      "step": 1433
    },
    {
      "epoch": 1.5751750652203762,
      "grad_norm": 1.565746545791626,
      "learning_rate": 0.00015824175824175824,
      "loss": 0.7766,
      "step": 1434
    },
    {
      "epoch": 1.5762735136619526,
      "grad_norm": 0.4393616020679474,
      "learning_rate": 0.00015811965811965813,
      "loss": 0.6071,
      "step": 1435
    },
    {
      "epoch": 1.5773719621035287,
      "grad_norm": 0.5209214091300964,
      "learning_rate": 0.000157997557997558,
      "loss": 0.7546,
      "step": 1436
    },
    {
      "epoch": 1.578470410545105,
      "grad_norm": 0.6069398522377014,
      "learning_rate": 0.00015787545787545787,
      "loss": 0.7322,
      "step": 1437
    },
    {
      "epoch": 1.5795688589866814,
      "grad_norm": 0.6168296337127686,
      "learning_rate": 0.00015775335775335773,
      "loss": 0.5169,
      "step": 1438
    },
    {
      "epoch": 1.5806673074282576,
      "grad_norm": 0.25368016958236694,
      "learning_rate": 0.00015763125763125762,
      "loss": 0.4838,
      "step": 1439
    },
    {
      "epoch": 1.5817657558698337,
      "grad_norm": 0.4165039360523224,
      "learning_rate": 0.0001575091575091575,
      "loss": 1.0135,
      "step": 1440
    },
    {
      "epoch": 1.5828642043114103,
      "grad_norm": 0.4596197307109833,
      "learning_rate": 0.00015738705738705736,
      "loss": 0.5545,
      "step": 1441
    },
    {
      "epoch": 1.5839626527529864,
      "grad_norm": 0.5077592730522156,
      "learning_rate": 0.00015726495726495725,
      "loss": 0.7754,
      "step": 1442
    },
    {
      "epoch": 1.5850611011945626,
      "grad_norm": 0.5041285157203674,
      "learning_rate": 0.00015714285714285713,
      "loss": 0.8384,
      "step": 1443
    },
    {
      "epoch": 1.586159549636139,
      "grad_norm": 0.40924420952796936,
      "learning_rate": 0.000157020757020757,
      "loss": 0.5511,
      "step": 1444
    },
    {
      "epoch": 1.5872579980777153,
      "grad_norm": 0.4800551235675812,
      "learning_rate": 0.00015689865689865688,
      "loss": 0.6154,
      "step": 1445
    },
    {
      "epoch": 1.5883564465192914,
      "grad_norm": 0.433174729347229,
      "learning_rate": 0.00015677655677655676,
      "loss": 0.6158,
      "step": 1446
    },
    {
      "epoch": 1.5894548949608678,
      "grad_norm": 0.29649895429611206,
      "learning_rate": 0.00015665445665445662,
      "loss": 0.5729,
      "step": 1447
    },
    {
      "epoch": 1.5905533434024441,
      "grad_norm": 0.3815969228744507,
      "learning_rate": 0.0001565323565323565,
      "loss": 0.6748,
      "step": 1448
    },
    {
      "epoch": 1.5916517918440203,
      "grad_norm": 0.4933919608592987,
      "learning_rate": 0.00015641025641025642,
      "loss": 0.7683,
      "step": 1449
    },
    {
      "epoch": 1.5927502402855966,
      "grad_norm": 0.5053071975708008,
      "learning_rate": 0.00015628815628815625,
      "loss": 0.6779,
      "step": 1450
    },
    {
      "epoch": 1.593848688727173,
      "grad_norm": 0.3900013566017151,
      "learning_rate": 0.00015616605616605616,
      "loss": 0.6326,
      "step": 1451
    },
    {
      "epoch": 1.5949471371687491,
      "grad_norm": 0.5823982357978821,
      "learning_rate": 0.00015604395604395605,
      "loss": 0.6104,
      "step": 1452
    },
    {
      "epoch": 1.5960455856103253,
      "grad_norm": 0.5277792811393738,
      "learning_rate": 0.0001559218559218559,
      "loss": 0.6647,
      "step": 1453
    },
    {
      "epoch": 1.5971440340519016,
      "grad_norm": 0.32926440238952637,
      "learning_rate": 0.0001557997557997558,
      "loss": 0.6064,
      "step": 1454
    },
    {
      "epoch": 1.598242482493478,
      "grad_norm": 0.7350378036499023,
      "learning_rate": 0.00015567765567765568,
      "loss": 0.7951,
      "step": 1455
    },
    {
      "epoch": 1.5993409309350541,
      "grad_norm": 0.4125807285308838,
      "learning_rate": 0.00015555555555555554,
      "loss": 0.7761,
      "step": 1456
    },
    {
      "epoch": 1.6004393793766305,
      "grad_norm": 0.49707722663879395,
      "learning_rate": 0.00015543345543345542,
      "loss": 0.7299,
      "step": 1457
    },
    {
      "epoch": 1.6015378278182069,
      "grad_norm": 0.3240358829498291,
      "learning_rate": 0.0001553113553113553,
      "loss": 0.4832,
      "step": 1458
    },
    {
      "epoch": 1.602636276259783,
      "grad_norm": 0.44430434703826904,
      "learning_rate": 0.00015518925518925517,
      "loss": 0.5968,
      "step": 1459
    },
    {
      "epoch": 1.6037347247013594,
      "grad_norm": 0.3702992796897888,
      "learning_rate": 0.00015506715506715505,
      "loss": 0.7177,
      "step": 1460
    },
    {
      "epoch": 1.6048331731429357,
      "grad_norm": 0.5001052618026733,
      "learning_rate": 0.00015494505494505494,
      "loss": 0.7448,
      "step": 1461
    },
    {
      "epoch": 1.6059316215845119,
      "grad_norm": 0.45969969034194946,
      "learning_rate": 0.0001548229548229548,
      "loss": 0.8292,
      "step": 1462
    },
    {
      "epoch": 1.607030070026088,
      "grad_norm": 0.46075674891471863,
      "learning_rate": 0.00015470085470085468,
      "loss": 0.5624,
      "step": 1463
    },
    {
      "epoch": 1.6081285184676646,
      "grad_norm": 2.077080488204956,
      "learning_rate": 0.00015457875457875454,
      "loss": 0.6643,
      "step": 1464
    },
    {
      "epoch": 1.6092269669092407,
      "grad_norm": 0.46008172631263733,
      "learning_rate": 0.00015445665445665445,
      "loss": 0.6329,
      "step": 1465
    },
    {
      "epoch": 1.6103254153508169,
      "grad_norm": 0.5016405582427979,
      "learning_rate": 0.00015433455433455434,
      "loss": 0.7692,
      "step": 1466
    },
    {
      "epoch": 1.6114238637923932,
      "grad_norm": 0.46292269229888916,
      "learning_rate": 0.0001542124542124542,
      "loss": 0.6485,
      "step": 1467
    },
    {
      "epoch": 1.6125223122339696,
      "grad_norm": 0.4498538672924042,
      "learning_rate": 0.00015409035409035408,
      "loss": 0.598,
      "step": 1468
    },
    {
      "epoch": 1.6136207606755457,
      "grad_norm": 0.3537295162677765,
      "learning_rate": 0.00015396825396825397,
      "loss": 0.6356,
      "step": 1469
    },
    {
      "epoch": 1.614719209117122,
      "grad_norm": 0.9966747164726257,
      "learning_rate": 0.00015384615384615382,
      "loss": 0.6627,
      "step": 1470
    },
    {
      "epoch": 1.6158176575586984,
      "grad_norm": 0.9386951327323914,
      "learning_rate": 0.0001537240537240537,
      "loss": 0.8148,
      "step": 1471
    },
    {
      "epoch": 1.6169161060002746,
      "grad_norm": 0.3452979028224945,
      "learning_rate": 0.0001536019536019536,
      "loss": 0.5778,
      "step": 1472
    },
    {
      "epoch": 1.618014554441851,
      "grad_norm": 0.3443523049354553,
      "learning_rate": 0.00015347985347985345,
      "loss": 0.9228,
      "step": 1473
    },
    {
      "epoch": 1.6191130028834273,
      "grad_norm": 0.5345872044563293,
      "learning_rate": 0.00015335775335775334,
      "loss": 0.4682,
      "step": 1474
    },
    {
      "epoch": 1.6202114513250034,
      "grad_norm": 0.35112351179122925,
      "learning_rate": 0.00015323565323565322,
      "loss": 0.5482,
      "step": 1475
    },
    {
      "epoch": 1.6213098997665796,
      "grad_norm": 0.39090535044670105,
      "learning_rate": 0.00015311355311355308,
      "loss": 0.825,
      "step": 1476
    },
    {
      "epoch": 1.622408348208156,
      "grad_norm": 1.1684538125991821,
      "learning_rate": 0.00015299145299145297,
      "loss": 0.6561,
      "step": 1477
    },
    {
      "epoch": 1.6235067966497323,
      "grad_norm": 0.4006233513355255,
      "learning_rate": 0.00015286935286935288,
      "loss": 0.3647,
      "step": 1478
    },
    {
      "epoch": 1.6246052450913084,
      "grad_norm": 0.30577126145362854,
      "learning_rate": 0.0001527472527472527,
      "loss": 0.4934,
      "step": 1479
    },
    {
      "epoch": 1.6257036935328848,
      "grad_norm": 0.39927995204925537,
      "learning_rate": 0.00015262515262515263,
      "loss": 0.6028,
      "step": 1480
    },
    {
      "epoch": 1.6268021419744612,
      "grad_norm": 0.49143150448799133,
      "learning_rate": 0.0001525030525030525,
      "loss": 0.4595,
      "step": 1481
    },
    {
      "epoch": 1.6279005904160373,
      "grad_norm": 0.8603225946426392,
      "learning_rate": 0.00015238095238095237,
      "loss": 0.8617,
      "step": 1482
    },
    {
      "epoch": 1.6289990388576137,
      "grad_norm": 0.534269392490387,
      "learning_rate": 0.00015225885225885225,
      "loss": 0.6648,
      "step": 1483
    },
    {
      "epoch": 1.63009748729919,
      "grad_norm": 0.4987354278564453,
      "learning_rate": 0.00015213675213675214,
      "loss": 0.5908,
      "step": 1484
    },
    {
      "epoch": 1.6311959357407662,
      "grad_norm": 0.5739774107933044,
      "learning_rate": 0.000152014652014652,
      "loss": 0.7652,
      "step": 1485
    },
    {
      "epoch": 1.6322943841823423,
      "grad_norm": 0.5343801975250244,
      "learning_rate": 0.00015189255189255188,
      "loss": 0.6864,
      "step": 1486
    },
    {
      "epoch": 1.6333928326239189,
      "grad_norm": 0.45683905482292175,
      "learning_rate": 0.00015177045177045177,
      "loss": 0.7179,
      "step": 1487
    },
    {
      "epoch": 1.634491281065495,
      "grad_norm": 0.5020450949668884,
      "learning_rate": 0.00015164835164835163,
      "loss": 0.4356,
      "step": 1488
    },
    {
      "epoch": 1.6355897295070712,
      "grad_norm": 0.3870914876461029,
      "learning_rate": 0.0001515262515262515,
      "loss": 0.692,
      "step": 1489
    },
    {
      "epoch": 1.6366881779486475,
      "grad_norm": 0.5256255269050598,
      "learning_rate": 0.00015140415140415137,
      "loss": 0.7184,
      "step": 1490
    },
    {
      "epoch": 1.6377866263902239,
      "grad_norm": 0.27588197588920593,
      "learning_rate": 0.00015128205128205126,
      "loss": 0.6928,
      "step": 1491
    },
    {
      "epoch": 1.6388850748318,
      "grad_norm": 0.43336692452430725,
      "learning_rate": 0.00015115995115995114,
      "loss": 0.7357,
      "step": 1492
    },
    {
      "epoch": 1.6399835232733764,
      "grad_norm": 0.7952486872673035,
      "learning_rate": 0.000151037851037851,
      "loss": 0.5536,
      "step": 1493
    },
    {
      "epoch": 1.6410819717149527,
      "grad_norm": 3.8659090995788574,
      "learning_rate": 0.00015091575091575089,
      "loss": 0.6409,
      "step": 1494
    },
    {
      "epoch": 1.6421804201565289,
      "grad_norm": 0.3824027478694916,
      "learning_rate": 0.0001507936507936508,
      "loss": 0.5988,
      "step": 1495
    },
    {
      "epoch": 1.643278868598105,
      "grad_norm": 0.45106491446495056,
      "learning_rate": 0.00015067155067155066,
      "loss": 0.7568,
      "step": 1496
    },
    {
      "epoch": 1.6443773170396816,
      "grad_norm": 0.719417154788971,
      "learning_rate": 0.00015054945054945054,
      "loss": 0.8191,
      "step": 1497
    },
    {
      "epoch": 1.6454757654812577,
      "grad_norm": 0.4702167212963104,
      "learning_rate": 0.00015042735042735043,
      "loss": 0.6761,
      "step": 1498
    },
    {
      "epoch": 1.6465742139228339,
      "grad_norm": 0.49441996216773987,
      "learning_rate": 0.0001503052503052503,
      "loss": 0.7323,
      "step": 1499
    },
    {
      "epoch": 1.6476726623644102,
      "grad_norm": 0.623470664024353,
      "learning_rate": 0.00015018315018315017,
      "loss": 0.8384,
      "step": 1500
    },
    {
      "epoch": 1.6487711108059866,
      "grad_norm": 0.5583334565162659,
      "learning_rate": 0.00015006105006105006,
      "loss": 0.8238,
      "step": 1501
    },
    {
      "epoch": 1.6498695592475627,
      "grad_norm": 0.4803924560546875,
      "learning_rate": 0.00014993894993894994,
      "loss": 0.5322,
      "step": 1502
    },
    {
      "epoch": 1.650968007689139,
      "grad_norm": 0.709605872631073,
      "learning_rate": 0.0001498168498168498,
      "loss": 0.8254,
      "step": 1503
    },
    {
      "epoch": 1.6520664561307155,
      "grad_norm": 0.48047375679016113,
      "learning_rate": 0.0001496947496947497,
      "loss": 0.5263,
      "step": 1504
    },
    {
      "epoch": 1.6531649045722916,
      "grad_norm": 0.41796261072158813,
      "learning_rate": 0.00014957264957264957,
      "loss": 0.5803,
      "step": 1505
    },
    {
      "epoch": 1.654263353013868,
      "grad_norm": 0.7576707601547241,
      "learning_rate": 0.00014945054945054943,
      "loss": 0.545,
      "step": 1506
    },
    {
      "epoch": 1.6553618014554443,
      "grad_norm": 0.4668630063533783,
      "learning_rate": 0.00014932844932844932,
      "loss": 0.6213,
      "step": 1507
    },
    {
      "epoch": 1.6564602498970205,
      "grad_norm": 0.9730806350708008,
      "learning_rate": 0.00014920634920634917,
      "loss": 0.5415,
      "step": 1508
    },
    {
      "epoch": 1.6575586983385966,
      "grad_norm": 0.39670151472091675,
      "learning_rate": 0.0001490842490842491,
      "loss": 0.7931,
      "step": 1509
    },
    {
      "epoch": 1.658657146780173,
      "grad_norm": 0.6003556847572327,
      "learning_rate": 0.00014896214896214895,
      "loss": 0.7494,
      "step": 1510
    },
    {
      "epoch": 1.6597555952217493,
      "grad_norm": 0.4335152506828308,
      "learning_rate": 0.00014884004884004883,
      "loss": 0.7003,
      "step": 1511
    },
    {
      "epoch": 1.6608540436633255,
      "grad_norm": 0.34025630354881287,
      "learning_rate": 0.00014871794871794872,
      "loss": 0.9012,
      "step": 1512
    },
    {
      "epoch": 1.6619524921049018,
      "grad_norm": 0.403934508562088,
      "learning_rate": 0.00014859584859584858,
      "loss": 0.717,
      "step": 1513
    },
    {
      "epoch": 1.6630509405464782,
      "grad_norm": 0.45691147446632385,
      "learning_rate": 0.00014847374847374846,
      "loss": 0.4833,
      "step": 1514
    },
    {
      "epoch": 1.6641493889880543,
      "grad_norm": 0.42266151309013367,
      "learning_rate": 0.00014835164835164835,
      "loss": 0.5892,
      "step": 1515
    },
    {
      "epoch": 1.6652478374296307,
      "grad_norm": 0.392337441444397,
      "learning_rate": 0.0001482295482295482,
      "loss": 0.7748,
      "step": 1516
    },
    {
      "epoch": 1.666346285871207,
      "grad_norm": 0.352081298828125,
      "learning_rate": 0.0001481074481074481,
      "loss": 0.6018,
      "step": 1517
    },
    {
      "epoch": 1.6674447343127832,
      "grad_norm": 0.46293389797210693,
      "learning_rate": 0.00014798534798534798,
      "loss": 0.4696,
      "step": 1518
    },
    {
      "epoch": 1.6685431827543593,
      "grad_norm": 0.6427372097969055,
      "learning_rate": 0.00014786324786324786,
      "loss": 0.7279,
      "step": 1519
    },
    {
      "epoch": 1.669641631195936,
      "grad_norm": 0.500382125377655,
      "learning_rate": 0.00014774114774114772,
      "loss": 0.7395,
      "step": 1520
    },
    {
      "epoch": 1.670740079637512,
      "grad_norm": 0.4410606920719147,
      "learning_rate": 0.0001476190476190476,
      "loss": 0.501,
      "step": 1521
    },
    {
      "epoch": 1.6718385280790882,
      "grad_norm": 0.5587645769119263,
      "learning_rate": 0.0001474969474969475,
      "loss": 0.8655,
      "step": 1522
    },
    {
      "epoch": 1.6729369765206645,
      "grad_norm": 0.4312286376953125,
      "learning_rate": 0.00014737484737484735,
      "loss": 0.9578,
      "step": 1523
    },
    {
      "epoch": 1.674035424962241,
      "grad_norm": 0.48694175481796265,
      "learning_rate": 0.00014725274725274723,
      "loss": 0.6806,
      "step": 1524
    },
    {
      "epoch": 1.675133873403817,
      "grad_norm": 0.39892563223838806,
      "learning_rate": 0.00014713064713064712,
      "loss": 0.598,
      "step": 1525
    },
    {
      "epoch": 1.6762323218453934,
      "grad_norm": 0.4714735150337219,
      "learning_rate": 0.000147008547008547,
      "loss": 0.9637,
      "step": 1526
    },
    {
      "epoch": 1.6773307702869698,
      "grad_norm": 0.8308823108673096,
      "learning_rate": 0.00014688644688644686,
      "loss": 0.7886,
      "step": 1527
    },
    {
      "epoch": 1.678429218728546,
      "grad_norm": 0.5142358541488647,
      "learning_rate": 0.00014676434676434675,
      "loss": 0.8028,
      "step": 1528
    },
    {
      "epoch": 1.6795276671701223,
      "grad_norm": 0.4001234471797943,
      "learning_rate": 0.00014664224664224663,
      "loss": 0.59,
      "step": 1529
    },
    {
      "epoch": 1.6806261156116986,
      "grad_norm": 0.4112735688686371,
      "learning_rate": 0.0001465201465201465,
      "loss": 0.6523,
      "step": 1530
    },
    {
      "epoch": 1.6817245640532748,
      "grad_norm": 0.4391016960144043,
      "learning_rate": 0.0001463980463980464,
      "loss": 0.7372,
      "step": 1531
    },
    {
      "epoch": 1.682823012494851,
      "grad_norm": 0.7199782133102417,
      "learning_rate": 0.00014627594627594626,
      "loss": 0.8493,
      "step": 1532
    },
    {
      "epoch": 1.6839214609364273,
      "grad_norm": 0.42379269003868103,
      "learning_rate": 0.00014615384615384615,
      "loss": 0.6609,
      "step": 1533
    },
    {
      "epoch": 1.6850199093780036,
      "grad_norm": 0.41174909472465515,
      "learning_rate": 0.000146031746031746,
      "loss": 0.7021,
      "step": 1534
    },
    {
      "epoch": 1.6861183578195797,
      "grad_norm": 0.4856640100479126,
      "learning_rate": 0.0001459096459096459,
      "loss": 0.6055,
      "step": 1535
    },
    {
      "epoch": 1.687216806261156,
      "grad_norm": 0.5789656043052673,
      "learning_rate": 0.00014578754578754578,
      "loss": 0.7003,
      "step": 1536
    },
    {
      "epoch": 1.6883152547027325,
      "grad_norm": 0.5711427330970764,
      "learning_rate": 0.00014566544566544564,
      "loss": 0.5762,
      "step": 1537
    },
    {
      "epoch": 1.6894137031443086,
      "grad_norm": 0.3285518288612366,
      "learning_rate": 0.00014554334554334552,
      "loss": 0.6232,
      "step": 1538
    },
    {
      "epoch": 1.690512151585885,
      "grad_norm": 0.48425230383872986,
      "learning_rate": 0.0001454212454212454,
      "loss": 0.5515,
      "step": 1539
    },
    {
      "epoch": 1.6916106000274613,
      "grad_norm": 0.573079526424408,
      "learning_rate": 0.0001452991452991453,
      "loss": 0.7776,
      "step": 1540
    },
    {
      "epoch": 1.6927090484690375,
      "grad_norm": 0.49084943532943726,
      "learning_rate": 0.00014517704517704518,
      "loss": 0.6504,
      "step": 1541
    },
    {
      "epoch": 1.6938074969106136,
      "grad_norm": 0.46472617983818054,
      "learning_rate": 0.00014505494505494504,
      "loss": 0.6971,
      "step": 1542
    },
    {
      "epoch": 1.6949059453521902,
      "grad_norm": 0.4890255033969879,
      "learning_rate": 0.00014493284493284492,
      "loss": 0.9292,
      "step": 1543
    },
    {
      "epoch": 1.6960043937937663,
      "grad_norm": 0.42868301272392273,
      "learning_rate": 0.0001448107448107448,
      "loss": 0.6024,
      "step": 1544
    },
    {
      "epoch": 1.6971028422353425,
      "grad_norm": 0.5118973255157471,
      "learning_rate": 0.00014468864468864467,
      "loss": 0.7598,
      "step": 1545
    },
    {
      "epoch": 1.6982012906769188,
      "grad_norm": 0.40809181332588196,
      "learning_rate": 0.00014456654456654455,
      "loss": 0.5157,
      "step": 1546
    },
    {
      "epoch": 1.6992997391184952,
      "grad_norm": 0.5236404538154602,
      "learning_rate": 0.0001444444444444444,
      "loss": 0.84,
      "step": 1547
    },
    {
      "epoch": 1.7003981875600713,
      "grad_norm": 0.5712966322898865,
      "learning_rate": 0.00014432234432234432,
      "loss": 0.7208,
      "step": 1548
    },
    {
      "epoch": 1.7014966360016477,
      "grad_norm": 0.2910475730895996,
      "learning_rate": 0.00014420024420024418,
      "loss": 0.4998,
      "step": 1549
    },
    {
      "epoch": 1.702595084443224,
      "grad_norm": 0.5326736569404602,
      "learning_rate": 0.00014407814407814407,
      "loss": 0.5492,
      "step": 1550
    },
    {
      "epoch": 1.7036935328848002,
      "grad_norm": 0.5454451441764832,
      "learning_rate": 0.00014395604395604395,
      "loss": 0.9016,
      "step": 1551
    },
    {
      "epoch": 1.7047919813263763,
      "grad_norm": 0.45031625032424927,
      "learning_rate": 0.0001438339438339438,
      "loss": 0.671,
      "step": 1552
    },
    {
      "epoch": 1.705890429767953,
      "grad_norm": 0.5496229529380798,
      "learning_rate": 0.0001437118437118437,
      "loss": 0.6333,
      "step": 1553
    },
    {
      "epoch": 1.706988878209529,
      "grad_norm": 0.4200669825077057,
      "learning_rate": 0.00014358974358974358,
      "loss": 0.6158,
      "step": 1554
    },
    {
      "epoch": 1.7080873266511052,
      "grad_norm": 0.7623536586761475,
      "learning_rate": 0.00014346764346764347,
      "loss": 0.686,
      "step": 1555
    },
    {
      "epoch": 1.7091857750926815,
      "grad_norm": 0.3363445997238159,
      "learning_rate": 0.00014334554334554333,
      "loss": 0.305,
      "step": 1556
    },
    {
      "epoch": 1.710284223534258,
      "grad_norm": 0.5042807459831238,
      "learning_rate": 0.0001432234432234432,
      "loss": 0.72,
      "step": 1557
    },
    {
      "epoch": 1.711382671975834,
      "grad_norm": 0.5264353156089783,
      "learning_rate": 0.0001431013431013431,
      "loss": 0.6778,
      "step": 1558
    },
    {
      "epoch": 1.7124811204174104,
      "grad_norm": 0.48960715532302856,
      "learning_rate": 0.00014297924297924296,
      "loss": 0.4935,
      "step": 1559
    },
    {
      "epoch": 1.7135795688589868,
      "grad_norm": 0.4308861792087555,
      "learning_rate": 0.00014285714285714284,
      "loss": 0.6527,
      "step": 1560
    },
    {
      "epoch": 1.714678017300563,
      "grad_norm": 0.42890703678131104,
      "learning_rate": 0.00014273504273504273,
      "loss": 0.4846,
      "step": 1561
    },
    {
      "epoch": 1.7157764657421393,
      "grad_norm": 0.5222750902175903,
      "learning_rate": 0.0001426129426129426,
      "loss": 0.764,
      "step": 1562
    },
    {
      "epoch": 1.7168749141837156,
      "grad_norm": 0.49664998054504395,
      "learning_rate": 0.00014249084249084247,
      "loss": 0.5728,
      "step": 1563
    },
    {
      "epoch": 1.7179733626252918,
      "grad_norm": 0.3131520748138428,
      "learning_rate": 0.00014236874236874236,
      "loss": 0.5089,
      "step": 1564
    },
    {
      "epoch": 1.719071811066868,
      "grad_norm": 0.5098987221717834,
      "learning_rate": 0.00014224664224664224,
      "loss": 0.781,
      "step": 1565
    },
    {
      "epoch": 1.7201702595084445,
      "grad_norm": 0.4040893316268921,
      "learning_rate": 0.0001421245421245421,
      "loss": 0.7358,
      "step": 1566
    },
    {
      "epoch": 1.7212687079500206,
      "grad_norm": 0.3601396679878235,
      "learning_rate": 0.00014200244200244198,
      "loss": 0.5531,
      "step": 1567
    },
    {
      "epoch": 1.7223671563915968,
      "grad_norm": 0.6634377837181091,
      "learning_rate": 0.00014188034188034187,
      "loss": 0.6548,
      "step": 1568
    },
    {
      "epoch": 1.7234656048331731,
      "grad_norm": 0.35935553908348083,
      "learning_rate": 0.00014175824175824173,
      "loss": 0.5653,
      "step": 1569
    },
    {
      "epoch": 1.7245640532747495,
      "grad_norm": 0.4607802927494049,
      "learning_rate": 0.00014163614163614164,
      "loss": 0.9111,
      "step": 1570
    },
    {
      "epoch": 1.7256625017163256,
      "grad_norm": 1.0116467475891113,
      "learning_rate": 0.0001415140415140415,
      "loss": 0.9226,
      "step": 1571
    },
    {
      "epoch": 1.726760950157902,
      "grad_norm": 0.9484761953353882,
      "learning_rate": 0.00014139194139194139,
      "loss": 0.7536,
      "step": 1572
    },
    {
      "epoch": 1.7278593985994783,
      "grad_norm": 0.3684981167316437,
      "learning_rate": 0.00014126984126984124,
      "loss": 0.5013,
      "step": 1573
    },
    {
      "epoch": 1.7289578470410545,
      "grad_norm": 0.40037083625793457,
      "learning_rate": 0.00014114774114774113,
      "loss": 0.8069,
      "step": 1574
    },
    {
      "epoch": 1.7300562954826306,
      "grad_norm": 0.42828282713890076,
      "learning_rate": 0.00014102564102564101,
      "loss": 0.5586,
      "step": 1575
    },
    {
      "epoch": 1.7311547439242072,
      "grad_norm": 0.3461548686027527,
      "learning_rate": 0.00014090354090354087,
      "loss": 0.6045,
      "step": 1576
    },
    {
      "epoch": 1.7322531923657833,
      "grad_norm": 0.622982919216156,
      "learning_rate": 0.00014078144078144079,
      "loss": 0.8943,
      "step": 1577
    },
    {
      "epoch": 1.7333516408073595,
      "grad_norm": 0.3318479359149933,
      "learning_rate": 0.00014065934065934064,
      "loss": 0.4058,
      "step": 1578
    },
    {
      "epoch": 1.7344500892489358,
      "grad_norm": 0.5178685188293457,
      "learning_rate": 0.00014053724053724053,
      "loss": 0.5839,
      "step": 1579
    },
    {
      "epoch": 1.7355485376905122,
      "grad_norm": 0.44273868203163147,
      "learning_rate": 0.00014041514041514042,
      "loss": 0.5394,
      "step": 1580
    },
    {
      "epoch": 1.7366469861320883,
      "grad_norm": 0.60169517993927,
      "learning_rate": 0.00014029304029304027,
      "loss": 0.6753,
      "step": 1581
    },
    {
      "epoch": 1.7377454345736647,
      "grad_norm": 0.7691718339920044,
      "learning_rate": 0.00014017094017094016,
      "loss": 0.9618,
      "step": 1582
    },
    {
      "epoch": 1.738843883015241,
      "grad_norm": 0.3900390565395355,
      "learning_rate": 0.00014004884004884004,
      "loss": 0.5809,
      "step": 1583
    },
    {
      "epoch": 1.7399423314568172,
      "grad_norm": 0.6272429823875427,
      "learning_rate": 0.00013992673992673993,
      "loss": 0.8579,
      "step": 1584
    },
    {
      "epoch": 1.7410407798983936,
      "grad_norm": 0.30017220973968506,
      "learning_rate": 0.0001398046398046398,
      "loss": 0.5335,
      "step": 1585
    },
    {
      "epoch": 1.74213922833997,
      "grad_norm": 0.4937066435813904,
      "learning_rate": 0.00013968253968253967,
      "loss": 0.7941,
      "step": 1586
    },
    {
      "epoch": 1.743237676781546,
      "grad_norm": 0.47317594289779663,
      "learning_rate": 0.00013956043956043956,
      "loss": 0.6013,
      "step": 1587
    },
    {
      "epoch": 1.7443361252231222,
      "grad_norm": 1.9155733585357666,
      "learning_rate": 0.00013943833943833942,
      "loss": 0.6708,
      "step": 1588
    },
    {
      "epoch": 1.7454345736646986,
      "grad_norm": 0.3844835162162781,
      "learning_rate": 0.0001393162393162393,
      "loss": 0.7176,
      "step": 1589
    },
    {
      "epoch": 1.746533022106275,
      "grad_norm": 0.42810145020484924,
      "learning_rate": 0.0001391941391941392,
      "loss": 0.9255,
      "step": 1590
    },
    {
      "epoch": 1.747631470547851,
      "grad_norm": 3.846015691757202,
      "learning_rate": 0.00013907203907203905,
      "loss": 0.6202,
      "step": 1591
    },
    {
      "epoch": 1.7487299189894274,
      "grad_norm": 0.42783257365226746,
      "learning_rate": 0.00013894993894993893,
      "loss": 0.7451,
      "step": 1592
    },
    {
      "epoch": 1.7498283674310038,
      "grad_norm": 0.5237023234367371,
      "learning_rate": 0.00013882783882783882,
      "loss": 0.7961,
      "step": 1593
    },
    {
      "epoch": 1.75092681587258,
      "grad_norm": 2.5639729499816895,
      "learning_rate": 0.0001387057387057387,
      "loss": 0.7026,
      "step": 1594
    },
    {
      "epoch": 1.7520252643141563,
      "grad_norm": 0.5686498284339905,
      "learning_rate": 0.00013858363858363856,
      "loss": 0.4916,
      "step": 1595
    },
    {
      "epoch": 1.7531237127557326,
      "grad_norm": 0.561611533164978,
      "learning_rate": 0.00013846153846153845,
      "loss": 0.772,
      "step": 1596
    },
    {
      "epoch": 1.7542221611973088,
      "grad_norm": 0.6220077872276306,
      "learning_rate": 0.00013833943833943833,
      "loss": 0.5694,
      "step": 1597
    },
    {
      "epoch": 1.755320609638885,
      "grad_norm": 0.6902570724487305,
      "learning_rate": 0.0001382173382173382,
      "loss": 0.7963,
      "step": 1598
    },
    {
      "epoch": 1.7564190580804615,
      "grad_norm": 2.0417702198028564,
      "learning_rate": 0.00013809523809523808,
      "loss": 0.6721,
      "step": 1599
    },
    {
      "epoch": 1.7575175065220376,
      "grad_norm": 0.36764901876449585,
      "learning_rate": 0.00013797313797313796,
      "loss": 0.5714,
      "step": 1600
    },
    {
      "epoch": 1.7586159549636138,
      "grad_norm": 0.6679022908210754,
      "learning_rate": 0.00013785103785103785,
      "loss": 0.7025,
      "step": 1601
    },
    {
      "epoch": 1.7597144034051901,
      "grad_norm": 0.5749796628952026,
      "learning_rate": 0.0001377289377289377,
      "loss": 0.7381,
      "step": 1602
    },
    {
      "epoch": 1.7608128518467665,
      "grad_norm": 0.9285687208175659,
      "learning_rate": 0.0001376068376068376,
      "loss": 0.6,
      "step": 1603
    },
    {
      "epoch": 1.7619113002883426,
      "grad_norm": 0.8209772706031799,
      "learning_rate": 0.00013748473748473748,
      "loss": 0.5701,
      "step": 1604
    },
    {
      "epoch": 1.763009748729919,
      "grad_norm": 0.7823337912559509,
      "learning_rate": 0.00013736263736263734,
      "loss": 0.6695,
      "step": 1605
    },
    {
      "epoch": 1.7641081971714954,
      "grad_norm": 0.4885605275630951,
      "learning_rate": 0.00013724053724053725,
      "loss": 0.6487,
      "step": 1606
    },
    {
      "epoch": 1.7652066456130715,
      "grad_norm": 0.36517488956451416,
      "learning_rate": 0.0001371184371184371,
      "loss": 0.5798,
      "step": 1607
    },
    {
      "epoch": 1.7663050940546479,
      "grad_norm": 0.49961966276168823,
      "learning_rate": 0.000136996336996337,
      "loss": 0.4373,
      "step": 1608
    },
    {
      "epoch": 1.7674035424962242,
      "grad_norm": 0.495263010263443,
      "learning_rate": 0.00013687423687423688,
      "loss": 0.5868,
      "step": 1609
    },
    {
      "epoch": 1.7685019909378004,
      "grad_norm": 0.7384648323059082,
      "learning_rate": 0.00013675213675213674,
      "loss": 0.4957,
      "step": 1610
    },
    {
      "epoch": 1.7696004393793765,
      "grad_norm": 0.465440034866333,
      "learning_rate": 0.00013663003663003662,
      "loss": 0.7424,
      "step": 1611
    },
    {
      "epoch": 1.7706988878209529,
      "grad_norm": 0.68381667137146,
      "learning_rate": 0.00013650793650793648,
      "loss": 1.0421,
      "step": 1612
    },
    {
      "epoch": 1.7717973362625292,
      "grad_norm": 4.455906867980957,
      "learning_rate": 0.00013638583638583637,
      "loss": 0.6626,
      "step": 1613
    },
    {
      "epoch": 1.7728957847041054,
      "grad_norm": 0.6165801286697388,
      "learning_rate": 0.00013626373626373625,
      "loss": 0.6072,
      "step": 1614
    },
    {
      "epoch": 1.7739942331456817,
      "grad_norm": 0.8296604156494141,
      "learning_rate": 0.00013614163614163614,
      "loss": 0.6507,
      "step": 1615
    },
    {
      "epoch": 1.775092681587258,
      "grad_norm": 0.4678190350532532,
      "learning_rate": 0.00013601953601953602,
      "loss": 0.8466,
      "step": 1616
    },
    {
      "epoch": 1.7761911300288342,
      "grad_norm": 1.2141482830047607,
      "learning_rate": 0.00013589743589743588,
      "loss": 0.513,
      "step": 1617
    },
    {
      "epoch": 1.7772895784704106,
      "grad_norm": 0.4522024691104889,
      "learning_rate": 0.00013577533577533577,
      "loss": 0.7571,
      "step": 1618
    },
    {
      "epoch": 1.778388026911987,
      "grad_norm": 2.0903220176696777,
      "learning_rate": 0.00013565323565323565,
      "loss": 0.7359,
      "step": 1619
    },
    {
      "epoch": 1.779486475353563,
      "grad_norm": 0.5292307734489441,
      "learning_rate": 0.0001355311355311355,
      "loss": 0.6526,
      "step": 1620
    },
    {
      "epoch": 1.7805849237951392,
      "grad_norm": 0.5047786235809326,
      "learning_rate": 0.0001354090354090354,
      "loss": 0.7056,
      "step": 1621
    },
    {
      "epoch": 1.7816833722367158,
      "grad_norm": 0.4102507531642914,
      "learning_rate": 0.00013528693528693528,
      "loss": 0.8673,
      "step": 1622
    },
    {
      "epoch": 1.782781820678292,
      "grad_norm": 0.471556693315506,
      "learning_rate": 0.00013516483516483517,
      "loss": 0.9424,
      "step": 1623
    },
    {
      "epoch": 1.783880269119868,
      "grad_norm": 0.6595687866210938,
      "learning_rate": 0.00013504273504273502,
      "loss": 0.661,
      "step": 1624
    },
    {
      "epoch": 1.7849787175614444,
      "grad_norm": 0.6221860647201538,
      "learning_rate": 0.0001349206349206349,
      "loss": 0.5457,
      "step": 1625
    },
    {
      "epoch": 1.7860771660030208,
      "grad_norm": 0.9256211519241333,
      "learning_rate": 0.0001347985347985348,
      "loss": 0.9216,
      "step": 1626
    },
    {
      "epoch": 1.787175614444597,
      "grad_norm": 0.31376492977142334,
      "learning_rate": 0.00013467643467643465,
      "loss": 0.7071,
      "step": 1627
    },
    {
      "epoch": 1.7882740628861733,
      "grad_norm": 0.5313776135444641,
      "learning_rate": 0.00013455433455433454,
      "loss": 0.8111,
      "step": 1628
    },
    {
      "epoch": 1.7893725113277497,
      "grad_norm": 0.8203330636024475,
      "learning_rate": 0.00013443223443223442,
      "loss": 0.5301,
      "step": 1629
    },
    {
      "epoch": 1.7904709597693258,
      "grad_norm": 0.42774948477745056,
      "learning_rate": 0.0001343101343101343,
      "loss": 0.8359,
      "step": 1630
    },
    {
      "epoch": 1.791569408210902,
      "grad_norm": 0.8165685534477234,
      "learning_rate": 0.00013418803418803417,
      "loss": 0.4894,
      "step": 1631
    },
    {
      "epoch": 1.7926678566524785,
      "grad_norm": 0.5739139318466187,
      "learning_rate": 0.00013406593406593405,
      "loss": 0.7009,
      "step": 1632
    },
    {
      "epoch": 1.7937663050940547,
      "grad_norm": 0.5102986097335815,
      "learning_rate": 0.00013394383394383394,
      "loss": 0.7174,
      "step": 1633
    },
    {
      "epoch": 1.7948647535356308,
      "grad_norm": 1.1377652883529663,
      "learning_rate": 0.0001338217338217338,
      "loss": 0.79,
      "step": 1634
    },
    {
      "epoch": 1.7959632019772072,
      "grad_norm": 0.44272491335868835,
      "learning_rate": 0.00013369963369963368,
      "loss": 0.6761,
      "step": 1635
    },
    {
      "epoch": 1.7970616504187835,
      "grad_norm": 0.5084714889526367,
      "learning_rate": 0.00013357753357753357,
      "loss": 0.6848,
      "step": 1636
    },
    {
      "epoch": 1.7981600988603597,
      "grad_norm": 0.752017080783844,
      "learning_rate": 0.00013345543345543345,
      "loss": 0.6107,
      "step": 1637
    },
    {
      "epoch": 1.799258547301936,
      "grad_norm": 0.4430617690086365,
      "learning_rate": 0.0001333333333333333,
      "loss": 0.7639,
      "step": 1638
    },
    {
      "epoch": 1.8003569957435124,
      "grad_norm": 0.8098049759864807,
      "learning_rate": 0.0001332112332112332,
      "loss": 0.8172,
      "step": 1639
    },
    {
      "epoch": 1.8014554441850885,
      "grad_norm": 0.6817697286605835,
      "learning_rate": 0.00013308913308913308,
      "loss": 0.8274,
      "step": 1640
    },
    {
      "epoch": 1.8025538926266649,
      "grad_norm": 0.5132669806480408,
      "learning_rate": 0.00013296703296703294,
      "loss": 0.6269,
      "step": 1641
    },
    {
      "epoch": 1.8036523410682412,
      "grad_norm": 0.8487284183502197,
      "learning_rate": 0.00013284493284493283,
      "loss": 0.6734,
      "step": 1642
    },
    {
      "epoch": 1.8047507895098174,
      "grad_norm": 0.7084116339683533,
      "learning_rate": 0.0001327228327228327,
      "loss": 0.703,
      "step": 1643
    },
    {
      "epoch": 1.8058492379513935,
      "grad_norm": 0.39045432209968567,
      "learning_rate": 0.00013260073260073257,
      "loss": 0.5466,
      "step": 1644
    },
    {
      "epoch": 1.8069476863929699,
      "grad_norm": 0.4408475160598755,
      "learning_rate": 0.00013247863247863248,
      "loss": 0.4998,
      "step": 1645
    },
    {
      "epoch": 1.8080461348345462,
      "grad_norm": 0.41640380024909973,
      "learning_rate": 0.00013235653235653234,
      "loss": 0.49,
      "step": 1646
    },
    {
      "epoch": 1.8091445832761224,
      "grad_norm": 0.6760729551315308,
      "learning_rate": 0.00013223443223443223,
      "loss": 0.4537,
      "step": 1647
    },
    {
      "epoch": 1.8102430317176987,
      "grad_norm": 0.42953255772590637,
      "learning_rate": 0.0001321123321123321,
      "loss": 0.489,
      "step": 1648
    },
    {
      "epoch": 1.811341480159275,
      "grad_norm": 0.3260825574398041,
      "learning_rate": 0.00013199023199023197,
      "loss": 0.6633,
      "step": 1649
    },
    {
      "epoch": 1.8124399286008512,
      "grad_norm": 0.7073171138763428,
      "learning_rate": 0.00013186813186813186,
      "loss": 0.4953,
      "step": 1650
    },
    {
      "epoch": 1.8135383770424276,
      "grad_norm": 0.36153069138526917,
      "learning_rate": 0.00013174603174603172,
      "loss": 0.7641,
      "step": 1651
    },
    {
      "epoch": 1.814636825484004,
      "grad_norm": 0.4233636260032654,
      "learning_rate": 0.00013162393162393163,
      "loss": 0.7119,
      "step": 1652
    },
    {
      "epoch": 1.81573527392558,
      "grad_norm": 0.5262153148651123,
      "learning_rate": 0.0001315018315018315,
      "loss": 0.4516,
      "step": 1653
    },
    {
      "epoch": 1.8168337223671562,
      "grad_norm": 0.5263295769691467,
      "learning_rate": 0.00013137973137973137,
      "loss": 0.7786,
      "step": 1654
    },
    {
      "epoch": 1.8179321708087328,
      "grad_norm": 0.3681116998195648,
      "learning_rate": 0.00013125763125763126,
      "loss": 0.5295,
      "step": 1655
    },
    {
      "epoch": 1.819030619250309,
      "grad_norm": 0.5075433254241943,
      "learning_rate": 0.00013113553113553112,
      "loss": 0.6017,
      "step": 1656
    },
    {
      "epoch": 1.820129067691885,
      "grad_norm": 0.2960616946220398,
      "learning_rate": 0.000131013431013431,
      "loss": 0.4951,
      "step": 1657
    },
    {
      "epoch": 1.8212275161334615,
      "grad_norm": 0.4010205864906311,
      "learning_rate": 0.0001308913308913309,
      "loss": 0.8916,
      "step": 1658
    },
    {
      "epoch": 1.8223259645750378,
      "grad_norm": 0.9112391471862793,
      "learning_rate": 0.00013076923076923077,
      "loss": 0.4978,
      "step": 1659
    },
    {
      "epoch": 1.823424413016614,
      "grad_norm": 0.7214633226394653,
      "learning_rate": 0.00013064713064713063,
      "loss": 0.791,
      "step": 1660
    },
    {
      "epoch": 1.8245228614581903,
      "grad_norm": 0.4174933433532715,
      "learning_rate": 0.00013052503052503052,
      "loss": 0.4099,
      "step": 1661
    },
    {
      "epoch": 1.8256213098997667,
      "grad_norm": 0.4622137248516083,
      "learning_rate": 0.0001304029304029304,
      "loss": 1.1726,
      "step": 1662
    },
    {
      "epoch": 1.8267197583413428,
      "grad_norm": 0.5991957783699036,
      "learning_rate": 0.00013028083028083026,
      "loss": 0.6713,
      "step": 1663
    },
    {
      "epoch": 1.8278182067829192,
      "grad_norm": 0.43959730863571167,
      "learning_rate": 0.00013015873015873015,
      "loss": 0.5676,
      "step": 1664
    },
    {
      "epoch": 1.8289166552244955,
      "grad_norm": 0.6271671056747437,
      "learning_rate": 0.00013003663003663003,
      "loss": 0.7399,
      "step": 1665
    },
    {
      "epoch": 1.8300151036660717,
      "grad_norm": 0.6412084102630615,
      "learning_rate": 0.0001299145299145299,
      "loss": 0.7585,
      "step": 1666
    },
    {
      "epoch": 1.8311135521076478,
      "grad_norm": 0.4066605269908905,
      "learning_rate": 0.00012979242979242977,
      "loss": 0.5756,
      "step": 1667
    },
    {
      "epoch": 1.8322120005492242,
      "grad_norm": 0.3568172752857208,
      "learning_rate": 0.00012967032967032966,
      "loss": 0.968,
      "step": 1668
    },
    {
      "epoch": 1.8333104489908005,
      "grad_norm": 0.5061100721359253,
      "learning_rate": 0.00012954822954822955,
      "loss": 0.5089,
      "step": 1669
    },
    {
      "epoch": 1.8344088974323767,
      "grad_norm": 3.013622522354126,
      "learning_rate": 0.0001294261294261294,
      "loss": 0.5101,
      "step": 1670
    },
    {
      "epoch": 1.835507345873953,
      "grad_norm": 0.40078219771385193,
      "learning_rate": 0.0001293040293040293,
      "loss": 0.5602,
      "step": 1671
    },
    {
      "epoch": 1.8366057943155294,
      "grad_norm": 0.4108009338378906,
      "learning_rate": 0.00012918192918192918,
      "loss": 0.6338,
      "step": 1672
    },
    {
      "epoch": 1.8377042427571055,
      "grad_norm": 0.5452212691307068,
      "learning_rate": 0.00012905982905982903,
      "loss": 0.5358,
      "step": 1673
    },
    {
      "epoch": 1.838802691198682,
      "grad_norm": 0.4694603979587555,
      "learning_rate": 0.00012893772893772895,
      "loss": 0.7031,
      "step": 1674
    },
    {
      "epoch": 1.8399011396402583,
      "grad_norm": 0.3787671625614166,
      "learning_rate": 0.0001288156288156288,
      "loss": 0.5667,
      "step": 1675
    },
    {
      "epoch": 1.8409995880818344,
      "grad_norm": 0.4842737317085266,
      "learning_rate": 0.0001286935286935287,
      "loss": 0.5082,
      "step": 1676
    },
    {
      "epoch": 1.8420980365234105,
      "grad_norm": 0.7690992951393127,
      "learning_rate": 0.00012857142857142855,
      "loss": 0.706,
      "step": 1677
    },
    {
      "epoch": 1.8431964849649871,
      "grad_norm": 1.0891668796539307,
      "learning_rate": 0.00012844932844932843,
      "loss": 0.7162,
      "step": 1678
    },
    {
      "epoch": 1.8442949334065633,
      "grad_norm": 0.4118032157421112,
      "learning_rate": 0.00012832722832722832,
      "loss": 0.7019,
      "step": 1679
    },
    {
      "epoch": 1.8453933818481394,
      "grad_norm": 0.513157308101654,
      "learning_rate": 0.00012820512820512818,
      "loss": 0.4359,
      "step": 1680
    },
    {
      "epoch": 1.8464918302897158,
      "grad_norm": 1.3229504823684692,
      "learning_rate": 0.0001280830280830281,
      "loss": 0.5555,
      "step": 1681
    },
    {
      "epoch": 1.8475902787312921,
      "grad_norm": 0.6301699876785278,
      "learning_rate": 0.00012796092796092795,
      "loss": 0.5211,
      "step": 1682
    },
    {
      "epoch": 1.8486887271728683,
      "grad_norm": 0.6125632524490356,
      "learning_rate": 0.00012783882783882783,
      "loss": 0.6287,
      "step": 1683
    },
    {
      "epoch": 1.8497871756144446,
      "grad_norm": 1.806593418121338,
      "learning_rate": 0.00012771672771672772,
      "loss": 0.5794,
      "step": 1684
    },
    {
      "epoch": 1.850885624056021,
      "grad_norm": 1.2972358465194702,
      "learning_rate": 0.00012759462759462758,
      "loss": 0.9205,
      "step": 1685
    },
    {
      "epoch": 1.8519840724975971,
      "grad_norm": 1.0519033670425415,
      "learning_rate": 0.00012747252747252746,
      "loss": 0.7103,
      "step": 1686
    },
    {
      "epoch": 1.8530825209391735,
      "grad_norm": 1.6489734649658203,
      "learning_rate": 0.00012735042735042735,
      "loss": 0.7585,
      "step": 1687
    },
    {
      "epoch": 1.8541809693807498,
      "grad_norm": 0.7229527235031128,
      "learning_rate": 0.0001272283272283272,
      "loss": 0.8109,
      "step": 1688
    },
    {
      "epoch": 1.855279417822326,
      "grad_norm": 0.35257261991500854,
      "learning_rate": 0.0001271062271062271,
      "loss": 0.8014,
      "step": 1689
    },
    {
      "epoch": 1.856377866263902,
      "grad_norm": 0.4653327167034149,
      "learning_rate": 0.00012698412698412698,
      "loss": 0.6404,
      "step": 1690
    },
    {
      "epoch": 1.8574763147054785,
      "grad_norm": 0.5230842232704163,
      "learning_rate": 0.00012686202686202686,
      "loss": 0.7413,
      "step": 1691
    },
    {
      "epoch": 1.8585747631470548,
      "grad_norm": 0.42130210995674133,
      "learning_rate": 0.00012673992673992672,
      "loss": 0.7283,
      "step": 1692
    },
    {
      "epoch": 1.859673211588631,
      "grad_norm": 1.4667960405349731,
      "learning_rate": 0.0001266178266178266,
      "loss": 0.5656,
      "step": 1693
    },
    {
      "epoch": 1.8607716600302073,
      "grad_norm": 0.4077359139919281,
      "learning_rate": 0.0001264957264957265,
      "loss": 0.5891,
      "step": 1694
    },
    {
      "epoch": 1.8618701084717837,
      "grad_norm": 0.503654956817627,
      "learning_rate": 0.00012637362637362635,
      "loss": 0.5912,
      "step": 1695
    },
    {
      "epoch": 1.8629685569133598,
      "grad_norm": 1.6315315961837769,
      "learning_rate": 0.00012625152625152624,
      "loss": 0.5588,
      "step": 1696
    },
    {
      "epoch": 1.8640670053549362,
      "grad_norm": 0.783920407295227,
      "learning_rate": 0.00012612942612942612,
      "loss": 0.6585,
      "step": 1697
    },
    {
      "epoch": 1.8651654537965126,
      "grad_norm": 0.7186728715896606,
      "learning_rate": 0.000126007326007326,
      "loss": 0.9174,
      "step": 1698
    },
    {
      "epoch": 1.8662639022380887,
      "grad_norm": 0.8784156441688538,
      "learning_rate": 0.00012588522588522587,
      "loss": 0.5835,
      "step": 1699
    },
    {
      "epoch": 1.8673623506796648,
      "grad_norm": 0.7090787887573242,
      "learning_rate": 0.00012576312576312575,
      "loss": 0.7555,
      "step": 1700
    },
    {
      "epoch": 1.8684607991212414,
      "grad_norm": 0.5508129596710205,
      "learning_rate": 0.00012564102564102564,
      "loss": 0.6168,
      "step": 1701
    },
    {
      "epoch": 1.8695592475628175,
      "grad_norm": 0.40403681993484497,
      "learning_rate": 0.0001255189255189255,
      "loss": 0.4528,
      "step": 1702
    },
    {
      "epoch": 1.8706576960043937,
      "grad_norm": 0.9553635716438293,
      "learning_rate": 0.00012539682539682538,
      "loss": 0.654,
      "step": 1703
    },
    {
      "epoch": 1.87175614444597,
      "grad_norm": 1.0610092878341675,
      "learning_rate": 0.00012527472527472527,
      "loss": 0.6115,
      "step": 1704
    },
    {
      "epoch": 1.8728545928875464,
      "grad_norm": 0.32898634672164917,
      "learning_rate": 0.00012515262515262515,
      "loss": 0.5651,
      "step": 1705
    },
    {
      "epoch": 1.8739530413291225,
      "grad_norm": 0.4018780589103699,
      "learning_rate": 0.000125030525030525,
      "loss": 0.5919,
      "step": 1706
    },
    {
      "epoch": 1.875051489770699,
      "grad_norm": 1.6521873474121094,
      "learning_rate": 0.0001249084249084249,
      "loss": 0.7137,
      "step": 1707
    },
    {
      "epoch": 1.8761499382122753,
      "grad_norm": 0.5515930652618408,
      "learning_rate": 0.00012478632478632478,
      "loss": 0.4471,
      "step": 1708
    },
    {
      "epoch": 1.8772483866538514,
      "grad_norm": 0.4156915545463562,
      "learning_rate": 0.00012466422466422464,
      "loss": 0.6575,
      "step": 1709
    },
    {
      "epoch": 1.8783468350954275,
      "grad_norm": 0.41263312101364136,
      "learning_rate": 0.00012454212454212453,
      "loss": 0.542,
      "step": 1710
    },
    {
      "epoch": 1.8794452835370041,
      "grad_norm": 1.0169517993927002,
      "learning_rate": 0.0001244200244200244,
      "loss": 1.1631,
      "step": 1711
    },
    {
      "epoch": 1.8805437319785803,
      "grad_norm": 0.49169981479644775,
      "learning_rate": 0.0001242979242979243,
      "loss": 0.6707,
      "step": 1712
    },
    {
      "epoch": 1.8816421804201564,
      "grad_norm": 0.44801297783851624,
      "learning_rate": 0.00012417582417582416,
      "loss": 1.0036,
      "step": 1713
    },
    {
      "epoch": 1.8827406288617328,
      "grad_norm": 0.47181040048599243,
      "learning_rate": 0.00012405372405372404,
      "loss": 0.6693,
      "step": 1714
    },
    {
      "epoch": 1.8838390773033091,
      "grad_norm": 0.39900457859039307,
      "learning_rate": 0.00012393162393162393,
      "loss": 0.6421,
      "step": 1715
    },
    {
      "epoch": 1.8849375257448853,
      "grad_norm": 1.1160179376602173,
      "learning_rate": 0.00012380952380952378,
      "loss": 0.6599,
      "step": 1716
    },
    {
      "epoch": 1.8860359741864616,
      "grad_norm": 0.6951555609703064,
      "learning_rate": 0.00012368742368742367,
      "loss": 0.743,
      "step": 1717
    },
    {
      "epoch": 1.887134422628038,
      "grad_norm": 0.5381472706794739,
      "learning_rate": 0.00012356532356532356,
      "loss": 0.5051,
      "step": 1718
    },
    {
      "epoch": 1.8882328710696141,
      "grad_norm": 0.48717793822288513,
      "learning_rate": 0.00012344322344322341,
      "loss": 0.7015,
      "step": 1719
    },
    {
      "epoch": 1.8893313195111905,
      "grad_norm": 0.3720596432685852,
      "learning_rate": 0.00012332112332112333,
      "loss": 0.6743,
      "step": 1720
    },
    {
      "epoch": 1.8904297679527668,
      "grad_norm": 1.1850451231002808,
      "learning_rate": 0.00012319902319902318,
      "loss": 0.6132,
      "step": 1721
    },
    {
      "epoch": 1.891528216394343,
      "grad_norm": 0.4546525180339813,
      "learning_rate": 0.00012307692307692307,
      "loss": 0.5465,
      "step": 1722
    },
    {
      "epoch": 1.8926266648359191,
      "grad_norm": 0.41415080428123474,
      "learning_rate": 0.00012295482295482296,
      "loss": 0.7259,
      "step": 1723
    },
    {
      "epoch": 1.8937251132774955,
      "grad_norm": 0.44278842210769653,
      "learning_rate": 0.00012283272283272281,
      "loss": 0.7244,
      "step": 1724
    },
    {
      "epoch": 1.8948235617190718,
      "grad_norm": 0.3887364864349365,
      "learning_rate": 0.0001227106227106227,
      "loss": 0.7124,
      "step": 1725
    },
    {
      "epoch": 1.895922010160648,
      "grad_norm": 0.5405781269073486,
      "learning_rate": 0.00012258852258852256,
      "loss": 0.5153,
      "step": 1726
    },
    {
      "epoch": 1.8970204586022243,
      "grad_norm": 0.3530559837818146,
      "learning_rate": 0.00012246642246642247,
      "loss": 0.5429,
      "step": 1727
    },
    {
      "epoch": 1.8981189070438007,
      "grad_norm": 0.523621678352356,
      "learning_rate": 0.00012234432234432233,
      "loss": 0.5645,
      "step": 1728
    },
    {
      "epoch": 1.8992173554853768,
      "grad_norm": 0.3893704116344452,
      "learning_rate": 0.00012222222222222221,
      "loss": 0.6419,
      "step": 1729
    },
    {
      "epoch": 1.9003158039269532,
      "grad_norm": 0.7010704278945923,
      "learning_rate": 0.0001221001221001221,
      "loss": 0.5202,
      "step": 1730
    },
    {
      "epoch": 1.9014142523685296,
      "grad_norm": 0.45551490783691406,
      "learning_rate": 0.00012197802197802197,
      "loss": 0.8492,
      "step": 1731
    },
    {
      "epoch": 1.9025127008101057,
      "grad_norm": 1.0112484693527222,
      "learning_rate": 0.00012185592185592184,
      "loss": 0.8602,
      "step": 1732
    },
    {
      "epoch": 1.9036111492516818,
      "grad_norm": 0.4509601294994354,
      "learning_rate": 0.00012173382173382173,
      "loss": 0.6138,
      "step": 1733
    },
    {
      "epoch": 1.9047095976932584,
      "grad_norm": 0.4303388297557831,
      "learning_rate": 0.0001216117216117216,
      "loss": 0.4748,
      "step": 1734
    },
    {
      "epoch": 1.9058080461348346,
      "grad_norm": 0.4452000558376312,
      "learning_rate": 0.00012148962148962147,
      "loss": 0.5869,
      "step": 1735
    },
    {
      "epoch": 1.9069064945764107,
      "grad_norm": 0.5915077924728394,
      "learning_rate": 0.00012136752136752136,
      "loss": 0.8057,
      "step": 1736
    },
    {
      "epoch": 1.908004943017987,
      "grad_norm": 0.38761547207832336,
      "learning_rate": 0.00012124542124542123,
      "loss": 0.5772,
      "step": 1737
    },
    {
      "epoch": 1.9091033914595634,
      "grad_norm": 0.517752468585968,
      "learning_rate": 0.00012112332112332112,
      "loss": 0.7865,
      "step": 1738
    },
    {
      "epoch": 1.9102018399011396,
      "grad_norm": 0.5325546860694885,
      "learning_rate": 0.00012100122100122099,
      "loss": 0.5934,
      "step": 1739
    },
    {
      "epoch": 1.911300288342716,
      "grad_norm": 0.3930620551109314,
      "learning_rate": 0.00012087912087912087,
      "loss": 0.5974,
      "step": 1740
    },
    {
      "epoch": 1.9123987367842923,
      "grad_norm": 1.1001818180084229,
      "learning_rate": 0.00012075702075702075,
      "loss": 0.6524,
      "step": 1741
    },
    {
      "epoch": 1.9134971852258684,
      "grad_norm": 0.3690165877342224,
      "learning_rate": 0.00012063492063492062,
      "loss": 0.36,
      "step": 1742
    },
    {
      "epoch": 1.9145956336674448,
      "grad_norm": 0.4403206408023834,
      "learning_rate": 0.0001205128205128205,
      "loss": 0.5737,
      "step": 1743
    },
    {
      "epoch": 1.9156940821090211,
      "grad_norm": 0.651498019695282,
      "learning_rate": 0.00012039072039072037,
      "loss": 0.657,
      "step": 1744
    },
    {
      "epoch": 1.9167925305505973,
      "grad_norm": 0.6880660057067871,
      "learning_rate": 0.00012026862026862025,
      "loss": 0.6891,
      "step": 1745
    },
    {
      "epoch": 1.9178909789921734,
      "grad_norm": 0.4968664348125458,
      "learning_rate": 0.00012014652014652015,
      "loss": 0.841,
      "step": 1746
    },
    {
      "epoch": 1.9189894274337498,
      "grad_norm": 0.4392407536506653,
      "learning_rate": 0.00012002442002442002,
      "loss": 0.7096,
      "step": 1747
    },
    {
      "epoch": 1.9200878758753261,
      "grad_norm": 0.41028741002082825,
      "learning_rate": 0.00011990231990231989,
      "loss": 0.5838,
      "step": 1748
    },
    {
      "epoch": 1.9211863243169023,
      "grad_norm": 0.7928158640861511,
      "learning_rate": 0.00011978021978021978,
      "loss": 0.6633,
      "step": 1749
    },
    {
      "epoch": 1.9222847727584786,
      "grad_norm": 0.4970681071281433,
      "learning_rate": 0.00011965811965811965,
      "loss": 0.7764,
      "step": 1750
    },
    {
      "epoch": 1.923383221200055,
      "grad_norm": 0.49581378698349,
      "learning_rate": 0.00011953601953601952,
      "loss": 0.7204,
      "step": 1751
    },
    {
      "epoch": 1.9244816696416311,
      "grad_norm": 1.309241771697998,
      "learning_rate": 0.00011941391941391939,
      "loss": 0.5859,
      "step": 1752
    },
    {
      "epoch": 1.9255801180832075,
      "grad_norm": 0.4651016592979431,
      "learning_rate": 0.00011929181929181929,
      "loss": 0.6425,
      "step": 1753
    },
    {
      "epoch": 1.9266785665247839,
      "grad_norm": 0.5377634167671204,
      "learning_rate": 0.00011916971916971916,
      "loss": 0.8244,
      "step": 1754
    },
    {
      "epoch": 1.92777701496636,
      "grad_norm": 0.6809287667274475,
      "learning_rate": 0.00011904761904761903,
      "loss": 0.5711,
      "step": 1755
    },
    {
      "epoch": 1.9288754634079361,
      "grad_norm": 0.650701105594635,
      "learning_rate": 0.00011892551892551892,
      "loss": 0.8341,
      "step": 1756
    },
    {
      "epoch": 1.9299739118495127,
      "grad_norm": 1.1710751056671143,
      "learning_rate": 0.00011880341880341879,
      "loss": 0.8093,
      "step": 1757
    },
    {
      "epoch": 1.9310723602910889,
      "grad_norm": 0.4244484603404999,
      "learning_rate": 0.00011868131868131866,
      "loss": 0.5556,
      "step": 1758
    },
    {
      "epoch": 1.932170808732665,
      "grad_norm": 0.43999040126800537,
      "learning_rate": 0.00011855921855921855,
      "loss": 0.4582,
      "step": 1759
    },
    {
      "epoch": 1.9332692571742414,
      "grad_norm": 0.4197145700454712,
      "learning_rate": 0.00011843711843711843,
      "loss": 0.6475,
      "step": 1760
    },
    {
      "epoch": 1.9343677056158177,
      "grad_norm": 0.36619749665260315,
      "learning_rate": 0.0001183150183150183,
      "loss": 0.5804,
      "step": 1761
    },
    {
      "epoch": 1.9354661540573939,
      "grad_norm": 1.7230706214904785,
      "learning_rate": 0.00011819291819291819,
      "loss": 0.7064,
      "step": 1762
    },
    {
      "epoch": 1.9365646024989702,
      "grad_norm": 0.7621874213218689,
      "learning_rate": 0.00011807081807081806,
      "loss": 0.6766,
      "step": 1763
    },
    {
      "epoch": 1.9376630509405466,
      "grad_norm": 0.5920525789260864,
      "learning_rate": 0.00011794871794871794,
      "loss": 0.7092,
      "step": 1764
    },
    {
      "epoch": 1.9387614993821227,
      "grad_norm": 1.5368432998657227,
      "learning_rate": 0.00011782661782661781,
      "loss": 0.3366,
      "step": 1765
    },
    {
      "epoch": 1.9398599478236989,
      "grad_norm": 0.43197643756866455,
      "learning_rate": 0.00011770451770451769,
      "loss": 0.6158,
      "step": 1766
    },
    {
      "epoch": 1.9409583962652754,
      "grad_norm": 0.4623143970966339,
      "learning_rate": 0.00011758241758241756,
      "loss": 0.6574,
      "step": 1767
    },
    {
      "epoch": 1.9420568447068516,
      "grad_norm": 0.40638601779937744,
      "learning_rate": 0.00011746031746031744,
      "loss": 0.4385,
      "step": 1768
    },
    {
      "epoch": 1.9431552931484277,
      "grad_norm": 0.5941652655601501,
      "learning_rate": 0.00011733821733821734,
      "loss": 0.8634,
      "step": 1769
    },
    {
      "epoch": 1.944253741590004,
      "grad_norm": 0.9646288156509399,
      "learning_rate": 0.00011721611721611721,
      "loss": 0.7107,
      "step": 1770
    },
    {
      "epoch": 1.9453521900315804,
      "grad_norm": 1.6859776973724365,
      "learning_rate": 0.00011709401709401708,
      "loss": 0.5544,
      "step": 1771
    },
    {
      "epoch": 1.9464506384731566,
      "grad_norm": 0.4034999907016754,
      "learning_rate": 0.00011697191697191697,
      "loss": 0.559,
      "step": 1772
    },
    {
      "epoch": 1.947549086914733,
      "grad_norm": 0.3644643723964691,
      "learning_rate": 0.00011684981684981684,
      "loss": 0.535,
      "step": 1773
    },
    {
      "epoch": 1.9486475353563093,
      "grad_norm": 0.5826202034950256,
      "learning_rate": 0.00011672771672771671,
      "loss": 0.6405,
      "step": 1774
    },
    {
      "epoch": 1.9497459837978854,
      "grad_norm": 0.5501505136489868,
      "learning_rate": 0.00011660561660561661,
      "loss": 0.5702,
      "step": 1775
    },
    {
      "epoch": 1.9508444322394618,
      "grad_norm": 0.7928853631019592,
      "learning_rate": 0.00011648351648351648,
      "loss": 0.666,
      "step": 1776
    },
    {
      "epoch": 1.9519428806810382,
      "grad_norm": 0.8168489933013916,
      "learning_rate": 0.00011636141636141635,
      "loss": 0.4451,
      "step": 1777
    },
    {
      "epoch": 1.9530413291226143,
      "grad_norm": 0.3752410113811493,
      "learning_rate": 0.00011623931623931622,
      "loss": 0.6552,
      "step": 1778
    },
    {
      "epoch": 1.9541397775641904,
      "grad_norm": 0.9020218849182129,
      "learning_rate": 0.00011611721611721611,
      "loss": 0.5994,
      "step": 1779
    },
    {
      "epoch": 1.9552382260057668,
      "grad_norm": 0.7668479084968567,
      "learning_rate": 0.00011599511599511598,
      "loss": 0.5007,
      "step": 1780
    },
    {
      "epoch": 1.9563366744473432,
      "grad_norm": 0.5034022331237793,
      "learning_rate": 0.00011587301587301585,
      "loss": 0.5211,
      "step": 1781
    },
    {
      "epoch": 1.9574351228889193,
      "grad_norm": 1.0153850317001343,
      "learning_rate": 0.00011575091575091575,
      "loss": 0.5953,
      "step": 1782
    },
    {
      "epoch": 1.9585335713304957,
      "grad_norm": 0.40088045597076416,
      "learning_rate": 0.00011562881562881562,
      "loss": 0.568,
      "step": 1783
    },
    {
      "epoch": 1.959632019772072,
      "grad_norm": 1.4017099142074585,
      "learning_rate": 0.0001155067155067155,
      "loss": 0.7058,
      "step": 1784
    },
    {
      "epoch": 1.9607304682136482,
      "grad_norm": 0.6009597778320312,
      "learning_rate": 0.00011538461538461538,
      "loss": 0.6239,
      "step": 1785
    },
    {
      "epoch": 1.9618289166552245,
      "grad_norm": 0.5155071020126343,
      "learning_rate": 0.00011526251526251525,
      "loss": 0.6089,
      "step": 1786
    },
    {
      "epoch": 1.9629273650968009,
      "grad_norm": 0.4248057007789612,
      "learning_rate": 0.00011514041514041513,
      "loss": 0.6481,
      "step": 1787
    },
    {
      "epoch": 1.964025813538377,
      "grad_norm": 0.6521177887916565,
      "learning_rate": 0.00011501831501831501,
      "loss": 0.6598,
      "step": 1788
    },
    {
      "epoch": 1.9651242619799532,
      "grad_norm": 0.44697993993759155,
      "learning_rate": 0.00011489621489621488,
      "loss": 0.8944,
      "step": 1789
    },
    {
      "epoch": 1.9662227104215297,
      "grad_norm": 0.41537097096443176,
      "learning_rate": 0.00011477411477411476,
      "loss": 0.5304,
      "step": 1790
    },
    {
      "epoch": 1.9673211588631059,
      "grad_norm": 0.48793885111808777,
      "learning_rate": 0.00011465201465201464,
      "loss": 0.7262,
      "step": 1791
    },
    {
      "epoch": 1.968419607304682,
      "grad_norm": 0.8768893480300903,
      "learning_rate": 0.00011452991452991453,
      "loss": 0.6748,
      "step": 1792
    },
    {
      "epoch": 1.9695180557462584,
      "grad_norm": 0.39224761724472046,
      "learning_rate": 0.0001144078144078144,
      "loss": 0.5503,
      "step": 1793
    },
    {
      "epoch": 1.9706165041878347,
      "grad_norm": 0.5617446899414062,
      "learning_rate": 0.00011428571428571427,
      "loss": 0.7329,
      "step": 1794
    },
    {
      "epoch": 1.9717149526294109,
      "grad_norm": 0.3787171542644501,
      "learning_rate": 0.00011416361416361416,
      "loss": 0.545,
      "step": 1795
    },
    {
      "epoch": 1.9728134010709872,
      "grad_norm": 1.5167701244354248,
      "learning_rate": 0.00011404151404151403,
      "loss": 0.492,
      "step": 1796
    },
    {
      "epoch": 1.9739118495125636,
      "grad_norm": 0.6436883807182312,
      "learning_rate": 0.0001139194139194139,
      "loss": 0.5644,
      "step": 1797
    },
    {
      "epoch": 1.9750102979541397,
      "grad_norm": 0.7104658484458923,
      "learning_rate": 0.0001137973137973138,
      "loss": 0.7485,
      "step": 1798
    },
    {
      "epoch": 1.976108746395716,
      "grad_norm": 0.7996894717216492,
      "learning_rate": 0.00011367521367521367,
      "loss": 0.6918,
      "step": 1799
    },
    {
      "epoch": 1.9772071948372925,
      "grad_norm": 0.6419106721878052,
      "learning_rate": 0.00011355311355311354,
      "loss": 0.5945,
      "step": 1800
    },
    {
      "epoch": 1.9783056432788686,
      "grad_norm": 0.5158131718635559,
      "learning_rate": 0.00011343101343101343,
      "loss": 0.6685,
      "step": 1801
    },
    {
      "epoch": 1.9794040917204447,
      "grad_norm": 1.0825144052505493,
      "learning_rate": 0.0001133089133089133,
      "loss": 0.6774,
      "step": 1802
    },
    {
      "epoch": 1.980502540162021,
      "grad_norm": 0.3999088704586029,
      "learning_rate": 0.00011318681318681317,
      "loss": 0.632,
      "step": 1803
    },
    {
      "epoch": 1.9816009886035975,
      "grad_norm": 0.8866069316864014,
      "learning_rate": 0.00011306471306471304,
      "loss": 0.6541,
      "step": 1804
    },
    {
      "epoch": 1.9826994370451736,
      "grad_norm": 0.3858928978443146,
      "learning_rate": 0.00011294261294261294,
      "loss": 0.6608,
      "step": 1805
    },
    {
      "epoch": 1.98379788548675,
      "grad_norm": 0.513117790222168,
      "learning_rate": 0.00011282051282051281,
      "loss": 0.7598,
      "step": 1806
    },
    {
      "epoch": 1.9848963339283263,
      "grad_norm": 0.3166581392288208,
      "learning_rate": 0.00011269841269841269,
      "loss": 0.781,
      "step": 1807
    },
    {
      "epoch": 1.9859947823699025,
      "grad_norm": 0.3982362151145935,
      "learning_rate": 0.00011257631257631257,
      "loss": 0.873,
      "step": 1808
    },
    {
      "epoch": 1.9870932308114788,
      "grad_norm": 0.3784008026123047,
      "learning_rate": 0.00011245421245421244,
      "loss": 0.7286,
      "step": 1809
    },
    {
      "epoch": 1.9881916792530552,
      "grad_norm": 0.7578315138816833,
      "learning_rate": 0.00011233211233211232,
      "loss": 0.5958,
      "step": 1810
    },
    {
      "epoch": 1.9892901276946313,
      "grad_norm": 0.8509061932563782,
      "learning_rate": 0.0001122100122100122,
      "loss": 0.557,
      "step": 1811
    },
    {
      "epoch": 1.9903885761362075,
      "grad_norm": 0.5107323527336121,
      "learning_rate": 0.00011208791208791207,
      "loss": 0.6994,
      "step": 1812
    },
    {
      "epoch": 1.991487024577784,
      "grad_norm": 0.5421388149261475,
      "learning_rate": 0.00011196581196581196,
      "loss": 0.8839,
      "step": 1813
    },
    {
      "epoch": 1.9925854730193602,
      "grad_norm": 0.7442356944084167,
      "learning_rate": 0.00011184371184371184,
      "loss": 0.6676,
      "step": 1814
    },
    {
      "epoch": 1.9936839214609363,
      "grad_norm": 0.34132111072540283,
      "learning_rate": 0.00011172161172161172,
      "loss": 0.5714,
      "step": 1815
    },
    {
      "epoch": 1.9947823699025127,
      "grad_norm": 0.3995620906352997,
      "learning_rate": 0.00011159951159951159,
      "loss": 0.4811,
      "step": 1816
    },
    {
      "epoch": 1.995880818344089,
      "grad_norm": 0.5613861083984375,
      "learning_rate": 0.00011147741147741146,
      "loss": 0.7495,
      "step": 1817
    },
    {
      "epoch": 1.9969792667856652,
      "grad_norm": 0.4366309642791748,
      "learning_rate": 0.00011135531135531135,
      "loss": 0.6512,
      "step": 1818
    },
    {
      "epoch": 1.9980777152272415,
      "grad_norm": 0.889916718006134,
      "learning_rate": 0.00011123321123321122,
      "loss": 0.5544,
      "step": 1819
    },
    {
      "epoch": 1.999176163668818,
      "grad_norm": 0.512112021446228,
      "learning_rate": 0.00011111111111111109,
      "loss": 1.136,
      "step": 1820
    },
    {
      "epoch": 2.000274612110394,
      "grad_norm": 0.5241844654083252,
      "learning_rate": 0.00011098901098901099,
      "loss": 0.5898,
      "step": 1821
    },
    {
      "epoch": 2.00137306055197,
      "grad_norm": 0.38159477710723877,
      "learning_rate": 0.00011086691086691086,
      "loss": 0.5523,
      "step": 1822
    },
    {
      "epoch": 2.0024715089935468,
      "grad_norm": 1.0415009260177612,
      "learning_rate": 0.00011074481074481073,
      "loss": 0.6963,
      "step": 1823
    },
    {
      "epoch": 2.003569957435123,
      "grad_norm": 0.5349957942962646,
      "learning_rate": 0.00011062271062271062,
      "loss": 0.4422,
      "step": 1824
    },
    {
      "epoch": 2.004668405876699,
      "grad_norm": 0.4512043297290802,
      "learning_rate": 0.00011050061050061049,
      "loss": 0.5467,
      "step": 1825
    },
    {
      "epoch": 2.0057668543182756,
      "grad_norm": 0.8268045783042908,
      "learning_rate": 0.00011037851037851036,
      "loss": 0.6931,
      "step": 1826
    },
    {
      "epoch": 2.0068653027598518,
      "grad_norm": 0.47922319173812866,
      "learning_rate": 0.00011025641025641026,
      "loss": 0.707,
      "step": 1827
    },
    {
      "epoch": 2.007963751201428,
      "grad_norm": 1.352858304977417,
      "learning_rate": 0.00011013431013431013,
      "loss": 0.5658,
      "step": 1828
    },
    {
      "epoch": 2.0090621996430045,
      "grad_norm": 0.6304643154144287,
      "learning_rate": 0.00011001221001221,
      "loss": 0.6526,
      "step": 1829
    },
    {
      "epoch": 2.0101606480845806,
      "grad_norm": 0.3759060502052307,
      "learning_rate": 0.00010989010989010988,
      "loss": 0.627,
      "step": 1830
    },
    {
      "epoch": 2.0112590965261568,
      "grad_norm": 0.5676531195640564,
      "learning_rate": 0.00010976800976800976,
      "loss": 0.7568,
      "step": 1831
    },
    {
      "epoch": 2.012357544967733,
      "grad_norm": 0.7481321692466736,
      "learning_rate": 0.00010964590964590963,
      "loss": 0.7304,
      "step": 1832
    },
    {
      "epoch": 2.0134559934093095,
      "grad_norm": 1.0350905656814575,
      "learning_rate": 0.0001095238095238095,
      "loss": 0.7414,
      "step": 1833
    },
    {
      "epoch": 2.0145544418508856,
      "grad_norm": 0.7817292809486389,
      "learning_rate": 0.00010940170940170939,
      "loss": 0.7742,
      "step": 1834
    },
    {
      "epoch": 2.0156528902924618,
      "grad_norm": 0.44659602642059326,
      "learning_rate": 0.00010927960927960928,
      "loss": 0.7872,
      "step": 1835
    },
    {
      "epoch": 2.0167513387340383,
      "grad_norm": 0.46931198239326477,
      "learning_rate": 0.00010915750915750915,
      "loss": 0.5596,
      "step": 1836
    },
    {
      "epoch": 2.0178497871756145,
      "grad_norm": 0.34634560346603394,
      "learning_rate": 0.00010903540903540903,
      "loss": 0.6861,
      "step": 1837
    },
    {
      "epoch": 2.0189482356171906,
      "grad_norm": 0.36579200625419617,
      "learning_rate": 0.0001089133089133089,
      "loss": 0.6586,
      "step": 1838
    },
    {
      "epoch": 2.020046684058767,
      "grad_norm": 0.9167144894599915,
      "learning_rate": 0.00010879120879120878,
      "loss": 0.7125,
      "step": 1839
    },
    {
      "epoch": 2.0211451325003433,
      "grad_norm": 0.4107789993286133,
      "learning_rate": 0.00010866910866910866,
      "loss": 0.6089,
      "step": 1840
    },
    {
      "epoch": 2.0222435809419195,
      "grad_norm": 1.0845204591751099,
      "learning_rate": 0.00010854700854700854,
      "loss": 0.499,
      "step": 1841
    },
    {
      "epoch": 2.0233420293834956,
      "grad_norm": 0.382376492023468,
      "learning_rate": 0.00010842490842490841,
      "loss": 0.5505,
      "step": 1842
    },
    {
      "epoch": 2.024440477825072,
      "grad_norm": 0.38339781761169434,
      "learning_rate": 0.00010830280830280828,
      "loss": 0.4593,
      "step": 1843
    },
    {
      "epoch": 2.0255389262666483,
      "grad_norm": 0.45328769087791443,
      "learning_rate": 0.00010818070818070818,
      "loss": 0.8437,
      "step": 1844
    },
    {
      "epoch": 2.0266373747082245,
      "grad_norm": 0.3051920533180237,
      "learning_rate": 0.00010805860805860805,
      "loss": 0.6096,
      "step": 1845
    },
    {
      "epoch": 2.027735823149801,
      "grad_norm": 0.4249560236930847,
      "learning_rate": 0.00010793650793650792,
      "loss": 0.6441,
      "step": 1846
    },
    {
      "epoch": 2.028834271591377,
      "grad_norm": 0.6639708280563354,
      "learning_rate": 0.00010781440781440781,
      "loss": 0.716,
      "step": 1847
    },
    {
      "epoch": 2.0299327200329533,
      "grad_norm": 0.4324635863304138,
      "learning_rate": 0.00010769230769230768,
      "loss": 0.5288,
      "step": 1848
    },
    {
      "epoch": 2.03103116847453,
      "grad_norm": 0.46487629413604736,
      "learning_rate": 0.00010757020757020755,
      "loss": 0.4908,
      "step": 1849
    },
    {
      "epoch": 2.032129616916106,
      "grad_norm": 0.5104641318321228,
      "learning_rate": 0.00010744810744810745,
      "loss": 0.6367,
      "step": 1850
    },
    {
      "epoch": 2.033228065357682,
      "grad_norm": 0.4010922312736511,
      "learning_rate": 0.00010732600732600732,
      "loss": 0.4266,
      "step": 1851
    },
    {
      "epoch": 2.0343265137992583,
      "grad_norm": 0.6835510730743408,
      "learning_rate": 0.0001072039072039072,
      "loss": 1.0077,
      "step": 1852
    },
    {
      "epoch": 2.035424962240835,
      "grad_norm": 0.7012602686882019,
      "learning_rate": 0.00010708180708180708,
      "loss": 0.7656,
      "step": 1853
    },
    {
      "epoch": 2.036523410682411,
      "grad_norm": 0.8202001452445984,
      "learning_rate": 0.00010695970695970695,
      "loss": 0.9796,
      "step": 1854
    },
    {
      "epoch": 2.037621859123987,
      "grad_norm": 0.37708353996276855,
      "learning_rate": 0.00010683760683760682,
      "loss": 0.3664,
      "step": 1855
    },
    {
      "epoch": 2.0387203075655638,
      "grad_norm": 0.34818801283836365,
      "learning_rate": 0.0001067155067155067,
      "loss": 0.5365,
      "step": 1856
    },
    {
      "epoch": 2.03981875600714,
      "grad_norm": 0.46427440643310547,
      "learning_rate": 0.0001065934065934066,
      "loss": 0.7503,
      "step": 1857
    },
    {
      "epoch": 2.040917204448716,
      "grad_norm": 0.4782754182815552,
      "learning_rate": 0.00010647130647130647,
      "loss": 0.9247,
      "step": 1858
    },
    {
      "epoch": 2.0420156528902926,
      "grad_norm": 0.6814667582511902,
      "learning_rate": 0.00010634920634920634,
      "loss": 0.5365,
      "step": 1859
    },
    {
      "epoch": 2.0431141013318688,
      "grad_norm": 0.4782056510448456,
      "learning_rate": 0.00010622710622710622,
      "loss": 0.7444,
      "step": 1860
    },
    {
      "epoch": 2.044212549773445,
      "grad_norm": 0.768439769744873,
      "learning_rate": 0.0001061050061050061,
      "loss": 0.6386,
      "step": 1861
    },
    {
      "epoch": 2.0453109982150215,
      "grad_norm": 0.9991740584373474,
      "learning_rate": 0.00010598290598290597,
      "loss": 0.4762,
      "step": 1862
    },
    {
      "epoch": 2.0464094466565976,
      "grad_norm": 0.4244922995567322,
      "learning_rate": 0.00010586080586080585,
      "loss": 0.4469,
      "step": 1863
    },
    {
      "epoch": 2.0475078950981738,
      "grad_norm": 0.4085465371608734,
      "learning_rate": 0.00010573870573870573,
      "loss": 0.7215,
      "step": 1864
    },
    {
      "epoch": 2.04860634353975,
      "grad_norm": 1.3068008422851562,
      "learning_rate": 0.0001056166056166056,
      "loss": 0.7781,
      "step": 1865
    },
    {
      "epoch": 2.0497047919813265,
      "grad_norm": 0.3995974659919739,
      "learning_rate": 0.0001054945054945055,
      "loss": 0.6114,
      "step": 1866
    },
    {
      "epoch": 2.0508032404229026,
      "grad_norm": 0.47944560647010803,
      "learning_rate": 0.00010537240537240537,
      "loss": 0.7355,
      "step": 1867
    },
    {
      "epoch": 2.0519016888644788,
      "grad_norm": 1.6718720197677612,
      "learning_rate": 0.00010525030525030524,
      "loss": 0.5987,
      "step": 1868
    },
    {
      "epoch": 2.0530001373060554,
      "grad_norm": 0.46015220880508423,
      "learning_rate": 0.00010512820512820511,
      "loss": 0.481,
      "step": 1869
    },
    {
      "epoch": 2.0540985857476315,
      "grad_norm": 0.4863795042037964,
      "learning_rate": 0.000105006105006105,
      "loss": 0.5877,
      "step": 1870
    },
    {
      "epoch": 2.0551970341892076,
      "grad_norm": 0.9190402030944824,
      "learning_rate": 0.00010488400488400487,
      "loss": 0.7941,
      "step": 1871
    },
    {
      "epoch": 2.056295482630784,
      "grad_norm": 0.6056554317474365,
      "learning_rate": 0.00010476190476190474,
      "loss": 0.5455,
      "step": 1872
    },
    {
      "epoch": 2.0573939310723603,
      "grad_norm": 0.7070736289024353,
      "learning_rate": 0.00010463980463980464,
      "loss": 0.6112,
      "step": 1873
    },
    {
      "epoch": 2.0584923795139365,
      "grad_norm": 0.5415268540382385,
      "learning_rate": 0.00010451770451770451,
      "loss": 0.7141,
      "step": 1874
    },
    {
      "epoch": 2.0595908279555126,
      "grad_norm": 0.45696091651916504,
      "learning_rate": 0.00010439560439560438,
      "loss": 0.7825,
      "step": 1875
    },
    {
      "epoch": 2.060689276397089,
      "grad_norm": 0.5728979706764221,
      "learning_rate": 0.00010427350427350427,
      "loss": 0.5869,
      "step": 1876
    },
    {
      "epoch": 2.0617877248386653,
      "grad_norm": 0.5910143852233887,
      "learning_rate": 0.00010415140415140414,
      "loss": 0.728,
      "step": 1877
    },
    {
      "epoch": 2.0628861732802415,
      "grad_norm": 0.530915379524231,
      "learning_rate": 0.00010402930402930401,
      "loss": 0.6459,
      "step": 1878
    },
    {
      "epoch": 2.063984621721818,
      "grad_norm": 0.36358964443206787,
      "learning_rate": 0.00010390720390720391,
      "loss": 0.7536,
      "step": 1879
    },
    {
      "epoch": 2.065083070163394,
      "grad_norm": 2.7523410320281982,
      "learning_rate": 0.00010378510378510379,
      "loss": 0.6347,
      "step": 1880
    },
    {
      "epoch": 2.0661815186049703,
      "grad_norm": 0.6842527389526367,
      "learning_rate": 0.00010366300366300366,
      "loss": 0.4943,
      "step": 1881
    },
    {
      "epoch": 2.067279967046547,
      "grad_norm": 0.5830293297767639,
      "learning_rate": 0.00010354090354090353,
      "loss": 0.5855,
      "step": 1882
    },
    {
      "epoch": 2.068378415488123,
      "grad_norm": 0.981920599937439,
      "learning_rate": 0.00010341880341880341,
      "loss": 0.4425,
      "step": 1883
    },
    {
      "epoch": 2.069476863929699,
      "grad_norm": 2.0826029777526855,
      "learning_rate": 0.00010329670329670329,
      "loss": 0.5399,
      "step": 1884
    },
    {
      "epoch": 2.0705753123712753,
      "grad_norm": 0.4648442268371582,
      "learning_rate": 0.00010317460317460316,
      "loss": 0.6203,
      "step": 1885
    },
    {
      "epoch": 2.071673760812852,
      "grad_norm": 0.5086346864700317,
      "learning_rate": 0.00010305250305250304,
      "loss": 0.6091,
      "step": 1886
    },
    {
      "epoch": 2.072772209254428,
      "grad_norm": 0.40404266119003296,
      "learning_rate": 0.00010293040293040292,
      "loss": 0.5013,
      "step": 1887
    },
    {
      "epoch": 2.073870657696004,
      "grad_norm": 2.0507569313049316,
      "learning_rate": 0.0001028083028083028,
      "loss": 0.7822,
      "step": 1888
    },
    {
      "epoch": 2.074969106137581,
      "grad_norm": 0.9318211078643799,
      "learning_rate": 0.00010268620268620269,
      "loss": 0.6638,
      "step": 1889
    },
    {
      "epoch": 2.076067554579157,
      "grad_norm": 0.7601054310798645,
      "learning_rate": 0.00010256410256410256,
      "loss": 0.6085,
      "step": 1890
    },
    {
      "epoch": 2.077166003020733,
      "grad_norm": 1.1299306154251099,
      "learning_rate": 0.00010244200244200243,
      "loss": 0.682,
      "step": 1891
    },
    {
      "epoch": 2.0782644514623096,
      "grad_norm": 0.5009475350379944,
      "learning_rate": 0.0001023199023199023,
      "loss": 0.7229,
      "step": 1892
    },
    {
      "epoch": 2.079362899903886,
      "grad_norm": 0.3432561159133911,
      "learning_rate": 0.00010219780219780219,
      "loss": 0.5991,
      "step": 1893
    },
    {
      "epoch": 2.080461348345462,
      "grad_norm": 0.5224031805992126,
      "learning_rate": 0.00010207570207570206,
      "loss": 0.3687,
      "step": 1894
    },
    {
      "epoch": 2.0815597967870385,
      "grad_norm": 0.4849548935890198,
      "learning_rate": 0.00010195360195360193,
      "loss": 0.507,
      "step": 1895
    },
    {
      "epoch": 2.0826582452286146,
      "grad_norm": 0.6093185544013977,
      "learning_rate": 0.00010183150183150183,
      "loss": 0.7019,
      "step": 1896
    },
    {
      "epoch": 2.083756693670191,
      "grad_norm": 0.7408457398414612,
      "learning_rate": 0.0001017094017094017,
      "loss": 0.6331,
      "step": 1897
    },
    {
      "epoch": 2.084855142111767,
      "grad_norm": 0.67701655626297,
      "learning_rate": 0.00010158730158730157,
      "loss": 0.6685,
      "step": 1898
    },
    {
      "epoch": 2.0859535905533435,
      "grad_norm": 0.2880030870437622,
      "learning_rate": 0.00010146520146520146,
      "loss": 0.4043,
      "step": 1899
    },
    {
      "epoch": 2.0870520389949196,
      "grad_norm": 0.45890796184539795,
      "learning_rate": 0.00010134310134310133,
      "loss": 0.3695,
      "step": 1900
    },
    {
      "epoch": 2.088150487436496,
      "grad_norm": 0.7898344397544861,
      "learning_rate": 0.0001012210012210012,
      "loss": 0.7875,
      "step": 1901
    },
    {
      "epoch": 2.0892489358780724,
      "grad_norm": 0.5648753046989441,
      "learning_rate": 0.0001010989010989011,
      "loss": 0.6058,
      "step": 1902
    },
    {
      "epoch": 2.0903473843196485,
      "grad_norm": 0.7880465984344482,
      "learning_rate": 0.00010097680097680098,
      "loss": 0.6403,
      "step": 1903
    },
    {
      "epoch": 2.0914458327612246,
      "grad_norm": 0.4169737696647644,
      "learning_rate": 0.00010085470085470085,
      "loss": 0.71,
      "step": 1904
    },
    {
      "epoch": 2.0925442812028012,
      "grad_norm": 0.33653560280799866,
      "learning_rate": 0.00010073260073260072,
      "loss": 0.6278,
      "step": 1905
    },
    {
      "epoch": 2.0936427296443774,
      "grad_norm": 0.6861558556556702,
      "learning_rate": 0.0001006105006105006,
      "loss": 0.8463,
      "step": 1906
    },
    {
      "epoch": 2.0947411780859535,
      "grad_norm": 0.29407018423080444,
      "learning_rate": 0.00010048840048840048,
      "loss": 0.5644,
      "step": 1907
    },
    {
      "epoch": 2.09583962652753,
      "grad_norm": 0.673083484172821,
      "learning_rate": 0.00010036630036630035,
      "loss": 0.8353,
      "step": 1908
    },
    {
      "epoch": 2.0969380749691062,
      "grad_norm": 0.429061621427536,
      "learning_rate": 0.00010024420024420023,
      "loss": 0.6381,
      "step": 1909
    },
    {
      "epoch": 2.0980365234106824,
      "grad_norm": 0.5113368630409241,
      "learning_rate": 0.00010012210012210012,
      "loss": 0.7603,
      "step": 1910
    },
    {
      "epoch": 2.0991349718522585,
      "grad_norm": 0.9005820751190186,
      "learning_rate": 9.999999999999999e-05,
      "loss": 0.6331,
      "step": 1911
    },
    {
      "epoch": 2.100233420293835,
      "grad_norm": 0.489851176738739,
      "learning_rate": 9.987789987789988e-05,
      "loss": 0.8564,
      "step": 1912
    },
    {
      "epoch": 2.1013318687354112,
      "grad_norm": 0.42647236585617065,
      "learning_rate": 9.975579975579975e-05,
      "loss": 0.5496,
      "step": 1913
    },
    {
      "epoch": 2.1024303171769874,
      "grad_norm": 0.9061693549156189,
      "learning_rate": 9.963369963369962e-05,
      "loss": 0.4478,
      "step": 1914
    },
    {
      "epoch": 2.103528765618564,
      "grad_norm": 0.4721933901309967,
      "learning_rate": 9.95115995115995e-05,
      "loss": 0.6066,
      "step": 1915
    },
    {
      "epoch": 2.10462721406014,
      "grad_norm": 0.7265921831130981,
      "learning_rate": 9.938949938949938e-05,
      "loss": 0.7195,
      "step": 1916
    },
    {
      "epoch": 2.1057256625017162,
      "grad_norm": 0.4521386921405792,
      "learning_rate": 9.926739926739925e-05,
      "loss": 0.6476,
      "step": 1917
    },
    {
      "epoch": 2.106824110943293,
      "grad_norm": 0.42982912063598633,
      "learning_rate": 9.914529914529912e-05,
      "loss": 0.535,
      "step": 1918
    },
    {
      "epoch": 2.107922559384869,
      "grad_norm": 0.4758259952068329,
      "learning_rate": 9.902319902319902e-05,
      "loss": 0.8106,
      "step": 1919
    },
    {
      "epoch": 2.109021007826445,
      "grad_norm": 0.69195157289505,
      "learning_rate": 9.890109890109889e-05,
      "loss": 0.6643,
      "step": 1920
    },
    {
      "epoch": 2.110119456268021,
      "grad_norm": 0.8207395672798157,
      "learning_rate": 9.877899877899876e-05,
      "loss": 0.7535,
      "step": 1921
    },
    {
      "epoch": 2.111217904709598,
      "grad_norm": 1.4245035648345947,
      "learning_rate": 9.865689865689865e-05,
      "loss": 0.6721,
      "step": 1922
    },
    {
      "epoch": 2.112316353151174,
      "grad_norm": 0.5496362447738647,
      "learning_rate": 9.853479853479852e-05,
      "loss": 0.5367,
      "step": 1923
    },
    {
      "epoch": 2.11341480159275,
      "grad_norm": 0.5466665625572205,
      "learning_rate": 9.84126984126984e-05,
      "loss": 0.6083,
      "step": 1924
    },
    {
      "epoch": 2.1145132500343267,
      "grad_norm": 0.7750464677810669,
      "learning_rate": 9.829059829059829e-05,
      "loss": 0.663,
      "step": 1925
    },
    {
      "epoch": 2.115611698475903,
      "grad_norm": 0.4978208541870117,
      "learning_rate": 9.816849816849817e-05,
      "loss": 0.6334,
      "step": 1926
    },
    {
      "epoch": 2.116710146917479,
      "grad_norm": 0.6415550708770752,
      "learning_rate": 9.804639804639804e-05,
      "loss": 0.6477,
      "step": 1927
    },
    {
      "epoch": 2.1178085953590555,
      "grad_norm": 0.644123911857605,
      "learning_rate": 9.792429792429792e-05,
      "loss": 0.668,
      "step": 1928
    },
    {
      "epoch": 2.1189070438006317,
      "grad_norm": 0.39706236124038696,
      "learning_rate": 9.78021978021978e-05,
      "loss": 0.5875,
      "step": 1929
    },
    {
      "epoch": 2.120005492242208,
      "grad_norm": 1.3733233213424683,
      "learning_rate": 9.768009768009767e-05,
      "loss": 0.6023,
      "step": 1930
    },
    {
      "epoch": 2.121103940683784,
      "grad_norm": 0.48839983344078064,
      "learning_rate": 9.755799755799754e-05,
      "loss": 0.5693,
      "step": 1931
    },
    {
      "epoch": 2.1222023891253605,
      "grad_norm": 0.3107692301273346,
      "learning_rate": 9.743589743589744e-05,
      "loss": 0.5822,
      "step": 1932
    },
    {
      "epoch": 2.1233008375669367,
      "grad_norm": 0.3988654911518097,
      "learning_rate": 9.731379731379731e-05,
      "loss": 0.5989,
      "step": 1933
    },
    {
      "epoch": 2.124399286008513,
      "grad_norm": 1.1887754201889038,
      "learning_rate": 9.719169719169718e-05,
      "loss": 0.6382,
      "step": 1934
    },
    {
      "epoch": 2.1254977344500894,
      "grad_norm": 0.43282651901245117,
      "learning_rate": 9.706959706959707e-05,
      "loss": 0.5649,
      "step": 1935
    },
    {
      "epoch": 2.1265961828916655,
      "grad_norm": 0.39243975281715393,
      "learning_rate": 9.694749694749694e-05,
      "loss": 0.7005,
      "step": 1936
    },
    {
      "epoch": 2.1276946313332417,
      "grad_norm": 0.7401454448699951,
      "learning_rate": 9.682539682539681e-05,
      "loss": 1.0632,
      "step": 1937
    },
    {
      "epoch": 2.1287930797748182,
      "grad_norm": 0.6976983547210693,
      "learning_rate": 9.67032967032967e-05,
      "loss": 0.562,
      "step": 1938
    },
    {
      "epoch": 2.1298915282163944,
      "grad_norm": 0.9784336686134338,
      "learning_rate": 9.658119658119657e-05,
      "loss": 0.8115,
      "step": 1939
    },
    {
      "epoch": 2.1309899766579705,
      "grad_norm": 0.5289125442504883,
      "learning_rate": 9.645909645909644e-05,
      "loss": 0.6161,
      "step": 1940
    },
    {
      "epoch": 2.132088425099547,
      "grad_norm": 1.414559006690979,
      "learning_rate": 9.633699633699634e-05,
      "loss": 0.7115,
      "step": 1941
    },
    {
      "epoch": 2.1331868735411232,
      "grad_norm": 0.5444177389144897,
      "learning_rate": 9.621489621489621e-05,
      "loss": 0.6211,
      "step": 1942
    },
    {
      "epoch": 2.1342853219826994,
      "grad_norm": 0.637030839920044,
      "learning_rate": 9.609279609279608e-05,
      "loss": 0.8747,
      "step": 1943
    },
    {
      "epoch": 2.1353837704242755,
      "grad_norm": 0.5926198363304138,
      "learning_rate": 9.597069597069595e-05,
      "loss": 0.8673,
      "step": 1944
    },
    {
      "epoch": 2.136482218865852,
      "grad_norm": 0.3638801872730255,
      "learning_rate": 9.584859584859584e-05,
      "loss": 0.4698,
      "step": 1945
    },
    {
      "epoch": 2.1375806673074282,
      "grad_norm": 0.5823031067848206,
      "learning_rate": 9.572649572649571e-05,
      "loss": 0.6988,
      "step": 1946
    },
    {
      "epoch": 2.1386791157490044,
      "grad_norm": 0.44348934292793274,
      "learning_rate": 9.560439560439558e-05,
      "loss": 0.6667,
      "step": 1947
    },
    {
      "epoch": 2.139777564190581,
      "grad_norm": 3.177112579345703,
      "learning_rate": 9.548229548229548e-05,
      "loss": 0.8738,
      "step": 1948
    },
    {
      "epoch": 2.140876012632157,
      "grad_norm": 1.3834997415542603,
      "learning_rate": 9.536019536019536e-05,
      "loss": 0.528,
      "step": 1949
    },
    {
      "epoch": 2.1419744610737332,
      "grad_norm": 0.5514722466468811,
      "learning_rate": 9.523809523809523e-05,
      "loss": 0.5058,
      "step": 1950
    },
    {
      "epoch": 2.14307290951531,
      "grad_norm": 0.8795000314712524,
      "learning_rate": 9.511599511599511e-05,
      "loss": 0.6368,
      "step": 1951
    },
    {
      "epoch": 2.144171357956886,
      "grad_norm": 1.0043178796768188,
      "learning_rate": 9.499389499389498e-05,
      "loss": 0.5701,
      "step": 1952
    },
    {
      "epoch": 2.145269806398462,
      "grad_norm": 1.8537780046463013,
      "learning_rate": 9.487179487179486e-05,
      "loss": 0.6978,
      "step": 1953
    },
    {
      "epoch": 2.1463682548400387,
      "grad_norm": 0.5239475965499878,
      "learning_rate": 9.474969474969476e-05,
      "loss": 0.7093,
      "step": 1954
    },
    {
      "epoch": 2.147466703281615,
      "grad_norm": 0.7944377064704895,
      "learning_rate": 9.462759462759463e-05,
      "loss": 0.7625,
      "step": 1955
    },
    {
      "epoch": 2.148565151723191,
      "grad_norm": 0.7356003522872925,
      "learning_rate": 9.45054945054945e-05,
      "loss": 0.6845,
      "step": 1956
    },
    {
      "epoch": 2.149663600164767,
      "grad_norm": 1.3590694665908813,
      "learning_rate": 9.438339438339437e-05,
      "loss": 0.6964,
      "step": 1957
    },
    {
      "epoch": 2.1507620486063437,
      "grad_norm": 0.40889453887939453,
      "learning_rate": 9.426129426129426e-05,
      "loss": 0.6643,
      "step": 1958
    },
    {
      "epoch": 2.15186049704792,
      "grad_norm": 0.6347643136978149,
      "learning_rate": 9.413919413919413e-05,
      "loss": 1.0002,
      "step": 1959
    },
    {
      "epoch": 2.152958945489496,
      "grad_norm": 0.3661377429962158,
      "learning_rate": 9.4017094017094e-05,
      "loss": 0.5084,
      "step": 1960
    },
    {
      "epoch": 2.1540573939310725,
      "grad_norm": 0.8262574672698975,
      "learning_rate": 9.389499389499389e-05,
      "loss": 0.5658,
      "step": 1961
    },
    {
      "epoch": 2.1551558423726487,
      "grad_norm": 0.6054818034172058,
      "learning_rate": 9.377289377289376e-05,
      "loss": 0.6349,
      "step": 1962
    },
    {
      "epoch": 2.156254290814225,
      "grad_norm": 0.3696078658103943,
      "learning_rate": 9.365079365079364e-05,
      "loss": 0.5746,
      "step": 1963
    },
    {
      "epoch": 2.157352739255801,
      "grad_norm": 0.7613049745559692,
      "learning_rate": 9.352869352869353e-05,
      "loss": 0.5204,
      "step": 1964
    },
    {
      "epoch": 2.1584511876973775,
      "grad_norm": 0.6841816306114197,
      "learning_rate": 9.34065934065934e-05,
      "loss": 0.813,
      "step": 1965
    },
    {
      "epoch": 2.1595496361389537,
      "grad_norm": 0.902998685836792,
      "learning_rate": 9.328449328449327e-05,
      "loss": 0.6288,
      "step": 1966
    },
    {
      "epoch": 2.16064808458053,
      "grad_norm": 0.5367470979690552,
      "learning_rate": 9.316239316239316e-05,
      "loss": 0.6689,
      "step": 1967
    },
    {
      "epoch": 2.1617465330221064,
      "grad_norm": 0.9443572163581848,
      "learning_rate": 9.304029304029303e-05,
      "loss": 0.6864,
      "step": 1968
    },
    {
      "epoch": 2.1628449814636825,
      "grad_norm": 0.42191457748413086,
      "learning_rate": 9.29181929181929e-05,
      "loss": 0.6509,
      "step": 1969
    },
    {
      "epoch": 2.1639434299052587,
      "grad_norm": 0.6019404530525208,
      "learning_rate": 9.279609279609277e-05,
      "loss": 0.5252,
      "step": 1970
    },
    {
      "epoch": 2.1650418783468353,
      "grad_norm": 1.9933907985687256,
      "learning_rate": 9.267399267399267e-05,
      "loss": 0.6042,
      "step": 1971
    },
    {
      "epoch": 2.1661403267884114,
      "grad_norm": 0.33075836300849915,
      "learning_rate": 9.255189255189255e-05,
      "loss": 0.579,
      "step": 1972
    },
    {
      "epoch": 2.1672387752299875,
      "grad_norm": 0.37899547815322876,
      "learning_rate": 9.242979242979242e-05,
      "loss": 0.5006,
      "step": 1973
    },
    {
      "epoch": 2.168337223671564,
      "grad_norm": 0.6482734680175781,
      "learning_rate": 9.23076923076923e-05,
      "loss": 0.4844,
      "step": 1974
    },
    {
      "epoch": 2.1694356721131403,
      "grad_norm": 0.47632062435150146,
      "learning_rate": 9.218559218559217e-05,
      "loss": 0.5844,
      "step": 1975
    },
    {
      "epoch": 2.1705341205547164,
      "grad_norm": 0.3402813971042633,
      "learning_rate": 9.206349206349205e-05,
      "loss": 0.6397,
      "step": 1976
    },
    {
      "epoch": 2.1716325689962925,
      "grad_norm": 0.47405871748924255,
      "learning_rate": 9.194139194139195e-05,
      "loss": 0.6436,
      "step": 1977
    },
    {
      "epoch": 2.172731017437869,
      "grad_norm": 0.5474234223365784,
      "learning_rate": 9.181929181929182e-05,
      "loss": 0.5758,
      "step": 1978
    },
    {
      "epoch": 2.1738294658794453,
      "grad_norm": 0.5423378348350525,
      "learning_rate": 9.169719169719169e-05,
      "loss": 0.5882,
      "step": 1979
    },
    {
      "epoch": 2.1749279143210214,
      "grad_norm": 0.32848963141441345,
      "learning_rate": 9.157509157509158e-05,
      "loss": 0.5828,
      "step": 1980
    },
    {
      "epoch": 2.176026362762598,
      "grad_norm": 0.6646802425384521,
      "learning_rate": 9.145299145299145e-05,
      "loss": 0.551,
      "step": 1981
    },
    {
      "epoch": 2.177124811204174,
      "grad_norm": 0.4560980200767517,
      "learning_rate": 9.133089133089132e-05,
      "loss": 0.705,
      "step": 1982
    },
    {
      "epoch": 2.1782232596457503,
      "grad_norm": 0.4531053304672241,
      "learning_rate": 9.120879120879119e-05,
      "loss": 0.7471,
      "step": 1983
    },
    {
      "epoch": 2.179321708087327,
      "grad_norm": 0.5881507992744446,
      "learning_rate": 9.108669108669108e-05,
      "loss": 0.7559,
      "step": 1984
    },
    {
      "epoch": 2.180420156528903,
      "grad_norm": 0.41462886333465576,
      "learning_rate": 9.096459096459096e-05,
      "loss": 0.5674,
      "step": 1985
    },
    {
      "epoch": 2.181518604970479,
      "grad_norm": 0.46718108654022217,
      "learning_rate": 9.084249084249083e-05,
      "loss": 0.7149,
      "step": 1986
    },
    {
      "epoch": 2.1826170534120557,
      "grad_norm": 0.49290111660957336,
      "learning_rate": 9.072039072039072e-05,
      "loss": 0.5641,
      "step": 1987
    },
    {
      "epoch": 2.183715501853632,
      "grad_norm": 0.398296594619751,
      "learning_rate": 9.059829059829059e-05,
      "loss": 0.5177,
      "step": 1988
    },
    {
      "epoch": 2.184813950295208,
      "grad_norm": 0.8241115212440491,
      "learning_rate": 9.047619047619046e-05,
      "loss": 0.7864,
      "step": 1989
    },
    {
      "epoch": 2.185912398736784,
      "grad_norm": 1.1335865259170532,
      "learning_rate": 9.035409035409035e-05,
      "loss": 0.6167,
      "step": 1990
    },
    {
      "epoch": 2.1870108471783607,
      "grad_norm": 0.4479789435863495,
      "learning_rate": 9.023199023199022e-05,
      "loss": 0.6365,
      "step": 1991
    },
    {
      "epoch": 2.188109295619937,
      "grad_norm": 0.4892582297325134,
      "learning_rate": 9.010989010989009e-05,
      "loss": 0.6283,
      "step": 1992
    },
    {
      "epoch": 2.189207744061513,
      "grad_norm": 0.8397974371910095,
      "learning_rate": 8.998778998778999e-05,
      "loss": 0.7123,
      "step": 1993
    },
    {
      "epoch": 2.1903061925030896,
      "grad_norm": 0.5295377969741821,
      "learning_rate": 8.986568986568986e-05,
      "loss": 0.4033,
      "step": 1994
    },
    {
      "epoch": 2.1914046409446657,
      "grad_norm": 0.464832067489624,
      "learning_rate": 8.974358974358974e-05,
      "loss": 0.8228,
      "step": 1995
    },
    {
      "epoch": 2.192503089386242,
      "grad_norm": 0.381369024515152,
      "learning_rate": 8.962148962148961e-05,
      "loss": 0.6267,
      "step": 1996
    },
    {
      "epoch": 2.193601537827818,
      "grad_norm": 0.7176710963249207,
      "learning_rate": 8.949938949938949e-05,
      "loss": 0.7008,
      "step": 1997
    },
    {
      "epoch": 2.1946999862693946,
      "grad_norm": 2.569753885269165,
      "learning_rate": 8.937728937728936e-05,
      "loss": 0.6899,
      "step": 1998
    },
    {
      "epoch": 2.1957984347109707,
      "grad_norm": 0.5020056962966919,
      "learning_rate": 8.925518925518924e-05,
      "loss": 0.527,
      "step": 1999
    },
    {
      "epoch": 2.196896883152547,
      "grad_norm": 1.7054524421691895,
      "learning_rate": 8.913308913308914e-05,
      "loss": 0.5455,
      "step": 2000
    },
    {
      "epoch": 2.1979953315941234,
      "grad_norm": 0.5037225484848022,
      "learning_rate": 8.901098901098901e-05,
      "loss": 0.7445,
      "step": 2001
    },
    {
      "epoch": 2.1990937800356996,
      "grad_norm": 0.8109555840492249,
      "learning_rate": 8.888888888888888e-05,
      "loss": 0.624,
      "step": 2002
    },
    {
      "epoch": 2.2001922284772757,
      "grad_norm": 0.47120043635368347,
      "learning_rate": 8.876678876678877e-05,
      "loss": 0.6858,
      "step": 2003
    },
    {
      "epoch": 2.2012906769188523,
      "grad_norm": 0.6166191101074219,
      "learning_rate": 8.864468864468864e-05,
      "loss": 0.4528,
      "step": 2004
    },
    {
      "epoch": 2.2023891253604284,
      "grad_norm": 0.4999128580093384,
      "learning_rate": 8.852258852258851e-05,
      "loss": 0.712,
      "step": 2005
    },
    {
      "epoch": 2.2034875738020046,
      "grad_norm": 1.1858354806900024,
      "learning_rate": 8.84004884004884e-05,
      "loss": 0.7647,
      "step": 2006
    },
    {
      "epoch": 2.204586022243581,
      "grad_norm": 0.4223528206348419,
      "learning_rate": 8.827838827838828e-05,
      "loss": 0.6553,
      "step": 2007
    },
    {
      "epoch": 2.2056844706851573,
      "grad_norm": 0.41678956151008606,
      "learning_rate": 8.815628815628815e-05,
      "loss": 0.6033,
      "step": 2008
    },
    {
      "epoch": 2.2067829191267334,
      "grad_norm": 0.5812666416168213,
      "learning_rate": 8.803418803418802e-05,
      "loss": 0.6016,
      "step": 2009
    },
    {
      "epoch": 2.2078813675683095,
      "grad_norm": 0.5553560256958008,
      "learning_rate": 8.791208791208791e-05,
      "loss": 0.7621,
      "step": 2010
    },
    {
      "epoch": 2.208979816009886,
      "grad_norm": 0.6392796635627747,
      "learning_rate": 8.778998778998778e-05,
      "loss": 0.567,
      "step": 2011
    },
    {
      "epoch": 2.2100782644514623,
      "grad_norm": 1.0086902379989624,
      "learning_rate": 8.766788766788765e-05,
      "loss": 0.9432,
      "step": 2012
    },
    {
      "epoch": 2.2111767128930384,
      "grad_norm": 1.3578602075576782,
      "learning_rate": 8.754578754578754e-05,
      "loss": 0.5107,
      "step": 2013
    },
    {
      "epoch": 2.212275161334615,
      "grad_norm": 0.5530524849891663,
      "learning_rate": 8.742368742368741e-05,
      "loss": 0.6078,
      "step": 2014
    },
    {
      "epoch": 2.213373609776191,
      "grad_norm": 0.3795104920864105,
      "learning_rate": 8.730158730158728e-05,
      "loss": 0.4889,
      "step": 2015
    },
    {
      "epoch": 2.2144720582177673,
      "grad_norm": 0.40977227687835693,
      "learning_rate": 8.717948717948718e-05,
      "loss": 0.6295,
      "step": 2016
    },
    {
      "epoch": 2.215570506659344,
      "grad_norm": 0.4882934093475342,
      "learning_rate": 8.705738705738705e-05,
      "loss": 0.7219,
      "step": 2017
    },
    {
      "epoch": 2.21666895510092,
      "grad_norm": 0.7966530919075012,
      "learning_rate": 8.693528693528693e-05,
      "loss": 0.5342,
      "step": 2018
    },
    {
      "epoch": 2.217767403542496,
      "grad_norm": 0.6992311477661133,
      "learning_rate": 8.681318681318681e-05,
      "loss": 0.5932,
      "step": 2019
    },
    {
      "epoch": 2.2188658519840727,
      "grad_norm": 0.396427720785141,
      "learning_rate": 8.669108669108668e-05,
      "loss": 0.5838,
      "step": 2020
    },
    {
      "epoch": 2.219964300425649,
      "grad_norm": 0.5625690817832947,
      "learning_rate": 8.656898656898655e-05,
      "loss": 0.7605,
      "step": 2021
    },
    {
      "epoch": 2.221062748867225,
      "grad_norm": 0.6052583456039429,
      "learning_rate": 8.644688644688643e-05,
      "loss": 0.6572,
      "step": 2022
    },
    {
      "epoch": 2.222161197308801,
      "grad_norm": 0.7201973795890808,
      "learning_rate": 8.632478632478633e-05,
      "loss": 0.4924,
      "step": 2023
    },
    {
      "epoch": 2.2232596457503777,
      "grad_norm": 0.4222647249698639,
      "learning_rate": 8.62026862026862e-05,
      "loss": 0.7764,
      "step": 2024
    },
    {
      "epoch": 2.224358094191954,
      "grad_norm": 0.5168121457099915,
      "learning_rate": 8.608058608058607e-05,
      "loss": 0.5766,
      "step": 2025
    },
    {
      "epoch": 2.22545654263353,
      "grad_norm": 0.886203408241272,
      "learning_rate": 8.595848595848596e-05,
      "loss": 0.3804,
      "step": 2026
    },
    {
      "epoch": 2.2265549910751066,
      "grad_norm": 1.7365875244140625,
      "learning_rate": 8.583638583638583e-05,
      "loss": 0.6583,
      "step": 2027
    },
    {
      "epoch": 2.2276534395166827,
      "grad_norm": 0.44519639015197754,
      "learning_rate": 8.57142857142857e-05,
      "loss": 0.7322,
      "step": 2028
    },
    {
      "epoch": 2.228751887958259,
      "grad_norm": 0.4888206422328949,
      "learning_rate": 8.55921855921856e-05,
      "loss": 0.6645,
      "step": 2029
    },
    {
      "epoch": 2.2298503363998354,
      "grad_norm": 0.598225474357605,
      "learning_rate": 8.547008547008547e-05,
      "loss": 0.7903,
      "step": 2030
    },
    {
      "epoch": 2.2309487848414116,
      "grad_norm": 0.8521910905838013,
      "learning_rate": 8.534798534798534e-05,
      "loss": 0.8573,
      "step": 2031
    },
    {
      "epoch": 2.2320472332829877,
      "grad_norm": 1.6346311569213867,
      "learning_rate": 8.522588522588523e-05,
      "loss": 0.5653,
      "step": 2032
    },
    {
      "epoch": 2.233145681724564,
      "grad_norm": 0.6574315428733826,
      "learning_rate": 8.51037851037851e-05,
      "loss": 0.5289,
      "step": 2033
    },
    {
      "epoch": 2.2342441301661404,
      "grad_norm": 0.3821216821670532,
      "learning_rate": 8.498168498168497e-05,
      "loss": 0.4627,
      "step": 2034
    },
    {
      "epoch": 2.2353425786077166,
      "grad_norm": 0.28965023159980774,
      "learning_rate": 8.485958485958484e-05,
      "loss": 0.3696,
      "step": 2035
    },
    {
      "epoch": 2.2364410270492927,
      "grad_norm": 0.8256242275238037,
      "learning_rate": 8.473748473748473e-05,
      "loss": 0.6305,
      "step": 2036
    },
    {
      "epoch": 2.2375394754908693,
      "grad_norm": 0.8374451398849487,
      "learning_rate": 8.46153846153846e-05,
      "loss": 0.5038,
      "step": 2037
    },
    {
      "epoch": 2.2386379239324454,
      "grad_norm": 0.5931464433670044,
      "learning_rate": 8.449328449328449e-05,
      "loss": 0.6928,
      "step": 2038
    },
    {
      "epoch": 2.2397363723740216,
      "grad_norm": 0.5120035409927368,
      "learning_rate": 8.437118437118437e-05,
      "loss": 0.6004,
      "step": 2039
    },
    {
      "epoch": 2.240834820815598,
      "grad_norm": 0.6345282196998596,
      "learning_rate": 8.424908424908424e-05,
      "loss": 0.866,
      "step": 2040
    },
    {
      "epoch": 2.2419332692571743,
      "grad_norm": 0.5632284283638,
      "learning_rate": 8.412698412698412e-05,
      "loss": 0.406,
      "step": 2041
    },
    {
      "epoch": 2.2430317176987504,
      "grad_norm": 0.4784685969352722,
      "learning_rate": 8.4004884004884e-05,
      "loss": 0.4732,
      "step": 2042
    },
    {
      "epoch": 2.2441301661403266,
      "grad_norm": 0.47678086161613464,
      "learning_rate": 8.388278388278387e-05,
      "loss": 0.502,
      "step": 2043
    },
    {
      "epoch": 2.245228614581903,
      "grad_norm": 0.6543307304382324,
      "learning_rate": 8.376068376068374e-05,
      "loss": 0.7183,
      "step": 2044
    },
    {
      "epoch": 2.2463270630234793,
      "grad_norm": 0.6147063374519348,
      "learning_rate": 8.363858363858364e-05,
      "loss": 0.618,
      "step": 2045
    },
    {
      "epoch": 2.2474255114650554,
      "grad_norm": 0.5867168307304382,
      "learning_rate": 8.351648351648352e-05,
      "loss": 0.7749,
      "step": 2046
    },
    {
      "epoch": 2.248523959906632,
      "grad_norm": 1.164838433265686,
      "learning_rate": 8.339438339438339e-05,
      "loss": 0.6261,
      "step": 2047
    },
    {
      "epoch": 2.249622408348208,
      "grad_norm": 0.6695102453231812,
      "learning_rate": 8.327228327228326e-05,
      "loss": 0.6172,
      "step": 2048
    },
    {
      "epoch": 2.2507208567897843,
      "grad_norm": 0.43873751163482666,
      "learning_rate": 8.315018315018315e-05,
      "loss": 0.7032,
      "step": 2049
    },
    {
      "epoch": 2.251819305231361,
      "grad_norm": 0.439897745847702,
      "learning_rate": 8.302808302808302e-05,
      "loss": 0.7744,
      "step": 2050
    },
    {
      "epoch": 2.252917753672937,
      "grad_norm": 0.6671053767204285,
      "learning_rate": 8.290598290598289e-05,
      "loss": 0.6877,
      "step": 2051
    },
    {
      "epoch": 2.254016202114513,
      "grad_norm": 0.37354105710983276,
      "learning_rate": 8.278388278388279e-05,
      "loss": 0.5653,
      "step": 2052
    },
    {
      "epoch": 2.2551146505560897,
      "grad_norm": 0.5615684390068054,
      "learning_rate": 8.266178266178266e-05,
      "loss": 0.5961,
      "step": 2053
    },
    {
      "epoch": 2.256213098997666,
      "grad_norm": 2.0932323932647705,
      "learning_rate": 8.253968253968253e-05,
      "loss": 0.6139,
      "step": 2054
    },
    {
      "epoch": 2.257311547439242,
      "grad_norm": 0.5486952066421509,
      "learning_rate": 8.241758241758242e-05,
      "loss": 0.7816,
      "step": 2055
    },
    {
      "epoch": 2.258409995880818,
      "grad_norm": 0.7377699017524719,
      "learning_rate": 8.229548229548229e-05,
      "loss": 0.5036,
      "step": 2056
    },
    {
      "epoch": 2.2595084443223947,
      "grad_norm": 0.7057545781135559,
      "learning_rate": 8.217338217338216e-05,
      "loss": 0.5788,
      "step": 2057
    },
    {
      "epoch": 2.260606892763971,
      "grad_norm": 0.5388674736022949,
      "learning_rate": 8.205128205128205e-05,
      "loss": 0.7079,
      "step": 2058
    },
    {
      "epoch": 2.261705341205547,
      "grad_norm": 0.620943546295166,
      "learning_rate": 8.192918192918192e-05,
      "loss": 0.6223,
      "step": 2059
    },
    {
      "epoch": 2.2628037896471236,
      "grad_norm": 0.6159489154815674,
      "learning_rate": 8.18070818070818e-05,
      "loss": 0.7277,
      "step": 2060
    },
    {
      "epoch": 2.2639022380886997,
      "grad_norm": 0.5745131373405457,
      "learning_rate": 8.168498168498168e-05,
      "loss": 0.6356,
      "step": 2061
    },
    {
      "epoch": 2.265000686530276,
      "grad_norm": 0.4925720989704132,
      "learning_rate": 8.156288156288156e-05,
      "loss": 0.6342,
      "step": 2062
    },
    {
      "epoch": 2.2660991349718524,
      "grad_norm": 0.410692036151886,
      "learning_rate": 8.144078144078143e-05,
      "loss": 0.5903,
      "step": 2063
    },
    {
      "epoch": 2.2671975834134286,
      "grad_norm": 0.8246005177497864,
      "learning_rate": 8.13186813186813e-05,
      "loss": 0.4048,
      "step": 2064
    },
    {
      "epoch": 2.2682960318550047,
      "grad_norm": 0.5054492950439453,
      "learning_rate": 8.119658119658119e-05,
      "loss": 0.5797,
      "step": 2065
    },
    {
      "epoch": 2.2693944802965813,
      "grad_norm": 0.6249692440032959,
      "learning_rate": 8.107448107448106e-05,
      "loss": 0.5434,
      "step": 2066
    },
    {
      "epoch": 2.2704929287381574,
      "grad_norm": 0.5582659244537354,
      "learning_rate": 8.095238095238093e-05,
      "loss": 0.5925,
      "step": 2067
    },
    {
      "epoch": 2.2715913771797336,
      "grad_norm": 0.38472238183021545,
      "learning_rate": 8.083028083028083e-05,
      "loss": 0.7325,
      "step": 2068
    },
    {
      "epoch": 2.2726898256213097,
      "grad_norm": 0.4649077355861664,
      "learning_rate": 8.07081807081807e-05,
      "loss": 0.6244,
      "step": 2069
    },
    {
      "epoch": 2.2737882740628863,
      "grad_norm": 0.38582849502563477,
      "learning_rate": 8.058608058608058e-05,
      "loss": 0.7696,
      "step": 2070
    },
    {
      "epoch": 2.2748867225044624,
      "grad_norm": 0.4612105190753937,
      "learning_rate": 8.046398046398045e-05,
      "loss": 0.6453,
      "step": 2071
    },
    {
      "epoch": 2.2759851709460386,
      "grad_norm": 0.6572852730751038,
      "learning_rate": 8.034188034188034e-05,
      "loss": 0.7417,
      "step": 2072
    },
    {
      "epoch": 2.277083619387615,
      "grad_norm": 0.6322109699249268,
      "learning_rate": 8.021978021978021e-05,
      "loss": 0.2827,
      "step": 2073
    },
    {
      "epoch": 2.2781820678291913,
      "grad_norm": 1.2452771663665771,
      "learning_rate": 8.009768009768008e-05,
      "loss": 0.7441,
      "step": 2074
    },
    {
      "epoch": 2.2792805162707674,
      "grad_norm": 0.32154834270477295,
      "learning_rate": 7.997557997557998e-05,
      "loss": 0.4606,
      "step": 2075
    },
    {
      "epoch": 2.2803789647123436,
      "grad_norm": 1.0170034170150757,
      "learning_rate": 7.985347985347985e-05,
      "loss": 0.7003,
      "step": 2076
    },
    {
      "epoch": 2.28147741315392,
      "grad_norm": 0.7780435085296631,
      "learning_rate": 7.973137973137972e-05,
      "loss": 0.5847,
      "step": 2077
    },
    {
      "epoch": 2.2825758615954963,
      "grad_norm": 0.6422854661941528,
      "learning_rate": 7.960927960927961e-05,
      "loss": 0.6278,
      "step": 2078
    },
    {
      "epoch": 2.2836743100370724,
      "grad_norm": 0.5440393090248108,
      "learning_rate": 7.948717948717948e-05,
      "loss": 0.6313,
      "step": 2079
    },
    {
      "epoch": 2.284772758478649,
      "grad_norm": 0.5774940848350525,
      "learning_rate": 7.936507936507935e-05,
      "loss": 0.7504,
      "step": 2080
    },
    {
      "epoch": 2.285871206920225,
      "grad_norm": 0.44180789589881897,
      "learning_rate": 7.924297924297924e-05,
      "loss": 0.5806,
      "step": 2081
    },
    {
      "epoch": 2.2869696553618013,
      "grad_norm": 0.8452728390693665,
      "learning_rate": 7.912087912087912e-05,
      "loss": 0.5753,
      "step": 2082
    },
    {
      "epoch": 2.288068103803378,
      "grad_norm": 0.40172943472862244,
      "learning_rate": 7.8998778998779e-05,
      "loss": 0.5565,
      "step": 2083
    },
    {
      "epoch": 2.289166552244954,
      "grad_norm": 0.3919180929660797,
      "learning_rate": 7.887667887667887e-05,
      "loss": 0.4951,
      "step": 2084
    },
    {
      "epoch": 2.29026500068653,
      "grad_norm": 1.0796260833740234,
      "learning_rate": 7.875457875457875e-05,
      "loss": 0.733,
      "step": 2085
    },
    {
      "epoch": 2.2913634491281067,
      "grad_norm": 0.5640047788619995,
      "learning_rate": 7.863247863247862e-05,
      "loss": 0.4625,
      "step": 2086
    },
    {
      "epoch": 2.292461897569683,
      "grad_norm": 0.8736083507537842,
      "learning_rate": 7.85103785103785e-05,
      "loss": 0.5532,
      "step": 2087
    },
    {
      "epoch": 2.293560346011259,
      "grad_norm": 0.5358221530914307,
      "learning_rate": 7.838827838827838e-05,
      "loss": 0.6397,
      "step": 2088
    },
    {
      "epoch": 2.294658794452835,
      "grad_norm": 5.207391262054443,
      "learning_rate": 7.826617826617825e-05,
      "loss": 0.6402,
      "step": 2089
    },
    {
      "epoch": 2.2957572428944117,
      "grad_norm": 0.4122523069381714,
      "learning_rate": 7.814407814407813e-05,
      "loss": 0.474,
      "step": 2090
    },
    {
      "epoch": 2.296855691335988,
      "grad_norm": 2.8296186923980713,
      "learning_rate": 7.802197802197802e-05,
      "loss": 0.5197,
      "step": 2091
    },
    {
      "epoch": 2.297954139777564,
      "grad_norm": 0.6898410320281982,
      "learning_rate": 7.78998778998779e-05,
      "loss": 0.782,
      "step": 2092
    },
    {
      "epoch": 2.2990525882191406,
      "grad_norm": 0.37363025546073914,
      "learning_rate": 7.777777777777777e-05,
      "loss": 0.5824,
      "step": 2093
    },
    {
      "epoch": 2.3001510366607167,
      "grad_norm": 0.5120764374732971,
      "learning_rate": 7.765567765567765e-05,
      "loss": 0.7326,
      "step": 2094
    },
    {
      "epoch": 2.301249485102293,
      "grad_norm": 0.6517985463142395,
      "learning_rate": 7.753357753357753e-05,
      "loss": 0.6274,
      "step": 2095
    },
    {
      "epoch": 2.3023479335438695,
      "grad_norm": 0.8033846020698547,
      "learning_rate": 7.74114774114774e-05,
      "loss": 0.7093,
      "step": 2096
    },
    {
      "epoch": 2.3034463819854456,
      "grad_norm": 0.896397590637207,
      "learning_rate": 7.728937728937727e-05,
      "loss": 0.6685,
      "step": 2097
    },
    {
      "epoch": 2.3045448304270217,
      "grad_norm": 0.4606597423553467,
      "learning_rate": 7.716727716727717e-05,
      "loss": 0.5821,
      "step": 2098
    },
    {
      "epoch": 2.3056432788685983,
      "grad_norm": 0.9286845922470093,
      "learning_rate": 7.704517704517704e-05,
      "loss": 0.7537,
      "step": 2099
    },
    {
      "epoch": 2.3067417273101745,
      "grad_norm": 0.6514043211936951,
      "learning_rate": 7.692307692307691e-05,
      "loss": 0.5644,
      "step": 2100
    },
    {
      "epoch": 2.3078401757517506,
      "grad_norm": 0.4881083369255066,
      "learning_rate": 7.68009768009768e-05,
      "loss": 0.5348,
      "step": 2101
    },
    {
      "epoch": 2.3089386241933267,
      "grad_norm": 2.688716173171997,
      "learning_rate": 7.667887667887667e-05,
      "loss": 0.6732,
      "step": 2102
    },
    {
      "epoch": 2.3100370726349033,
      "grad_norm": 0.4597708582878113,
      "learning_rate": 7.655677655677654e-05,
      "loss": 0.6166,
      "step": 2103
    },
    {
      "epoch": 2.3111355210764795,
      "grad_norm": 0.7629315853118896,
      "learning_rate": 7.643467643467644e-05,
      "loss": 0.4677,
      "step": 2104
    },
    {
      "epoch": 2.3122339695180556,
      "grad_norm": 0.7282788753509521,
      "learning_rate": 7.631257631257631e-05,
      "loss": 0.6841,
      "step": 2105
    },
    {
      "epoch": 2.313332417959632,
      "grad_norm": 0.5421862006187439,
      "learning_rate": 7.619047619047618e-05,
      "loss": 0.7274,
      "step": 2106
    },
    {
      "epoch": 2.3144308664012083,
      "grad_norm": 0.7396867871284485,
      "learning_rate": 7.606837606837607e-05,
      "loss": 0.6546,
      "step": 2107
    },
    {
      "epoch": 2.3155293148427845,
      "grad_norm": 0.34731313586235046,
      "learning_rate": 7.594627594627594e-05,
      "loss": 0.72,
      "step": 2108
    },
    {
      "epoch": 2.3166277632843606,
      "grad_norm": 1.1024978160858154,
      "learning_rate": 7.582417582417581e-05,
      "loss": 0.7304,
      "step": 2109
    },
    {
      "epoch": 2.317726211725937,
      "grad_norm": 0.5866183638572693,
      "learning_rate": 7.570207570207569e-05,
      "loss": 0.4912,
      "step": 2110
    },
    {
      "epoch": 2.3188246601675133,
      "grad_norm": 0.8068836331367493,
      "learning_rate": 7.557997557997557e-05,
      "loss": 0.5342,
      "step": 2111
    },
    {
      "epoch": 2.31992310860909,
      "grad_norm": 0.6417646408081055,
      "learning_rate": 7.545787545787544e-05,
      "loss": 0.7642,
      "step": 2112
    },
    {
      "epoch": 2.321021557050666,
      "grad_norm": 0.4545808434486389,
      "learning_rate": 7.533577533577533e-05,
      "loss": 0.5681,
      "step": 2113
    },
    {
      "epoch": 2.322120005492242,
      "grad_norm": 0.3567211329936981,
      "learning_rate": 7.521367521367521e-05,
      "loss": 0.6368,
      "step": 2114
    },
    {
      "epoch": 2.3232184539338183,
      "grad_norm": 0.5747010707855225,
      "learning_rate": 7.509157509157509e-05,
      "loss": 0.5848,
      "step": 2115
    },
    {
      "epoch": 2.324316902375395,
      "grad_norm": 0.46303555369377136,
      "learning_rate": 7.496947496947497e-05,
      "loss": 0.6577,
      "step": 2116
    },
    {
      "epoch": 2.325415350816971,
      "grad_norm": 0.5343080759048462,
      "learning_rate": 7.484737484737484e-05,
      "loss": 0.8531,
      "step": 2117
    },
    {
      "epoch": 2.326513799258547,
      "grad_norm": 0.9027140736579895,
      "learning_rate": 7.472527472527472e-05,
      "loss": 0.6271,
      "step": 2118
    },
    {
      "epoch": 2.3276122477001238,
      "grad_norm": 0.6390063166618347,
      "learning_rate": 7.460317460317459e-05,
      "loss": 0.5669,
      "step": 2119
    },
    {
      "epoch": 2.3287106961417,
      "grad_norm": 0.4965013563632965,
      "learning_rate": 7.448107448107447e-05,
      "loss": 0.6362,
      "step": 2120
    },
    {
      "epoch": 2.329809144583276,
      "grad_norm": 0.49252766370773315,
      "learning_rate": 7.435897435897436e-05,
      "loss": 0.6703,
      "step": 2121
    },
    {
      "epoch": 2.330907593024852,
      "grad_norm": 0.7043023705482483,
      "learning_rate": 7.423687423687423e-05,
      "loss": 0.7114,
      "step": 2122
    },
    {
      "epoch": 2.3320060414664288,
      "grad_norm": 0.4373185634613037,
      "learning_rate": 7.41147741147741e-05,
      "loss": 0.5656,
      "step": 2123
    },
    {
      "epoch": 2.333104489908005,
      "grad_norm": 1.0036537647247314,
      "learning_rate": 7.399267399267399e-05,
      "loss": 0.6652,
      "step": 2124
    },
    {
      "epoch": 2.334202938349581,
      "grad_norm": 2.06589937210083,
      "learning_rate": 7.387057387057386e-05,
      "loss": 0.6502,
      "step": 2125
    },
    {
      "epoch": 2.3353013867911576,
      "grad_norm": 1.1616554260253906,
      "learning_rate": 7.374847374847375e-05,
      "loss": 0.7288,
      "step": 2126
    },
    {
      "epoch": 2.3363998352327338,
      "grad_norm": 0.4532950520515442,
      "learning_rate": 7.362637362637362e-05,
      "loss": 0.7696,
      "step": 2127
    },
    {
      "epoch": 2.33749828367431,
      "grad_norm": 1.0143449306488037,
      "learning_rate": 7.35042735042735e-05,
      "loss": 1.0185,
      "step": 2128
    },
    {
      "epoch": 2.3385967321158865,
      "grad_norm": 2.2059850692749023,
      "learning_rate": 7.338217338217337e-05,
      "loss": 0.6267,
      "step": 2129
    },
    {
      "epoch": 2.3396951805574626,
      "grad_norm": 0.4883456826210022,
      "learning_rate": 7.326007326007325e-05,
      "loss": 0.6081,
      "step": 2130
    },
    {
      "epoch": 2.3407936289990388,
      "grad_norm": 0.42373138666152954,
      "learning_rate": 7.313797313797313e-05,
      "loss": 0.6204,
      "step": 2131
    },
    {
      "epoch": 2.3418920774406153,
      "grad_norm": 0.43958979845046997,
      "learning_rate": 7.3015873015873e-05,
      "loss": 0.7608,
      "step": 2132
    },
    {
      "epoch": 2.3429905258821915,
      "grad_norm": 0.4493010342121124,
      "learning_rate": 7.289377289377289e-05,
      "loss": 0.5985,
      "step": 2133
    },
    {
      "epoch": 2.3440889743237676,
      "grad_norm": 0.38533085584640503,
      "learning_rate": 7.277167277167276e-05,
      "loss": 0.445,
      "step": 2134
    },
    {
      "epoch": 2.3451874227653438,
      "grad_norm": 0.37900710105895996,
      "learning_rate": 7.264957264957265e-05,
      "loss": 0.8466,
      "step": 2135
    },
    {
      "epoch": 2.3462858712069203,
      "grad_norm": 1.7598285675048828,
      "learning_rate": 7.252747252747252e-05,
      "loss": 0.6881,
      "step": 2136
    },
    {
      "epoch": 2.3473843196484965,
      "grad_norm": 0.5551338791847229,
      "learning_rate": 7.24053724053724e-05,
      "loss": 0.5908,
      "step": 2137
    },
    {
      "epoch": 2.3484827680900726,
      "grad_norm": 0.42995861172676086,
      "learning_rate": 7.228327228327228e-05,
      "loss": 0.689,
      "step": 2138
    },
    {
      "epoch": 2.349581216531649,
      "grad_norm": 0.6428760290145874,
      "learning_rate": 7.216117216117216e-05,
      "loss": 0.5879,
      "step": 2139
    },
    {
      "epoch": 2.3506796649732253,
      "grad_norm": 0.6199445724487305,
      "learning_rate": 7.203907203907203e-05,
      "loss": 0.5275,
      "step": 2140
    },
    {
      "epoch": 2.3517781134148015,
      "grad_norm": 0.4687311053276062,
      "learning_rate": 7.19169719169719e-05,
      "loss": 0.7046,
      "step": 2141
    },
    {
      "epoch": 2.352876561856378,
      "grad_norm": 0.47645121812820435,
      "learning_rate": 7.179487179487179e-05,
      "loss": 0.4787,
      "step": 2142
    },
    {
      "epoch": 2.353975010297954,
      "grad_norm": 1.3774843215942383,
      "learning_rate": 7.167277167277166e-05,
      "loss": 0.565,
      "step": 2143
    },
    {
      "epoch": 2.3550734587395303,
      "grad_norm": 0.9585548043251038,
      "learning_rate": 7.155067155067155e-05,
      "loss": 0.7496,
      "step": 2144
    },
    {
      "epoch": 2.356171907181107,
      "grad_norm": 0.9073938131332397,
      "learning_rate": 7.142857142857142e-05,
      "loss": 0.6785,
      "step": 2145
    },
    {
      "epoch": 2.357270355622683,
      "grad_norm": 1.4543087482452393,
      "learning_rate": 7.13064713064713e-05,
      "loss": 0.4827,
      "step": 2146
    },
    {
      "epoch": 2.358368804064259,
      "grad_norm": 0.49685895442962646,
      "learning_rate": 7.118437118437118e-05,
      "loss": 0.5624,
      "step": 2147
    },
    {
      "epoch": 2.3594672525058353,
      "grad_norm": 0.3820716142654419,
      "learning_rate": 7.106227106227105e-05,
      "loss": 0.5326,
      "step": 2148
    },
    {
      "epoch": 2.360565700947412,
      "grad_norm": 0.6018278002738953,
      "learning_rate": 7.094017094017094e-05,
      "loss": 0.7372,
      "step": 2149
    },
    {
      "epoch": 2.361664149388988,
      "grad_norm": 0.49245381355285645,
      "learning_rate": 7.081807081807082e-05,
      "loss": 0.714,
      "step": 2150
    },
    {
      "epoch": 2.362762597830564,
      "grad_norm": 0.5913417339324951,
      "learning_rate": 7.069597069597069e-05,
      "loss": 0.6395,
      "step": 2151
    },
    {
      "epoch": 2.3638610462721408,
      "grad_norm": 0.3142958879470825,
      "learning_rate": 7.057387057387056e-05,
      "loss": 0.4363,
      "step": 2152
    },
    {
      "epoch": 2.364959494713717,
      "grad_norm": 0.44251006841659546,
      "learning_rate": 7.045177045177044e-05,
      "loss": 0.5751,
      "step": 2153
    },
    {
      "epoch": 2.366057943155293,
      "grad_norm": 0.7642143964767456,
      "learning_rate": 7.032967032967032e-05,
      "loss": 0.9707,
      "step": 2154
    },
    {
      "epoch": 2.367156391596869,
      "grad_norm": 0.3676380217075348,
      "learning_rate": 7.020757020757021e-05,
      "loss": 0.6142,
      "step": 2155
    },
    {
      "epoch": 2.3682548400384458,
      "grad_norm": 0.43112027645111084,
      "learning_rate": 7.008547008547008e-05,
      "loss": 0.6194,
      "step": 2156
    },
    {
      "epoch": 2.369353288480022,
      "grad_norm": 0.5463792681694031,
      "learning_rate": 6.996336996336996e-05,
      "loss": 0.5478,
      "step": 2157
    },
    {
      "epoch": 2.370451736921598,
      "grad_norm": 0.5498053431510925,
      "learning_rate": 6.984126984126984e-05,
      "loss": 0.8373,
      "step": 2158
    },
    {
      "epoch": 2.3715501853631746,
      "grad_norm": 0.5144299268722534,
      "learning_rate": 6.971916971916971e-05,
      "loss": 0.7033,
      "step": 2159
    },
    {
      "epoch": 2.3726486338047508,
      "grad_norm": 0.4049033522605896,
      "learning_rate": 6.95970695970696e-05,
      "loss": 0.6257,
      "step": 2160
    },
    {
      "epoch": 2.373747082246327,
      "grad_norm": 0.8007866740226746,
      "learning_rate": 6.947496947496947e-05,
      "loss": 1.1859,
      "step": 2161
    },
    {
      "epoch": 2.3748455306879035,
      "grad_norm": 0.6302816867828369,
      "learning_rate": 6.935286935286935e-05,
      "loss": 0.4972,
      "step": 2162
    },
    {
      "epoch": 2.3759439791294796,
      "grad_norm": 0.4181542694568634,
      "learning_rate": 6.923076923076922e-05,
      "loss": 0.5543,
      "step": 2163
    },
    {
      "epoch": 2.3770424275710558,
      "grad_norm": 0.45409703254699707,
      "learning_rate": 6.91086691086691e-05,
      "loss": 0.6237,
      "step": 2164
    },
    {
      "epoch": 2.3781408760126324,
      "grad_norm": 0.5172666907310486,
      "learning_rate": 6.898656898656898e-05,
      "loss": 0.5798,
      "step": 2165
    },
    {
      "epoch": 2.3792393244542085,
      "grad_norm": 0.7849127054214478,
      "learning_rate": 6.886446886446885e-05,
      "loss": 0.8282,
      "step": 2166
    },
    {
      "epoch": 2.3803377728957846,
      "grad_norm": 0.4041041135787964,
      "learning_rate": 6.874236874236874e-05,
      "loss": 0.5046,
      "step": 2167
    },
    {
      "epoch": 2.3814362213373608,
      "grad_norm": 0.35880064964294434,
      "learning_rate": 6.862026862026862e-05,
      "loss": 0.4096,
      "step": 2168
    },
    {
      "epoch": 2.3825346697789374,
      "grad_norm": 0.5949457883834839,
      "learning_rate": 6.84981684981685e-05,
      "loss": 0.6666,
      "step": 2169
    },
    {
      "epoch": 2.3836331182205135,
      "grad_norm": 0.6332186460494995,
      "learning_rate": 6.837606837606837e-05,
      "loss": 0.9715,
      "step": 2170
    },
    {
      "epoch": 2.3847315666620896,
      "grad_norm": 0.3173432946205139,
      "learning_rate": 6.825396825396824e-05,
      "loss": 0.6792,
      "step": 2171
    },
    {
      "epoch": 2.385830015103666,
      "grad_norm": 0.7556782364845276,
      "learning_rate": 6.813186813186813e-05,
      "loss": 0.7267,
      "step": 2172
    },
    {
      "epoch": 2.3869284635452424,
      "grad_norm": 0.43191683292388916,
      "learning_rate": 6.800976800976801e-05,
      "loss": 0.5841,
      "step": 2173
    },
    {
      "epoch": 2.3880269119868185,
      "grad_norm": 0.4010660946369171,
      "learning_rate": 6.788766788766788e-05,
      "loss": 0.7491,
      "step": 2174
    },
    {
      "epoch": 2.389125360428395,
      "grad_norm": 0.6889204382896423,
      "learning_rate": 6.776556776556775e-05,
      "loss": 0.4539,
      "step": 2175
    },
    {
      "epoch": 2.390223808869971,
      "grad_norm": 0.4509136974811554,
      "learning_rate": 6.764346764346764e-05,
      "loss": 0.7066,
      "step": 2176
    },
    {
      "epoch": 2.3913222573115474,
      "grad_norm": 0.4313298463821411,
      "learning_rate": 6.752136752136751e-05,
      "loss": 0.6292,
      "step": 2177
    },
    {
      "epoch": 2.392420705753124,
      "grad_norm": 0.7713265419006348,
      "learning_rate": 6.73992673992674e-05,
      "loss": 0.8392,
      "step": 2178
    },
    {
      "epoch": 2.3935191541947,
      "grad_norm": 0.5283428430557251,
      "learning_rate": 6.727716727716727e-05,
      "loss": 0.6912,
      "step": 2179
    },
    {
      "epoch": 2.394617602636276,
      "grad_norm": 0.40429314970970154,
      "learning_rate": 6.715506715506716e-05,
      "loss": 0.4335,
      "step": 2180
    },
    {
      "epoch": 2.3957160510778523,
      "grad_norm": 0.6888754367828369,
      "learning_rate": 6.703296703296703e-05,
      "loss": 0.6276,
      "step": 2181
    },
    {
      "epoch": 2.396814499519429,
      "grad_norm": 0.5595026612281799,
      "learning_rate": 6.69108669108669e-05,
      "loss": 0.7806,
      "step": 2182
    },
    {
      "epoch": 2.397912947961005,
      "grad_norm": 0.32394587993621826,
      "learning_rate": 6.678876678876678e-05,
      "loss": 0.5531,
      "step": 2183
    },
    {
      "epoch": 2.399011396402581,
      "grad_norm": 0.5909039974212646,
      "learning_rate": 6.666666666666666e-05,
      "loss": 0.4932,
      "step": 2184
    },
    {
      "epoch": 2.400109844844158,
      "grad_norm": 0.4148501455783844,
      "learning_rate": 6.654456654456654e-05,
      "loss": 0.5637,
      "step": 2185
    },
    {
      "epoch": 2.401208293285734,
      "grad_norm": 0.558403491973877,
      "learning_rate": 6.642246642246641e-05,
      "loss": 0.5733,
      "step": 2186
    },
    {
      "epoch": 2.40230674172731,
      "grad_norm": 0.5171149373054504,
      "learning_rate": 6.630036630036629e-05,
      "loss": 0.6931,
      "step": 2187
    },
    {
      "epoch": 2.403405190168886,
      "grad_norm": 0.44966164231300354,
      "learning_rate": 6.617826617826617e-05,
      "loss": 0.5061,
      "step": 2188
    },
    {
      "epoch": 2.404503638610463,
      "grad_norm": 0.45499417185783386,
      "learning_rate": 6.605616605616606e-05,
      "loss": 0.3726,
      "step": 2189
    },
    {
      "epoch": 2.405602087052039,
      "grad_norm": 0.5790139436721802,
      "learning_rate": 6.593406593406593e-05,
      "loss": 0.6647,
      "step": 2190
    },
    {
      "epoch": 2.4067005354936155,
      "grad_norm": 0.5948793292045593,
      "learning_rate": 6.581196581196581e-05,
      "loss": 0.765,
      "step": 2191
    },
    {
      "epoch": 2.4077989839351917,
      "grad_norm": 0.5925643444061279,
      "learning_rate": 6.568986568986569e-05,
      "loss": 0.889,
      "step": 2192
    },
    {
      "epoch": 2.408897432376768,
      "grad_norm": 0.5776219964027405,
      "learning_rate": 6.556776556776556e-05,
      "loss": 0.5506,
      "step": 2193
    },
    {
      "epoch": 2.409995880818344,
      "grad_norm": 0.44397997856140137,
      "learning_rate": 6.544566544566544e-05,
      "loss": 0.5372,
      "step": 2194
    },
    {
      "epoch": 2.4110943292599205,
      "grad_norm": 0.45733606815338135,
      "learning_rate": 6.532356532356532e-05,
      "loss": 0.7207,
      "step": 2195
    },
    {
      "epoch": 2.4121927777014966,
      "grad_norm": 0.38223645091056824,
      "learning_rate": 6.52014652014652e-05,
      "loss": 0.5888,
      "step": 2196
    },
    {
      "epoch": 2.413291226143073,
      "grad_norm": 0.3642580211162567,
      "learning_rate": 6.507936507936507e-05,
      "loss": 0.5687,
      "step": 2197
    },
    {
      "epoch": 2.4143896745846494,
      "grad_norm": 0.42435723543167114,
      "learning_rate": 6.495726495726494e-05,
      "loss": 0.6056,
      "step": 2198
    },
    {
      "epoch": 2.4154881230262255,
      "grad_norm": 0.4998740255832672,
      "learning_rate": 6.483516483516483e-05,
      "loss": 0.6813,
      "step": 2199
    },
    {
      "epoch": 2.4165865714678016,
      "grad_norm": 0.47158849239349365,
      "learning_rate": 6.47130647130647e-05,
      "loss": 0.5585,
      "step": 2200
    },
    {
      "epoch": 2.417685019909378,
      "grad_norm": 0.4780612289905548,
      "learning_rate": 6.459096459096459e-05,
      "loss": 0.4941,
      "step": 2201
    },
    {
      "epoch": 2.4187834683509544,
      "grad_norm": 0.5073630809783936,
      "learning_rate": 6.446886446886447e-05,
      "loss": 0.4549,
      "step": 2202
    },
    {
      "epoch": 2.4198819167925305,
      "grad_norm": 0.4311310052871704,
      "learning_rate": 6.434676434676435e-05,
      "loss": 0.4419,
      "step": 2203
    },
    {
      "epoch": 2.4209803652341066,
      "grad_norm": 0.3557896316051483,
      "learning_rate": 6.422466422466422e-05,
      "loss": 0.6973,
      "step": 2204
    },
    {
      "epoch": 2.4220788136756832,
      "grad_norm": 0.6171516180038452,
      "learning_rate": 6.410256410256409e-05,
      "loss": 0.7554,
      "step": 2205
    },
    {
      "epoch": 2.4231772621172594,
      "grad_norm": 0.4687957465648651,
      "learning_rate": 6.398046398046397e-05,
      "loss": 0.7429,
      "step": 2206
    },
    {
      "epoch": 2.4242757105588355,
      "grad_norm": 0.8685696125030518,
      "learning_rate": 6.385836385836386e-05,
      "loss": 0.5896,
      "step": 2207
    },
    {
      "epoch": 2.425374159000412,
      "grad_norm": 0.39599040150642395,
      "learning_rate": 6.373626373626373e-05,
      "loss": 0.4744,
      "step": 2208
    },
    {
      "epoch": 2.4264726074419882,
      "grad_norm": 0.9079630970954895,
      "learning_rate": 6.36141636141636e-05,
      "loss": 0.6067,
      "step": 2209
    },
    {
      "epoch": 2.4275710558835644,
      "grad_norm": 0.5051462054252625,
      "learning_rate": 6.349206349206349e-05,
      "loss": 0.7314,
      "step": 2210
    },
    {
      "epoch": 2.428669504325141,
      "grad_norm": 0.4899844825267792,
      "learning_rate": 6.336996336996336e-05,
      "loss": 0.7086,
      "step": 2211
    },
    {
      "epoch": 2.429767952766717,
      "grad_norm": 0.5135432481765747,
      "learning_rate": 6.324786324786325e-05,
      "loss": 0.5261,
      "step": 2212
    },
    {
      "epoch": 2.4308664012082932,
      "grad_norm": 0.6025048494338989,
      "learning_rate": 6.312576312576312e-05,
      "loss": 0.5276,
      "step": 2213
    },
    {
      "epoch": 2.4319648496498694,
      "grad_norm": 0.6931442022323608,
      "learning_rate": 6.3003663003663e-05,
      "loss": 0.6535,
      "step": 2214
    },
    {
      "epoch": 2.433063298091446,
      "grad_norm": 0.695106565952301,
      "learning_rate": 6.288156288156288e-05,
      "loss": 0.9183,
      "step": 2215
    },
    {
      "epoch": 2.434161746533022,
      "grad_norm": 0.450100302696228,
      "learning_rate": 6.275946275946275e-05,
      "loss": 0.5049,
      "step": 2216
    },
    {
      "epoch": 2.4352601949745982,
      "grad_norm": 0.5539785623550415,
      "learning_rate": 6.263736263736263e-05,
      "loss": 0.5735,
      "step": 2217
    },
    {
      "epoch": 2.436358643416175,
      "grad_norm": 0.5560977458953857,
      "learning_rate": 6.25152625152625e-05,
      "loss": 0.7364,
      "step": 2218
    },
    {
      "epoch": 2.437457091857751,
      "grad_norm": 0.740195095539093,
      "learning_rate": 6.239316239316239e-05,
      "loss": 0.7839,
      "step": 2219
    },
    {
      "epoch": 2.438555540299327,
      "grad_norm": 0.9324271082878113,
      "learning_rate": 6.227106227106226e-05,
      "loss": 0.6365,
      "step": 2220
    },
    {
      "epoch": 2.4396539887409037,
      "grad_norm": 0.5540104508399963,
      "learning_rate": 6.214896214896215e-05,
      "loss": 0.6586,
      "step": 2221
    },
    {
      "epoch": 2.44075243718248,
      "grad_norm": 0.5028054714202881,
      "learning_rate": 6.202686202686202e-05,
      "loss": 0.4422,
      "step": 2222
    },
    {
      "epoch": 2.441850885624056,
      "grad_norm": 0.7052125930786133,
      "learning_rate": 6.190476190476189e-05,
      "loss": 0.7248,
      "step": 2223
    },
    {
      "epoch": 2.4429493340656325,
      "grad_norm": 0.6705207824707031,
      "learning_rate": 6.178266178266178e-05,
      "loss": 0.81,
      "step": 2224
    },
    {
      "epoch": 2.4440477825072087,
      "grad_norm": 0.7996514439582825,
      "learning_rate": 6.166056166056166e-05,
      "loss": 0.382,
      "step": 2225
    },
    {
      "epoch": 2.445146230948785,
      "grad_norm": 1.5169689655303955,
      "learning_rate": 6.153846153846154e-05,
      "loss": 0.7373,
      "step": 2226
    },
    {
      "epoch": 2.446244679390361,
      "grad_norm": 0.8039339780807495,
      "learning_rate": 6.141636141636141e-05,
      "loss": 0.8609,
      "step": 2227
    },
    {
      "epoch": 2.4473431278319375,
      "grad_norm": 0.6489125490188599,
      "learning_rate": 6.129426129426128e-05,
      "loss": 0.6309,
      "step": 2228
    },
    {
      "epoch": 2.4484415762735137,
      "grad_norm": 0.533184826374054,
      "learning_rate": 6.117216117216116e-05,
      "loss": 0.5166,
      "step": 2229
    },
    {
      "epoch": 2.44954002471509,
      "grad_norm": 0.5699225068092346,
      "learning_rate": 6.105006105006105e-05,
      "loss": 0.7276,
      "step": 2230
    },
    {
      "epoch": 2.4506384731566664,
      "grad_norm": 0.5552012324333191,
      "learning_rate": 6.092796092796092e-05,
      "loss": 0.636,
      "step": 2231
    },
    {
      "epoch": 2.4517369215982425,
      "grad_norm": 0.4785599112510681,
      "learning_rate": 6.08058608058608e-05,
      "loss": 0.6362,
      "step": 2232
    },
    {
      "epoch": 2.4528353700398187,
      "grad_norm": 0.740872859954834,
      "learning_rate": 6.068376068376068e-05,
      "loss": 0.5603,
      "step": 2233
    },
    {
      "epoch": 2.453933818481395,
      "grad_norm": 0.5217441916465759,
      "learning_rate": 6.056166056166056e-05,
      "loss": 0.6306,
      "step": 2234
    },
    {
      "epoch": 2.4550322669229714,
      "grad_norm": 0.446481853723526,
      "learning_rate": 6.043956043956044e-05,
      "loss": 0.8156,
      "step": 2235
    },
    {
      "epoch": 2.4561307153645475,
      "grad_norm": 0.6527410745620728,
      "learning_rate": 6.031746031746031e-05,
      "loss": 0.7057,
      "step": 2236
    },
    {
      "epoch": 2.4572291638061237,
      "grad_norm": 0.6801958680152893,
      "learning_rate": 6.019536019536019e-05,
      "loss": 0.7718,
      "step": 2237
    },
    {
      "epoch": 2.4583276122477002,
      "grad_norm": 1.0723007917404175,
      "learning_rate": 6.007326007326007e-05,
      "loss": 0.5552,
      "step": 2238
    },
    {
      "epoch": 2.4594260606892764,
      "grad_norm": 0.4058208763599396,
      "learning_rate": 5.9951159951159945e-05,
      "loss": 0.5035,
      "step": 2239
    },
    {
      "epoch": 2.4605245091308525,
      "grad_norm": 0.5384330153465271,
      "learning_rate": 5.9829059829059824e-05,
      "loss": 0.5059,
      "step": 2240
    },
    {
      "epoch": 2.461622957572429,
      "grad_norm": 0.7797716856002808,
      "learning_rate": 5.9706959706959696e-05,
      "loss": 0.5613,
      "step": 2241
    },
    {
      "epoch": 2.4627214060140052,
      "grad_norm": 2.9689226150512695,
      "learning_rate": 5.958485958485958e-05,
      "loss": 0.6219,
      "step": 2242
    },
    {
      "epoch": 2.4638198544555814,
      "grad_norm": 0.47863152623176575,
      "learning_rate": 5.946275946275946e-05,
      "loss": 0.5498,
      "step": 2243
    },
    {
      "epoch": 2.464918302897158,
      "grad_norm": 0.49707144498825073,
      "learning_rate": 5.934065934065933e-05,
      "loss": 0.775,
      "step": 2244
    },
    {
      "epoch": 2.466016751338734,
      "grad_norm": 0.3437495529651642,
      "learning_rate": 5.921855921855922e-05,
      "loss": 0.4592,
      "step": 2245
    },
    {
      "epoch": 2.4671151997803102,
      "grad_norm": 0.7298309206962585,
      "learning_rate": 5.9096459096459096e-05,
      "loss": 0.5374,
      "step": 2246
    },
    {
      "epoch": 2.4682136482218864,
      "grad_norm": 0.6666691303253174,
      "learning_rate": 5.897435897435897e-05,
      "loss": 0.424,
      "step": 2247
    },
    {
      "epoch": 2.469312096663463,
      "grad_norm": 0.5841661691665649,
      "learning_rate": 5.8852258852258847e-05,
      "loss": 0.5316,
      "step": 2248
    },
    {
      "epoch": 2.470410545105039,
      "grad_norm": 0.4921081066131592,
      "learning_rate": 5.873015873015872e-05,
      "loss": 0.6901,
      "step": 2249
    },
    {
      "epoch": 2.4715089935466152,
      "grad_norm": 0.4779987633228302,
      "learning_rate": 5.8608058608058604e-05,
      "loss": 0.8976,
      "step": 2250
    },
    {
      "epoch": 2.472607441988192,
      "grad_norm": 0.43142780661582947,
      "learning_rate": 5.848595848595848e-05,
      "loss": 0.4915,
      "step": 2251
    },
    {
      "epoch": 2.473705890429768,
      "grad_norm": 1.132870078086853,
      "learning_rate": 5.8363858363858355e-05,
      "loss": 0.6633,
      "step": 2252
    },
    {
      "epoch": 2.474804338871344,
      "grad_norm": 0.5674893856048584,
      "learning_rate": 5.824175824175824e-05,
      "loss": 0.5023,
      "step": 2253
    },
    {
      "epoch": 2.4759027873129207,
      "grad_norm": 0.42495957016944885,
      "learning_rate": 5.811965811965811e-05,
      "loss": 0.6544,
      "step": 2254
    },
    {
      "epoch": 2.477001235754497,
      "grad_norm": 0.8031434416770935,
      "learning_rate": 5.799755799755799e-05,
      "loss": 0.892,
      "step": 2255
    },
    {
      "epoch": 2.478099684196073,
      "grad_norm": 0.7715115547180176,
      "learning_rate": 5.7875457875457876e-05,
      "loss": 0.5659,
      "step": 2256
    },
    {
      "epoch": 2.4791981326376495,
      "grad_norm": 0.6882114410400391,
      "learning_rate": 5.775335775335775e-05,
      "loss": 0.5154,
      "step": 2257
    },
    {
      "epoch": 2.4802965810792257,
      "grad_norm": 0.4994114935398102,
      "learning_rate": 5.763125763125763e-05,
      "loss": 0.6001,
      "step": 2258
    },
    {
      "epoch": 2.481395029520802,
      "grad_norm": 0.45008450746536255,
      "learning_rate": 5.7509157509157506e-05,
      "loss": 0.7076,
      "step": 2259
    },
    {
      "epoch": 2.482493477962378,
      "grad_norm": 0.654270350933075,
      "learning_rate": 5.738705738705738e-05,
      "loss": 0.5809,
      "step": 2260
    },
    {
      "epoch": 2.4835919264039545,
      "grad_norm": 0.6344896554946899,
      "learning_rate": 5.726495726495726e-05,
      "loss": 0.6059,
      "step": 2261
    },
    {
      "epoch": 2.4846903748455307,
      "grad_norm": 0.44090238213539124,
      "learning_rate": 5.7142857142857135e-05,
      "loss": 0.7953,
      "step": 2262
    },
    {
      "epoch": 2.485788823287107,
      "grad_norm": 0.47564128041267395,
      "learning_rate": 5.7020757020757014e-05,
      "loss": 0.5062,
      "step": 2263
    },
    {
      "epoch": 2.4868872717286834,
      "grad_norm": 0.3644583225250244,
      "learning_rate": 5.68986568986569e-05,
      "loss": 0.6417,
      "step": 2264
    },
    {
      "epoch": 2.4879857201702595,
      "grad_norm": 0.5264548659324646,
      "learning_rate": 5.677655677655677e-05,
      "loss": 0.5971,
      "step": 2265
    },
    {
      "epoch": 2.4890841686118357,
      "grad_norm": 0.7300589680671692,
      "learning_rate": 5.665445665445665e-05,
      "loss": 0.6249,
      "step": 2266
    },
    {
      "epoch": 2.490182617053412,
      "grad_norm": 0.9016311764717102,
      "learning_rate": 5.653235653235652e-05,
      "loss": 0.5761,
      "step": 2267
    },
    {
      "epoch": 2.4912810654949884,
      "grad_norm": 0.7480237483978271,
      "learning_rate": 5.641025641025641e-05,
      "loss": 0.4026,
      "step": 2268
    },
    {
      "epoch": 2.4923795139365645,
      "grad_norm": 0.5738864541053772,
      "learning_rate": 5.6288156288156286e-05,
      "loss": 0.8657,
      "step": 2269
    },
    {
      "epoch": 2.493477962378141,
      "grad_norm": 0.7320820093154907,
      "learning_rate": 5.616605616605616e-05,
      "loss": 0.7341,
      "step": 2270
    },
    {
      "epoch": 2.4945764108197173,
      "grad_norm": 0.7029497623443604,
      "learning_rate": 5.6043956043956037e-05,
      "loss": 0.7597,
      "step": 2271
    },
    {
      "epoch": 2.4956748592612934,
      "grad_norm": 0.5160001516342163,
      "learning_rate": 5.592185592185592e-05,
      "loss": 0.6488,
      "step": 2272
    },
    {
      "epoch": 2.4967733077028695,
      "grad_norm": 0.5425933003425598,
      "learning_rate": 5.5799755799755794e-05,
      "loss": 0.7102,
      "step": 2273
    },
    {
      "epoch": 2.497871756144446,
      "grad_norm": 0.5881295204162598,
      "learning_rate": 5.567765567765567e-05,
      "loss": 0.8123,
      "step": 2274
    },
    {
      "epoch": 2.4989702045860223,
      "grad_norm": 0.6021397113800049,
      "learning_rate": 5.5555555555555545e-05,
      "loss": 0.8887,
      "step": 2275
    },
    {
      "epoch": 2.5000686530275984,
      "grad_norm": 0.4754411578178406,
      "learning_rate": 5.543345543345543e-05,
      "loss": 0.8162,
      "step": 2276
    },
    {
      "epoch": 2.501167101469175,
      "grad_norm": 0.46976983547210693,
      "learning_rate": 5.531135531135531e-05,
      "loss": 0.4177,
      "step": 2277
    },
    {
      "epoch": 2.502265549910751,
      "grad_norm": 0.4946482181549072,
      "learning_rate": 5.518925518925518e-05,
      "loss": 0.6997,
      "step": 2278
    },
    {
      "epoch": 2.5033639983523273,
      "grad_norm": 0.49166280031204224,
      "learning_rate": 5.5067155067155066e-05,
      "loss": 0.6436,
      "step": 2279
    },
    {
      "epoch": 2.5044624467939034,
      "grad_norm": 0.40157628059387207,
      "learning_rate": 5.494505494505494e-05,
      "loss": 0.6998,
      "step": 2280
    },
    {
      "epoch": 2.50556089523548,
      "grad_norm": 0.4139937162399292,
      "learning_rate": 5.482295482295482e-05,
      "loss": 0.4021,
      "step": 2281
    },
    {
      "epoch": 2.506659343677056,
      "grad_norm": 3.6814892292022705,
      "learning_rate": 5.4700854700854696e-05,
      "loss": 0.6402,
      "step": 2282
    },
    {
      "epoch": 2.5077577921186327,
      "grad_norm": 0.3136257529258728,
      "learning_rate": 5.4578754578754574e-05,
      "loss": 0.5364,
      "step": 2283
    },
    {
      "epoch": 2.508856240560209,
      "grad_norm": 0.42901432514190674,
      "learning_rate": 5.445665445665445e-05,
      "loss": 0.6838,
      "step": 2284
    },
    {
      "epoch": 2.509954689001785,
      "grad_norm": 0.8462406992912292,
      "learning_rate": 5.433455433455433e-05,
      "loss": 0.4232,
      "step": 2285
    },
    {
      "epoch": 2.511053137443361,
      "grad_norm": 1.244150996208191,
      "learning_rate": 5.4212454212454204e-05,
      "loss": 0.6192,
      "step": 2286
    },
    {
      "epoch": 2.5121515858849373,
      "grad_norm": 0.834296703338623,
      "learning_rate": 5.409035409035409e-05,
      "loss": 0.548,
      "step": 2287
    },
    {
      "epoch": 2.513250034326514,
      "grad_norm": 0.4279276430606842,
      "learning_rate": 5.396825396825396e-05,
      "loss": 0.7549,
      "step": 2288
    },
    {
      "epoch": 2.51434848276809,
      "grad_norm": 0.5770757794380188,
      "learning_rate": 5.384615384615384e-05,
      "loss": 0.6156,
      "step": 2289
    },
    {
      "epoch": 2.5154469312096666,
      "grad_norm": 0.41763821244239807,
      "learning_rate": 5.3724053724053725e-05,
      "loss": 0.5019,
      "step": 2290
    },
    {
      "epoch": 2.5165453796512427,
      "grad_norm": 0.5212944746017456,
      "learning_rate": 5.36019536019536e-05,
      "loss": 0.6132,
      "step": 2291
    },
    {
      "epoch": 2.517643828092819,
      "grad_norm": 0.44493457674980164,
      "learning_rate": 5.3479853479853476e-05,
      "loss": 0.4162,
      "step": 2292
    },
    {
      "epoch": 2.518742276534395,
      "grad_norm": 0.46922022104263306,
      "learning_rate": 5.335775335775335e-05,
      "loss": 0.4624,
      "step": 2293
    },
    {
      "epoch": 2.5198407249759716,
      "grad_norm": 0.41906213760375977,
      "learning_rate": 5.3235653235653233e-05,
      "loss": 0.612,
      "step": 2294
    },
    {
      "epoch": 2.5209391734175477,
      "grad_norm": 0.620276153087616,
      "learning_rate": 5.311355311355311e-05,
      "loss": 0.6322,
      "step": 2295
    },
    {
      "epoch": 2.522037621859124,
      "grad_norm": 0.6597051620483398,
      "learning_rate": 5.2991452991452984e-05,
      "loss": 0.7659,
      "step": 2296
    },
    {
      "epoch": 2.5231360703007004,
      "grad_norm": 4.377660274505615,
      "learning_rate": 5.286935286935286e-05,
      "loss": 0.8294,
      "step": 2297
    },
    {
      "epoch": 2.5242345187422766,
      "grad_norm": 0.6086331009864807,
      "learning_rate": 5.274725274725275e-05,
      "loss": 0.5164,
      "step": 2298
    },
    {
      "epoch": 2.5253329671838527,
      "grad_norm": 0.5100352168083191,
      "learning_rate": 5.262515262515262e-05,
      "loss": 0.6319,
      "step": 2299
    },
    {
      "epoch": 2.526431415625429,
      "grad_norm": 0.6642487049102783,
      "learning_rate": 5.25030525030525e-05,
      "loss": 0.533,
      "step": 2300
    },
    {
      "epoch": 2.5275298640670054,
      "grad_norm": 0.5834927558898926,
      "learning_rate": 5.238095238095237e-05,
      "loss": 0.5669,
      "step": 2301
    },
    {
      "epoch": 2.5286283125085816,
      "grad_norm": 0.530815064907074,
      "learning_rate": 5.2258852258852256e-05,
      "loss": 0.6189,
      "step": 2302
    },
    {
      "epoch": 2.529726760950158,
      "grad_norm": 0.6275864243507385,
      "learning_rate": 5.2136752136752135e-05,
      "loss": 0.8403,
      "step": 2303
    },
    {
      "epoch": 2.5308252093917343,
      "grad_norm": 0.5878366827964783,
      "learning_rate": 5.201465201465201e-05,
      "loss": 0.6176,
      "step": 2304
    },
    {
      "epoch": 2.5319236578333104,
      "grad_norm": 0.37410980463027954,
      "learning_rate": 5.189255189255189e-05,
      "loss": 0.6337,
      "step": 2305
    },
    {
      "epoch": 2.5330221062748866,
      "grad_norm": 0.43912917375564575,
      "learning_rate": 5.1770451770451764e-05,
      "loss": 0.5348,
      "step": 2306
    },
    {
      "epoch": 2.534120554716463,
      "grad_norm": 1.4737471342086792,
      "learning_rate": 5.164835164835164e-05,
      "loss": 0.4862,
      "step": 2307
    },
    {
      "epoch": 2.5352190031580393,
      "grad_norm": 0.3978705108165741,
      "learning_rate": 5.152625152625152e-05,
      "loss": 0.7929,
      "step": 2308
    },
    {
      "epoch": 2.5363174515996154,
      "grad_norm": 0.3852058947086334,
      "learning_rate": 5.14041514041514e-05,
      "loss": 0.5895,
      "step": 2309
    },
    {
      "epoch": 2.537415900041192,
      "grad_norm": 17.968448638916016,
      "learning_rate": 5.128205128205128e-05,
      "loss": 0.4661,
      "step": 2310
    },
    {
      "epoch": 2.538514348482768,
      "grad_norm": 0.9369175434112549,
      "learning_rate": 5.115995115995115e-05,
      "loss": 0.5957,
      "step": 2311
    },
    {
      "epoch": 2.5396127969243443,
      "grad_norm": 0.612750768661499,
      "learning_rate": 5.103785103785103e-05,
      "loss": 0.6786,
      "step": 2312
    },
    {
      "epoch": 2.5407112453659204,
      "grad_norm": 0.588512659072876,
      "learning_rate": 5.0915750915750915e-05,
      "loss": 1.0482,
      "step": 2313
    },
    {
      "epoch": 2.541809693807497,
      "grad_norm": 0.4964143633842468,
      "learning_rate": 5.079365079365079e-05,
      "loss": 0.5673,
      "step": 2314
    },
    {
      "epoch": 2.542908142249073,
      "grad_norm": 0.5807982683181763,
      "learning_rate": 5.0671550671550666e-05,
      "loss": 0.5493,
      "step": 2315
    },
    {
      "epoch": 2.5440065906906497,
      "grad_norm": 0.5131386518478394,
      "learning_rate": 5.054945054945055e-05,
      "loss": 0.5947,
      "step": 2316
    },
    {
      "epoch": 2.545105039132226,
      "grad_norm": 0.4521124064922333,
      "learning_rate": 5.0427350427350424e-05,
      "loss": 0.5554,
      "step": 2317
    },
    {
      "epoch": 2.546203487573802,
      "grad_norm": 0.9441378712654114,
      "learning_rate": 5.03052503052503e-05,
      "loss": 0.6991,
      "step": 2318
    },
    {
      "epoch": 2.547301936015378,
      "grad_norm": 0.6353013515472412,
      "learning_rate": 5.0183150183150174e-05,
      "loss": 0.5308,
      "step": 2319
    },
    {
      "epoch": 2.5484003844569547,
      "grad_norm": 0.5940631628036499,
      "learning_rate": 5.006105006105006e-05,
      "loss": 0.6536,
      "step": 2320
    },
    {
      "epoch": 2.549498832898531,
      "grad_norm": 0.5457591414451599,
      "learning_rate": 4.993894993894994e-05,
      "loss": 0.6927,
      "step": 2321
    },
    {
      "epoch": 2.550597281340107,
      "grad_norm": 0.6265937685966492,
      "learning_rate": 4.981684981684981e-05,
      "loss": 0.6341,
      "step": 2322
    },
    {
      "epoch": 2.5516957297816836,
      "grad_norm": 0.5842925310134888,
      "learning_rate": 4.969474969474969e-05,
      "loss": 0.4583,
      "step": 2323
    },
    {
      "epoch": 2.5527941782232597,
      "grad_norm": 0.5363351106643677,
      "learning_rate": 4.957264957264956e-05,
      "loss": 0.6882,
      "step": 2324
    },
    {
      "epoch": 2.553892626664836,
      "grad_norm": 0.3677682876586914,
      "learning_rate": 4.9450549450549446e-05,
      "loss": 0.5671,
      "step": 2325
    },
    {
      "epoch": 2.554991075106412,
      "grad_norm": 1.222985863685608,
      "learning_rate": 4.9328449328449325e-05,
      "loss": 0.4936,
      "step": 2326
    },
    {
      "epoch": 2.5560895235479886,
      "grad_norm": 1.187898874282837,
      "learning_rate": 4.92063492063492e-05,
      "loss": 0.4893,
      "step": 2327
    },
    {
      "epoch": 2.5571879719895647,
      "grad_norm": 0.38843801617622375,
      "learning_rate": 4.908424908424908e-05,
      "loss": 0.6512,
      "step": 2328
    },
    {
      "epoch": 2.558286420431141,
      "grad_norm": 0.9550036191940308,
      "learning_rate": 4.896214896214896e-05,
      "loss": 0.6055,
      "step": 2329
    },
    {
      "epoch": 2.5593848688727174,
      "grad_norm": 0.80762779712677,
      "learning_rate": 4.884004884004883e-05,
      "loss": 0.8852,
      "step": 2330
    },
    {
      "epoch": 2.5604833173142936,
      "grad_norm": 0.7496643662452698,
      "learning_rate": 4.871794871794872e-05,
      "loss": 0.6535,
      "step": 2331
    },
    {
      "epoch": 2.5615817657558697,
      "grad_norm": 0.5532578825950623,
      "learning_rate": 4.859584859584859e-05,
      "loss": 0.6336,
      "step": 2332
    },
    {
      "epoch": 2.562680214197446,
      "grad_norm": 0.4058012366294861,
      "learning_rate": 4.847374847374847e-05,
      "loss": 0.6529,
      "step": 2333
    },
    {
      "epoch": 2.5637786626390224,
      "grad_norm": 3.1913115978240967,
      "learning_rate": 4.835164835164835e-05,
      "loss": 0.548,
      "step": 2334
    },
    {
      "epoch": 2.5648771110805986,
      "grad_norm": 0.47375988960266113,
      "learning_rate": 4.822954822954822e-05,
      "loss": 0.7567,
      "step": 2335
    },
    {
      "epoch": 2.565975559522175,
      "grad_norm": 0.5287726521492004,
      "learning_rate": 4.8107448107448106e-05,
      "loss": 0.6009,
      "step": 2336
    },
    {
      "epoch": 2.5670740079637513,
      "grad_norm": 0.43966931104660034,
      "learning_rate": 4.798534798534798e-05,
      "loss": 0.5538,
      "step": 2337
    },
    {
      "epoch": 2.5681724564053274,
      "grad_norm": 0.6683239340782166,
      "learning_rate": 4.7863247863247856e-05,
      "loss": 0.3999,
      "step": 2338
    },
    {
      "epoch": 2.5692709048469036,
      "grad_norm": 0.5260687470436096,
      "learning_rate": 4.774114774114774e-05,
      "loss": 0.7212,
      "step": 2339
    },
    {
      "epoch": 2.57036935328848,
      "grad_norm": 1.086850881576538,
      "learning_rate": 4.7619047619047614e-05,
      "loss": 0.7439,
      "step": 2340
    },
    {
      "epoch": 2.5714678017300563,
      "grad_norm": 0.9744517207145691,
      "learning_rate": 4.749694749694749e-05,
      "loss": 0.5625,
      "step": 2341
    },
    {
      "epoch": 2.5725662501716324,
      "grad_norm": 0.6829352974891663,
      "learning_rate": 4.737484737484738e-05,
      "loss": 0.5241,
      "step": 2342
    },
    {
      "epoch": 2.573664698613209,
      "grad_norm": 0.9441612958908081,
      "learning_rate": 4.725274725274725e-05,
      "loss": 0.8815,
      "step": 2343
    },
    {
      "epoch": 2.574763147054785,
      "grad_norm": 0.9406607151031494,
      "learning_rate": 4.713064713064713e-05,
      "loss": 0.7176,
      "step": 2344
    },
    {
      "epoch": 2.5758615954963613,
      "grad_norm": 0.6601364016532898,
      "learning_rate": 4.7008547008547e-05,
      "loss": 0.7713,
      "step": 2345
    },
    {
      "epoch": 2.5769600439379374,
      "grad_norm": 2.5189599990844727,
      "learning_rate": 4.688644688644688e-05,
      "loss": 0.5572,
      "step": 2346
    },
    {
      "epoch": 2.578058492379514,
      "grad_norm": 0.7295210957527161,
      "learning_rate": 4.6764346764346765e-05,
      "loss": 0.4431,
      "step": 2347
    },
    {
      "epoch": 2.57915694082109,
      "grad_norm": 0.5053385496139526,
      "learning_rate": 4.6642246642246637e-05,
      "loss": 0.4881,
      "step": 2348
    },
    {
      "epoch": 2.5802553892626667,
      "grad_norm": 0.6556063890457153,
      "learning_rate": 4.6520146520146515e-05,
      "loss": 0.5168,
      "step": 2349
    },
    {
      "epoch": 2.581353837704243,
      "grad_norm": 0.37052014470100403,
      "learning_rate": 4.639804639804639e-05,
      "loss": 0.3954,
      "step": 2350
    },
    {
      "epoch": 2.582452286145819,
      "grad_norm": 0.5975561738014221,
      "learning_rate": 4.627594627594627e-05,
      "loss": 0.5714,
      "step": 2351
    },
    {
      "epoch": 2.583550734587395,
      "grad_norm": 0.7273014187812805,
      "learning_rate": 4.615384615384615e-05,
      "loss": 0.7287,
      "step": 2352
    },
    {
      "epoch": 2.5846491830289717,
      "grad_norm": 0.566586971282959,
      "learning_rate": 4.603174603174602e-05,
      "loss": 0.5589,
      "step": 2353
    },
    {
      "epoch": 2.585747631470548,
      "grad_norm": 0.5846517086029053,
      "learning_rate": 4.590964590964591e-05,
      "loss": 0.5061,
      "step": 2354
    },
    {
      "epoch": 2.586846079912124,
      "grad_norm": 0.7470859885215759,
      "learning_rate": 4.578754578754579e-05,
      "loss": 0.5433,
      "step": 2355
    },
    {
      "epoch": 2.5879445283537006,
      "grad_norm": 0.5419175624847412,
      "learning_rate": 4.566544566544566e-05,
      "loss": 0.5502,
      "step": 2356
    },
    {
      "epoch": 2.5890429767952767,
      "grad_norm": 1.507851004600525,
      "learning_rate": 4.554334554334554e-05,
      "loss": 0.7399,
      "step": 2357
    },
    {
      "epoch": 2.590141425236853,
      "grad_norm": 1.4420006275177002,
      "learning_rate": 4.542124542124542e-05,
      "loss": 0.4233,
      "step": 2358
    },
    {
      "epoch": 2.591239873678429,
      "grad_norm": 0.6471789479255676,
      "learning_rate": 4.5299145299145296e-05,
      "loss": 0.4052,
      "step": 2359
    },
    {
      "epoch": 2.5923383221200056,
      "grad_norm": 0.5886567831039429,
      "learning_rate": 4.5177045177045174e-05,
      "loss": 0.7197,
      "step": 2360
    },
    {
      "epoch": 2.5934367705615817,
      "grad_norm": 0.843024492263794,
      "learning_rate": 4.5054945054945046e-05,
      "loss": 0.7636,
      "step": 2361
    },
    {
      "epoch": 2.5945352190031583,
      "grad_norm": 0.8689064979553223,
      "learning_rate": 4.493284493284493e-05,
      "loss": 0.6694,
      "step": 2362
    },
    {
      "epoch": 2.5956336674447344,
      "grad_norm": 0.5112485289573669,
      "learning_rate": 4.4810744810744804e-05,
      "loss": 0.5338,
      "step": 2363
    },
    {
      "epoch": 2.5967321158863106,
      "grad_norm": 0.4828614294528961,
      "learning_rate": 4.468864468864468e-05,
      "loss": 0.8519,
      "step": 2364
    },
    {
      "epoch": 2.5978305643278867,
      "grad_norm": 0.5644575357437134,
      "learning_rate": 4.456654456654457e-05,
      "loss": 0.5605,
      "step": 2365
    },
    {
      "epoch": 2.598929012769463,
      "grad_norm": 0.7749584913253784,
      "learning_rate": 4.444444444444444e-05,
      "loss": 0.6697,
      "step": 2366
    },
    {
      "epoch": 2.6000274612110394,
      "grad_norm": 0.9038271307945251,
      "learning_rate": 4.432234432234432e-05,
      "loss": 0.7242,
      "step": 2367
    },
    {
      "epoch": 2.6011259096526156,
      "grad_norm": 0.5102944374084473,
      "learning_rate": 4.42002442002442e-05,
      "loss": 0.5841,
      "step": 2368
    },
    {
      "epoch": 2.602224358094192,
      "grad_norm": 0.5072823762893677,
      "learning_rate": 4.4078144078144076e-05,
      "loss": 0.4927,
      "step": 2369
    },
    {
      "epoch": 2.6033228065357683,
      "grad_norm": 0.3654184341430664,
      "learning_rate": 4.3956043956043955e-05,
      "loss": 0.6449,
      "step": 2370
    },
    {
      "epoch": 2.6044212549773444,
      "grad_norm": 1.7309939861297607,
      "learning_rate": 4.3833943833943827e-05,
      "loss": 0.6979,
      "step": 2371
    },
    {
      "epoch": 2.6055197034189206,
      "grad_norm": 0.7982075214385986,
      "learning_rate": 4.3711843711843705e-05,
      "loss": 0.6589,
      "step": 2372
    },
    {
      "epoch": 2.606618151860497,
      "grad_norm": 0.6989462375640869,
      "learning_rate": 4.358974358974359e-05,
      "loss": 0.7104,
      "step": 2373
    },
    {
      "epoch": 2.6077166003020733,
      "grad_norm": 0.7331676483154297,
      "learning_rate": 4.346764346764346e-05,
      "loss": 0.7565,
      "step": 2374
    },
    {
      "epoch": 2.6088150487436494,
      "grad_norm": 1.0566400289535522,
      "learning_rate": 4.334554334554334e-05,
      "loss": 0.6967,
      "step": 2375
    },
    {
      "epoch": 2.609913497185226,
      "grad_norm": 0.5988017320632935,
      "learning_rate": 4.322344322344321e-05,
      "loss": 0.7871,
      "step": 2376
    },
    {
      "epoch": 2.611011945626802,
      "grad_norm": 0.4248102307319641,
      "learning_rate": 4.31013431013431e-05,
      "loss": 0.6891,
      "step": 2377
    },
    {
      "epoch": 2.6121103940683783,
      "grad_norm": 1.9839611053466797,
      "learning_rate": 4.297924297924298e-05,
      "loss": 0.6647,
      "step": 2378
    },
    {
      "epoch": 2.6132088425099544,
      "grad_norm": 0.4382665455341339,
      "learning_rate": 4.285714285714285e-05,
      "loss": 0.5969,
      "step": 2379
    },
    {
      "epoch": 2.614307290951531,
      "grad_norm": 1.1918715238571167,
      "learning_rate": 4.2735042735042735e-05,
      "loss": 0.7788,
      "step": 2380
    },
    {
      "epoch": 2.615405739393107,
      "grad_norm": 0.38117820024490356,
      "learning_rate": 4.2612942612942614e-05,
      "loss": 0.4967,
      "step": 2381
    },
    {
      "epoch": 2.6165041878346837,
      "grad_norm": 0.6454489827156067,
      "learning_rate": 4.2490842490842486e-05,
      "loss": 0.7724,
      "step": 2382
    },
    {
      "epoch": 2.61760263627626,
      "grad_norm": 1.0696319341659546,
      "learning_rate": 4.2368742368742364e-05,
      "loss": 0.5292,
      "step": 2383
    },
    {
      "epoch": 2.618701084717836,
      "grad_norm": 0.5887579321861267,
      "learning_rate": 4.224664224664224e-05,
      "loss": 0.5317,
      "step": 2384
    },
    {
      "epoch": 2.619799533159412,
      "grad_norm": 0.557188093662262,
      "learning_rate": 4.212454212454212e-05,
      "loss": 0.7172,
      "step": 2385
    },
    {
      "epoch": 2.6208979816009887,
      "grad_norm": 0.5122195482254028,
      "learning_rate": 4.2002442002442e-05,
      "loss": 0.6398,
      "step": 2386
    },
    {
      "epoch": 2.621996430042565,
      "grad_norm": 0.520722508430481,
      "learning_rate": 4.188034188034187e-05,
      "loss": 0.3984,
      "step": 2387
    },
    {
      "epoch": 2.623094878484141,
      "grad_norm": 1.2077422142028809,
      "learning_rate": 4.175824175824176e-05,
      "loss": 0.6686,
      "step": 2388
    },
    {
      "epoch": 2.6241933269257176,
      "grad_norm": 1.1437829732894897,
      "learning_rate": 4.163614163614163e-05,
      "loss": 0.6653,
      "step": 2389
    },
    {
      "epoch": 2.6252917753672937,
      "grad_norm": 0.6157158017158508,
      "learning_rate": 4.151404151404151e-05,
      "loss": 0.7074,
      "step": 2390
    },
    {
      "epoch": 2.62639022380887,
      "grad_norm": 1.8944931030273438,
      "learning_rate": 4.1391941391941394e-05,
      "loss": 0.5991,
      "step": 2391
    },
    {
      "epoch": 2.627488672250446,
      "grad_norm": 0.6598528623580933,
      "learning_rate": 4.1269841269841266e-05,
      "loss": 0.6051,
      "step": 2392
    },
    {
      "epoch": 2.6285871206920226,
      "grad_norm": 0.9341129660606384,
      "learning_rate": 4.1147741147741145e-05,
      "loss": 0.3795,
      "step": 2393
    },
    {
      "epoch": 2.6296855691335987,
      "grad_norm": 0.4246079921722412,
      "learning_rate": 4.1025641025641023e-05,
      "loss": 0.4603,
      "step": 2394
    },
    {
      "epoch": 2.6307840175751753,
      "grad_norm": 0.6639881134033203,
      "learning_rate": 4.09035409035409e-05,
      "loss": 0.5862,
      "step": 2395
    },
    {
      "epoch": 2.6318824660167515,
      "grad_norm": 1.297917366027832,
      "learning_rate": 4.078144078144078e-05,
      "loss": 0.6175,
      "step": 2396
    },
    {
      "epoch": 2.6329809144583276,
      "grad_norm": 0.7880698442459106,
      "learning_rate": 4.065934065934065e-05,
      "loss": 0.7034,
      "step": 2397
    },
    {
      "epoch": 2.6340793628999037,
      "grad_norm": 0.6197066903114319,
      "learning_rate": 4.053724053724053e-05,
      "loss": 0.659,
      "step": 2398
    },
    {
      "epoch": 2.6351778113414803,
      "grad_norm": 0.7560408711433411,
      "learning_rate": 4.041514041514042e-05,
      "loss": 0.5543,
      "step": 2399
    },
    {
      "epoch": 2.6362762597830565,
      "grad_norm": 2.2571635246276855,
      "learning_rate": 4.029304029304029e-05,
      "loss": 0.712,
      "step": 2400
    },
    {
      "epoch": 2.6373747082246326,
      "grad_norm": 0.8119613528251648,
      "learning_rate": 4.017094017094017e-05,
      "loss": 0.6407,
      "step": 2401
    },
    {
      "epoch": 2.638473156666209,
      "grad_norm": 3.9773592948913574,
      "learning_rate": 4.004884004884004e-05,
      "loss": 0.6434,
      "step": 2402
    },
    {
      "epoch": 2.6395716051077853,
      "grad_norm": 1.2648125886917114,
      "learning_rate": 3.9926739926739925e-05,
      "loss": 0.689,
      "step": 2403
    },
    {
      "epoch": 2.6406700535493615,
      "grad_norm": 0.7015364170074463,
      "learning_rate": 3.9804639804639804e-05,
      "loss": 0.4175,
      "step": 2404
    },
    {
      "epoch": 2.6417685019909376,
      "grad_norm": 0.941303551197052,
      "learning_rate": 3.9682539682539676e-05,
      "loss": 0.4126,
      "step": 2405
    },
    {
      "epoch": 2.642866950432514,
      "grad_norm": 0.7533726096153259,
      "learning_rate": 3.956043956043956e-05,
      "loss": 0.7401,
      "step": 2406
    },
    {
      "epoch": 2.6439653988740903,
      "grad_norm": 0.5480525493621826,
      "learning_rate": 3.943833943833943e-05,
      "loss": 0.5567,
      "step": 2407
    },
    {
      "epoch": 2.6450638473156665,
      "grad_norm": 0.6171422004699707,
      "learning_rate": 3.931623931623931e-05,
      "loss": 0.721,
      "step": 2408
    },
    {
      "epoch": 2.646162295757243,
      "grad_norm": 0.6719728708267212,
      "learning_rate": 3.919413919413919e-05,
      "loss": 0.5015,
      "step": 2409
    },
    {
      "epoch": 2.647260744198819,
      "grad_norm": 1.8106555938720703,
      "learning_rate": 3.907203907203906e-05,
      "loss": 0.6954,
      "step": 2410
    },
    {
      "epoch": 2.6483591926403953,
      "grad_norm": 0.42534878849983215,
      "learning_rate": 3.894993894993895e-05,
      "loss": 0.5241,
      "step": 2411
    },
    {
      "epoch": 2.6494576410819715,
      "grad_norm": 0.8733202219009399,
      "learning_rate": 3.882783882783883e-05,
      "loss": 0.4485,
      "step": 2412
    },
    {
      "epoch": 2.650556089523548,
      "grad_norm": 0.9050257802009583,
      "learning_rate": 3.87057387057387e-05,
      "loss": 0.6202,
      "step": 2413
    },
    {
      "epoch": 2.651654537965124,
      "grad_norm": 0.650347888469696,
      "learning_rate": 3.8583638583638584e-05,
      "loss": 0.621,
      "step": 2414
    },
    {
      "epoch": 2.6527529864067008,
      "grad_norm": 6.092042446136475,
      "learning_rate": 3.8461538461538456e-05,
      "loss": 0.5143,
      "step": 2415
    },
    {
      "epoch": 2.653851434848277,
      "grad_norm": 0.7801241874694824,
      "learning_rate": 3.8339438339438335e-05,
      "loss": 0.5424,
      "step": 2416
    },
    {
      "epoch": 2.654949883289853,
      "grad_norm": 0.5492686629295349,
      "learning_rate": 3.821733821733822e-05,
      "loss": 0.642,
      "step": 2417
    },
    {
      "epoch": 2.656048331731429,
      "grad_norm": 0.4257514774799347,
      "learning_rate": 3.809523809523809e-05,
      "loss": 0.8273,
      "step": 2418
    },
    {
      "epoch": 2.6571467801730058,
      "grad_norm": 1.0180964469909668,
      "learning_rate": 3.797313797313797e-05,
      "loss": 0.6962,
      "step": 2419
    },
    {
      "epoch": 2.658245228614582,
      "grad_norm": 0.3844882547855377,
      "learning_rate": 3.785103785103784e-05,
      "loss": 0.7315,
      "step": 2420
    },
    {
      "epoch": 2.659343677056158,
      "grad_norm": 0.46182385087013245,
      "learning_rate": 3.772893772893772e-05,
      "loss": 0.3889,
      "step": 2421
    },
    {
      "epoch": 2.6604421254977346,
      "grad_norm": 0.562627375125885,
      "learning_rate": 3.760683760683761e-05,
      "loss": 0.6415,
      "step": 2422
    },
    {
      "epoch": 2.6615405739393108,
      "grad_norm": 0.3234645128250122,
      "learning_rate": 3.7484737484737486e-05,
      "loss": 0.4819,
      "step": 2423
    },
    {
      "epoch": 2.662639022380887,
      "grad_norm": 0.6804205775260925,
      "learning_rate": 3.736263736263736e-05,
      "loss": 0.4248,
      "step": 2424
    },
    {
      "epoch": 2.663737470822463,
      "grad_norm": 0.5543864369392395,
      "learning_rate": 3.7240537240537236e-05,
      "loss": 0.5259,
      "step": 2425
    },
    {
      "epoch": 2.6648359192640396,
      "grad_norm": 0.8411497473716736,
      "learning_rate": 3.7118437118437115e-05,
      "loss": 0.5448,
      "step": 2426
    },
    {
      "epoch": 2.6659343677056158,
      "grad_norm": 0.4386245608329773,
      "learning_rate": 3.6996336996336994e-05,
      "loss": 0.9601,
      "step": 2427
    },
    {
      "epoch": 2.6670328161471923,
      "grad_norm": 0.773210346698761,
      "learning_rate": 3.687423687423687e-05,
      "loss": 0.8601,
      "step": 2428
    },
    {
      "epoch": 2.6681312645887685,
      "grad_norm": 0.4636232852935791,
      "learning_rate": 3.675213675213675e-05,
      "loss": 0.6322,
      "step": 2429
    },
    {
      "epoch": 2.6692297130303446,
      "grad_norm": 1.6318496465682983,
      "learning_rate": 3.663003663003662e-05,
      "loss": 0.4402,
      "step": 2430
    },
    {
      "epoch": 2.6703281614719208,
      "grad_norm": 0.5299782156944275,
      "learning_rate": 3.65079365079365e-05,
      "loss": 0.5622,
      "step": 2431
    },
    {
      "epoch": 2.6714266099134973,
      "grad_norm": 1.1223825216293335,
      "learning_rate": 3.638583638583638e-05,
      "loss": 0.5994,
      "step": 2432
    },
    {
      "epoch": 2.6725250583550735,
      "grad_norm": 1.8495402336120605,
      "learning_rate": 3.626373626373626e-05,
      "loss": 0.669,
      "step": 2433
    },
    {
      "epoch": 2.6736235067966496,
      "grad_norm": 0.4963383972644806,
      "learning_rate": 3.614163614163614e-05,
      "loss": 0.5412,
      "step": 2434
    },
    {
      "epoch": 2.674721955238226,
      "grad_norm": 0.5644822716712952,
      "learning_rate": 3.601953601953602e-05,
      "loss": 0.5768,
      "step": 2435
    },
    {
      "epoch": 2.6758204036798023,
      "grad_norm": 0.5272318720817566,
      "learning_rate": 3.5897435897435896e-05,
      "loss": 0.5909,
      "step": 2436
    },
    {
      "epoch": 2.6769188521213785,
      "grad_norm": 0.29838863015174866,
      "learning_rate": 3.5775335775335774e-05,
      "loss": 0.5625,
      "step": 2437
    },
    {
      "epoch": 2.6780173005629546,
      "grad_norm": 0.5375344157218933,
      "learning_rate": 3.565323565323565e-05,
      "loss": 0.5932,
      "step": 2438
    },
    {
      "epoch": 2.679115749004531,
      "grad_norm": 0.7850833535194397,
      "learning_rate": 3.5531135531135525e-05,
      "loss": 0.6706,
      "step": 2439
    },
    {
      "epoch": 2.6802141974461073,
      "grad_norm": 0.5286651253700256,
      "learning_rate": 3.540903540903541e-05,
      "loss": 0.6865,
      "step": 2440
    },
    {
      "epoch": 2.681312645887684,
      "grad_norm": 0.9832364320755005,
      "learning_rate": 3.528693528693528e-05,
      "loss": 0.7941,
      "step": 2441
    },
    {
      "epoch": 2.68241109432926,
      "grad_norm": 0.4431805908679962,
      "learning_rate": 3.516483516483516e-05,
      "loss": 0.4706,
      "step": 2442
    },
    {
      "epoch": 2.683509542770836,
      "grad_norm": 1.7264482975006104,
      "learning_rate": 3.504273504273504e-05,
      "loss": 0.6308,
      "step": 2443
    },
    {
      "epoch": 2.6846079912124123,
      "grad_norm": 0.6196084022521973,
      "learning_rate": 3.492063492063492e-05,
      "loss": 1.0233,
      "step": 2444
    },
    {
      "epoch": 2.6857064396539885,
      "grad_norm": 0.855876088142395,
      "learning_rate": 3.47985347985348e-05,
      "loss": 0.5522,
      "step": 2445
    },
    {
      "epoch": 2.686804888095565,
      "grad_norm": 0.45323798060417175,
      "learning_rate": 3.4676434676434676e-05,
      "loss": 0.6232,
      "step": 2446
    },
    {
      "epoch": 2.687903336537141,
      "grad_norm": 0.577273964881897,
      "learning_rate": 3.455433455433455e-05,
      "loss": 0.5051,
      "step": 2447
    },
    {
      "epoch": 2.689001784978718,
      "grad_norm": 0.4999620020389557,
      "learning_rate": 3.4432234432234427e-05,
      "loss": 0.4881,
      "step": 2448
    },
    {
      "epoch": 2.690100233420294,
      "grad_norm": 0.5028046369552612,
      "learning_rate": 3.431013431013431e-05,
      "loss": 0.6575,
      "step": 2449
    },
    {
      "epoch": 2.69119868186187,
      "grad_norm": 2.122028350830078,
      "learning_rate": 3.4188034188034184e-05,
      "loss": 0.7226,
      "step": 2450
    },
    {
      "epoch": 2.692297130303446,
      "grad_norm": 0.4979703426361084,
      "learning_rate": 3.406593406593406e-05,
      "loss": 0.5768,
      "step": 2451
    },
    {
      "epoch": 2.693395578745023,
      "grad_norm": 0.9270527958869934,
      "learning_rate": 3.394383394383394e-05,
      "loss": 0.6464,
      "step": 2452
    },
    {
      "epoch": 2.694494027186599,
      "grad_norm": 1.0739809274673462,
      "learning_rate": 3.382173382173382e-05,
      "loss": 0.753,
      "step": 2453
    },
    {
      "epoch": 2.695592475628175,
      "grad_norm": 0.6039335131645203,
      "learning_rate": 3.36996336996337e-05,
      "loss": 0.7909,
      "step": 2454
    },
    {
      "epoch": 2.6966909240697516,
      "grad_norm": 0.49040424823760986,
      "learning_rate": 3.357753357753358e-05,
      "loss": 0.6112,
      "step": 2455
    },
    {
      "epoch": 2.6977893725113278,
      "grad_norm": 0.6890440583229065,
      "learning_rate": 3.345543345543345e-05,
      "loss": 0.6849,
      "step": 2456
    },
    {
      "epoch": 2.698887820952904,
      "grad_norm": 0.7819212675094604,
      "learning_rate": 3.333333333333333e-05,
      "loss": 0.6797,
      "step": 2457
    },
    {
      "epoch": 2.69998626939448,
      "grad_norm": 1.0147050619125366,
      "learning_rate": 3.321123321123321e-05,
      "loss": 0.6867,
      "step": 2458
    },
    {
      "epoch": 2.7010847178360566,
      "grad_norm": 1.3562036752700806,
      "learning_rate": 3.3089133089133086e-05,
      "loss": 0.7811,
      "step": 2459
    },
    {
      "epoch": 2.7021831662776328,
      "grad_norm": 0.5813838839530945,
      "learning_rate": 3.2967032967032964e-05,
      "loss": 0.5405,
      "step": 2460
    },
    {
      "epoch": 2.7032816147192094,
      "grad_norm": 0.6152640581130981,
      "learning_rate": 3.284493284493284e-05,
      "loss": 0.425,
      "step": 2461
    },
    {
      "epoch": 2.7043800631607855,
      "grad_norm": 1.1984590291976929,
      "learning_rate": 3.272283272283272e-05,
      "loss": 0.592,
      "step": 2462
    },
    {
      "epoch": 2.7054785116023616,
      "grad_norm": 0.48487693071365356,
      "learning_rate": 3.26007326007326e-05,
      "loss": 0.5223,
      "step": 2463
    },
    {
      "epoch": 2.7065769600439378,
      "grad_norm": 0.47191065549850464,
      "learning_rate": 3.247863247863247e-05,
      "loss": 0.6479,
      "step": 2464
    },
    {
      "epoch": 2.7076754084855144,
      "grad_norm": 1.3167297840118408,
      "learning_rate": 3.235653235653235e-05,
      "loss": 0.4552,
      "step": 2465
    },
    {
      "epoch": 2.7087738569270905,
      "grad_norm": 1.3219714164733887,
      "learning_rate": 3.2234432234432237e-05,
      "loss": 0.5839,
      "step": 2466
    },
    {
      "epoch": 2.7098723053686666,
      "grad_norm": 0.8047394752502441,
      "learning_rate": 3.211233211233211e-05,
      "loss": 0.795,
      "step": 2467
    },
    {
      "epoch": 2.710970753810243,
      "grad_norm": 0.6053475737571716,
      "learning_rate": 3.199023199023199e-05,
      "loss": 0.743,
      "step": 2468
    },
    {
      "epoch": 2.7120692022518194,
      "grad_norm": 0.4619985818862915,
      "learning_rate": 3.1868131868131866e-05,
      "loss": 0.642,
      "step": 2469
    },
    {
      "epoch": 2.7131676506933955,
      "grad_norm": 0.8241426944732666,
      "learning_rate": 3.1746031746031745e-05,
      "loss": 0.521,
      "step": 2470
    },
    {
      "epoch": 2.7142660991349716,
      "grad_norm": 0.4344565272331238,
      "learning_rate": 3.162393162393162e-05,
      "loss": 0.4615,
      "step": 2471
    },
    {
      "epoch": 2.715364547576548,
      "grad_norm": 0.9640605449676514,
      "learning_rate": 3.15018315018315e-05,
      "loss": 0.4735,
      "step": 2472
    },
    {
      "epoch": 2.7164629960181244,
      "grad_norm": 0.49423810839653015,
      "learning_rate": 3.1379731379731374e-05,
      "loss": 0.7547,
      "step": 2473
    },
    {
      "epoch": 2.717561444459701,
      "grad_norm": 0.7234408855438232,
      "learning_rate": 3.125763125763125e-05,
      "loss": 0.464,
      "step": 2474
    },
    {
      "epoch": 2.718659892901277,
      "grad_norm": 0.542647123336792,
      "learning_rate": 3.113553113553113e-05,
      "loss": 0.5563,
      "step": 2475
    },
    {
      "epoch": 2.719758341342853,
      "grad_norm": 0.555722177028656,
      "learning_rate": 3.101343101343101e-05,
      "loss": 0.6899,
      "step": 2476
    },
    {
      "epoch": 2.7208567897844294,
      "grad_norm": 0.6171600222587585,
      "learning_rate": 3.089133089133089e-05,
      "loss": 0.6088,
      "step": 2477
    },
    {
      "epoch": 2.7219552382260055,
      "grad_norm": 0.9118738770484924,
      "learning_rate": 3.076923076923077e-05,
      "loss": 0.7778,
      "step": 2478
    },
    {
      "epoch": 2.723053686667582,
      "grad_norm": 0.6610655784606934,
      "learning_rate": 3.064713064713064e-05,
      "loss": 0.6935,
      "step": 2479
    },
    {
      "epoch": 2.724152135109158,
      "grad_norm": 0.6729289889335632,
      "learning_rate": 3.0525030525030525e-05,
      "loss": 0.792,
      "step": 2480
    },
    {
      "epoch": 2.725250583550735,
      "grad_norm": 0.4955647587776184,
      "learning_rate": 3.04029304029304e-05,
      "loss": 0.6746,
      "step": 2481
    },
    {
      "epoch": 2.726349031992311,
      "grad_norm": 0.42975953221321106,
      "learning_rate": 3.028083028083028e-05,
      "loss": 0.5318,
      "step": 2482
    },
    {
      "epoch": 2.727447480433887,
      "grad_norm": 0.3555055856704712,
      "learning_rate": 3.0158730158730154e-05,
      "loss": 0.6377,
      "step": 2483
    },
    {
      "epoch": 2.728545928875463,
      "grad_norm": 3.138209342956543,
      "learning_rate": 3.0036630036630036e-05,
      "loss": 0.6296,
      "step": 2484
    },
    {
      "epoch": 2.72964437731704,
      "grad_norm": 0.5710242390632629,
      "learning_rate": 2.9914529914529912e-05,
      "loss": 0.8987,
      "step": 2485
    },
    {
      "epoch": 2.730742825758616,
      "grad_norm": 0.5200769305229187,
      "learning_rate": 2.979242979242979e-05,
      "loss": 0.5154,
      "step": 2486
    },
    {
      "epoch": 2.731841274200192,
      "grad_norm": 0.797572910785675,
      "learning_rate": 2.9670329670329666e-05,
      "loss": 0.8039,
      "step": 2487
    },
    {
      "epoch": 2.7329397226417687,
      "grad_norm": 0.4667447805404663,
      "learning_rate": 2.9548229548229548e-05,
      "loss": 0.586,
      "step": 2488
    },
    {
      "epoch": 2.734038171083345,
      "grad_norm": 0.5500869154930115,
      "learning_rate": 2.9426129426129423e-05,
      "loss": 0.7007,
      "step": 2489
    },
    {
      "epoch": 2.735136619524921,
      "grad_norm": 0.5311625003814697,
      "learning_rate": 2.9304029304029302e-05,
      "loss": 0.4257,
      "step": 2490
    },
    {
      "epoch": 2.736235067966497,
      "grad_norm": 0.6474941968917847,
      "learning_rate": 2.9181929181929177e-05,
      "loss": 0.4747,
      "step": 2491
    },
    {
      "epoch": 2.7373335164080737,
      "grad_norm": 1.1186646223068237,
      "learning_rate": 2.9059829059829056e-05,
      "loss": 0.8177,
      "step": 2492
    },
    {
      "epoch": 2.73843196484965,
      "grad_norm": 2.455371379852295,
      "learning_rate": 2.8937728937728938e-05,
      "loss": 0.6535,
      "step": 2493
    },
    {
      "epoch": 2.7395304132912264,
      "grad_norm": 0.5033484101295471,
      "learning_rate": 2.8815628815628813e-05,
      "loss": 0.525,
      "step": 2494
    },
    {
      "epoch": 2.7406288617328025,
      "grad_norm": 0.5826357007026672,
      "learning_rate": 2.869352869352869e-05,
      "loss": 0.476,
      "step": 2495
    },
    {
      "epoch": 2.7417273101743787,
      "grad_norm": 0.5875104665756226,
      "learning_rate": 2.8571428571428567e-05,
      "loss": 0.6903,
      "step": 2496
    },
    {
      "epoch": 2.742825758615955,
      "grad_norm": 0.6006028056144714,
      "learning_rate": 2.844932844932845e-05,
      "loss": 0.8522,
      "step": 2497
    },
    {
      "epoch": 2.7439242070575314,
      "grad_norm": 0.5605003833770752,
      "learning_rate": 2.8327228327228325e-05,
      "loss": 0.5312,
      "step": 2498
    },
    {
      "epoch": 2.7450226554991075,
      "grad_norm": 0.7641153931617737,
      "learning_rate": 2.8205128205128204e-05,
      "loss": 0.6841,
      "step": 2499
    },
    {
      "epoch": 2.7461211039406836,
      "grad_norm": 0.5523414015769958,
      "learning_rate": 2.808302808302808e-05,
      "loss": 0.6582,
      "step": 2500
    },
    {
      "epoch": 2.7472195523822602,
      "grad_norm": 0.40714672207832336,
      "learning_rate": 2.796092796092796e-05,
      "loss": 0.7493,
      "step": 2501
    },
    {
      "epoch": 2.7483180008238364,
      "grad_norm": 0.6960926651954651,
      "learning_rate": 2.7838827838827836e-05,
      "loss": 0.7104,
      "step": 2502
    },
    {
      "epoch": 2.7494164492654125,
      "grad_norm": 0.42409783601760864,
      "learning_rate": 2.7716727716727715e-05,
      "loss": 0.5643,
      "step": 2503
    },
    {
      "epoch": 2.7505148977069886,
      "grad_norm": 0.5174455046653748,
      "learning_rate": 2.759462759462759e-05,
      "loss": 0.4545,
      "step": 2504
    },
    {
      "epoch": 2.7516133461485652,
      "grad_norm": 0.6353528499603271,
      "learning_rate": 2.747252747252747e-05,
      "loss": 0.5068,
      "step": 2505
    },
    {
      "epoch": 2.7527117945901414,
      "grad_norm": 0.46814125776290894,
      "learning_rate": 2.7350427350427348e-05,
      "loss": 0.7979,
      "step": 2506
    },
    {
      "epoch": 2.753810243031718,
      "grad_norm": 0.7229417562484741,
      "learning_rate": 2.7228327228327227e-05,
      "loss": 0.6212,
      "step": 2507
    },
    {
      "epoch": 2.754908691473294,
      "grad_norm": 1.2155603170394897,
      "learning_rate": 2.7106227106227102e-05,
      "loss": 0.8444,
      "step": 2508
    },
    {
      "epoch": 2.7560071399148702,
      "grad_norm": 0.462703138589859,
      "learning_rate": 2.698412698412698e-05,
      "loss": 0.8263,
      "step": 2509
    },
    {
      "epoch": 2.7571055883564464,
      "grad_norm": 0.9474642872810364,
      "learning_rate": 2.6862026862026863e-05,
      "loss": 0.7586,
      "step": 2510
    },
    {
      "epoch": 2.758204036798023,
      "grad_norm": 4.502622127532959,
      "learning_rate": 2.6739926739926738e-05,
      "loss": 0.5806,
      "step": 2511
    },
    {
      "epoch": 2.759302485239599,
      "grad_norm": 1.1251213550567627,
      "learning_rate": 2.6617826617826617e-05,
      "loss": 0.6333,
      "step": 2512
    },
    {
      "epoch": 2.7604009336811752,
      "grad_norm": 0.7035579681396484,
      "learning_rate": 2.6495726495726492e-05,
      "loss": 0.4739,
      "step": 2513
    },
    {
      "epoch": 2.761499382122752,
      "grad_norm": 0.5279493927955627,
      "learning_rate": 2.6373626373626374e-05,
      "loss": 0.597,
      "step": 2514
    },
    {
      "epoch": 2.762597830564328,
      "grad_norm": 0.5512554049491882,
      "learning_rate": 2.625152625152625e-05,
      "loss": 0.6471,
      "step": 2515
    },
    {
      "epoch": 2.763696279005904,
      "grad_norm": 0.857778012752533,
      "learning_rate": 2.6129426129426128e-05,
      "loss": 0.6172,
      "step": 2516
    },
    {
      "epoch": 2.7647947274474802,
      "grad_norm": 0.5348466634750366,
      "learning_rate": 2.6007326007326004e-05,
      "loss": 0.8074,
      "step": 2517
    },
    {
      "epoch": 2.765893175889057,
      "grad_norm": 0.5413629412651062,
      "learning_rate": 2.5885225885225882e-05,
      "loss": 0.3879,
      "step": 2518
    },
    {
      "epoch": 2.766991624330633,
      "grad_norm": 0.569411039352417,
      "learning_rate": 2.576312576312576e-05,
      "loss": 0.4392,
      "step": 2519
    },
    {
      "epoch": 2.7680900727722095,
      "grad_norm": 0.5127429962158203,
      "learning_rate": 2.564102564102564e-05,
      "loss": 0.6566,
      "step": 2520
    },
    {
      "epoch": 2.7691885212137857,
      "grad_norm": 0.7328614592552185,
      "learning_rate": 2.5518925518925515e-05,
      "loss": 0.6801,
      "step": 2521
    },
    {
      "epoch": 2.770286969655362,
      "grad_norm": 0.615686297416687,
      "learning_rate": 2.5396825396825394e-05,
      "loss": 0.6366,
      "step": 2522
    },
    {
      "epoch": 2.771385418096938,
      "grad_norm": 0.5250161290168762,
      "learning_rate": 2.5274725274725276e-05,
      "loss": 0.5737,
      "step": 2523
    },
    {
      "epoch": 2.772483866538514,
      "grad_norm": 0.6708832383155823,
      "learning_rate": 2.515262515262515e-05,
      "loss": 0.6681,
      "step": 2524
    },
    {
      "epoch": 2.7735823149800907,
      "grad_norm": 0.6120278835296631,
      "learning_rate": 2.503052503052503e-05,
      "loss": 0.4964,
      "step": 2525
    },
    {
      "epoch": 2.774680763421667,
      "grad_norm": 0.7024976015090942,
      "learning_rate": 2.4908424908424905e-05,
      "loss": 0.7984,
      "step": 2526
    },
    {
      "epoch": 2.7757792118632434,
      "grad_norm": 7.281716823577881,
      "learning_rate": 2.478632478632478e-05,
      "loss": 0.7191,
      "step": 2527
    },
    {
      "epoch": 2.7768776603048195,
      "grad_norm": 0.7347024083137512,
      "learning_rate": 2.4664224664224663e-05,
      "loss": 0.8684,
      "step": 2528
    },
    {
      "epoch": 2.7779761087463957,
      "grad_norm": 1.1338274478912354,
      "learning_rate": 2.454212454212454e-05,
      "loss": 0.5936,
      "step": 2529
    },
    {
      "epoch": 2.779074557187972,
      "grad_norm": 0.4176536202430725,
      "learning_rate": 2.4420024420024417e-05,
      "loss": 0.445,
      "step": 2530
    },
    {
      "epoch": 2.7801730056295484,
      "grad_norm": 0.9390072822570801,
      "learning_rate": 2.4297924297924295e-05,
      "loss": 0.5821,
      "step": 2531
    },
    {
      "epoch": 2.7812714540711245,
      "grad_norm": 1.1045840978622437,
      "learning_rate": 2.4175824175824174e-05,
      "loss": 0.7372,
      "step": 2532
    },
    {
      "epoch": 2.7823699025127007,
      "grad_norm": 0.5568689703941345,
      "learning_rate": 2.4053724053724053e-05,
      "loss": 0.5005,
      "step": 2533
    },
    {
      "epoch": 2.7834683509542772,
      "grad_norm": 0.2747582793235779,
      "learning_rate": 2.3931623931623928e-05,
      "loss": 0.5778,
      "step": 2534
    },
    {
      "epoch": 2.7845667993958534,
      "grad_norm": 1.4027804136276245,
      "learning_rate": 2.3809523809523807e-05,
      "loss": 0.5368,
      "step": 2535
    },
    {
      "epoch": 2.7856652478374295,
      "grad_norm": 0.7523220777511597,
      "learning_rate": 2.368742368742369e-05,
      "loss": 0.58,
      "step": 2536
    },
    {
      "epoch": 2.7867636962790057,
      "grad_norm": 0.33777353167533875,
      "learning_rate": 2.3565323565323564e-05,
      "loss": 0.5269,
      "step": 2537
    },
    {
      "epoch": 2.7878621447205822,
      "grad_norm": 0.5818787217140198,
      "learning_rate": 2.344322344322344e-05,
      "loss": 0.4459,
      "step": 2538
    },
    {
      "epoch": 2.7889605931621584,
      "grad_norm": 0.36858034133911133,
      "learning_rate": 2.3321123321123318e-05,
      "loss": 0.712,
      "step": 2539
    },
    {
      "epoch": 2.790059041603735,
      "grad_norm": 0.5299241542816162,
      "learning_rate": 2.3199023199023194e-05,
      "loss": 0.6086,
      "step": 2540
    },
    {
      "epoch": 2.791157490045311,
      "grad_norm": 2.432325601577759,
      "learning_rate": 2.3076923076923076e-05,
      "loss": 1.0386,
      "step": 2541
    },
    {
      "epoch": 2.7922559384868872,
      "grad_norm": 0.746638834476471,
      "learning_rate": 2.2954822954822954e-05,
      "loss": 0.7372,
      "step": 2542
    },
    {
      "epoch": 2.7933543869284634,
      "grad_norm": 0.6017647981643677,
      "learning_rate": 2.283272283272283e-05,
      "loss": 0.9134,
      "step": 2543
    },
    {
      "epoch": 2.79445283537004,
      "grad_norm": 0.7385385036468506,
      "learning_rate": 2.271062271062271e-05,
      "loss": 0.6827,
      "step": 2544
    },
    {
      "epoch": 2.795551283811616,
      "grad_norm": 0.6607246994972229,
      "learning_rate": 2.2588522588522587e-05,
      "loss": 0.6333,
      "step": 2545
    },
    {
      "epoch": 2.7966497322531922,
      "grad_norm": 0.40185117721557617,
      "learning_rate": 2.2466422466422466e-05,
      "loss": 0.6589,
      "step": 2546
    },
    {
      "epoch": 2.797748180694769,
      "grad_norm": 0.48225662112236023,
      "learning_rate": 2.234432234432234e-05,
      "loss": 0.6571,
      "step": 2547
    },
    {
      "epoch": 2.798846629136345,
      "grad_norm": 0.8996065855026245,
      "learning_rate": 2.222222222222222e-05,
      "loss": 0.7518,
      "step": 2548
    },
    {
      "epoch": 2.799945077577921,
      "grad_norm": 0.7139112949371338,
      "learning_rate": 2.21001221001221e-05,
      "loss": 0.6517,
      "step": 2549
    },
    {
      "epoch": 2.8010435260194972,
      "grad_norm": 0.5433416366577148,
      "learning_rate": 2.1978021978021977e-05,
      "loss": 0.3799,
      "step": 2550
    },
    {
      "epoch": 2.802141974461074,
      "grad_norm": 0.3883088231086731,
      "learning_rate": 2.1855921855921853e-05,
      "loss": 0.9269,
      "step": 2551
    },
    {
      "epoch": 2.80324042290265,
      "grad_norm": 0.5275357961654663,
      "learning_rate": 2.173382173382173e-05,
      "loss": 0.6606,
      "step": 2552
    },
    {
      "epoch": 2.8043388713442265,
      "grad_norm": 0.4666341543197632,
      "learning_rate": 2.1611721611721607e-05,
      "loss": 0.6982,
      "step": 2553
    },
    {
      "epoch": 2.8054373197858027,
      "grad_norm": 0.9221529364585876,
      "learning_rate": 2.148962148962149e-05,
      "loss": 0.4769,
      "step": 2554
    },
    {
      "epoch": 2.806535768227379,
      "grad_norm": 0.7469640374183655,
      "learning_rate": 2.1367521367521368e-05,
      "loss": 0.6985,
      "step": 2555
    },
    {
      "epoch": 2.807634216668955,
      "grad_norm": 0.6858775615692139,
      "learning_rate": 2.1245421245421243e-05,
      "loss": 0.4511,
      "step": 2556
    },
    {
      "epoch": 2.808732665110531,
      "grad_norm": 1.266801357269287,
      "learning_rate": 2.112332112332112e-05,
      "loss": 0.421,
      "step": 2557
    },
    {
      "epoch": 2.8098311135521077,
      "grad_norm": 0.5506262183189392,
      "learning_rate": 2.1001221001221e-05,
      "loss": 0.6082,
      "step": 2558
    },
    {
      "epoch": 2.810929561993684,
      "grad_norm": 0.5359029173851013,
      "learning_rate": 2.087912087912088e-05,
      "loss": 0.8111,
      "step": 2559
    },
    {
      "epoch": 2.8120280104352604,
      "grad_norm": 0.6969206929206848,
      "learning_rate": 2.0757020757020754e-05,
      "loss": 0.8331,
      "step": 2560
    },
    {
      "epoch": 2.8131264588768365,
      "grad_norm": 0.6040379405021667,
      "learning_rate": 2.0634920634920633e-05,
      "loss": 0.575,
      "step": 2561
    },
    {
      "epoch": 2.8142249073184127,
      "grad_norm": 1.3847273588180542,
      "learning_rate": 2.0512820512820512e-05,
      "loss": 0.5442,
      "step": 2562
    },
    {
      "epoch": 2.815323355759989,
      "grad_norm": 0.8050490617752075,
      "learning_rate": 2.039072039072039e-05,
      "loss": 0.6267,
      "step": 2563
    },
    {
      "epoch": 2.8164218042015654,
      "grad_norm": 0.5663136839866638,
      "learning_rate": 2.0268620268620266e-05,
      "loss": 0.5246,
      "step": 2564
    },
    {
      "epoch": 2.8175202526431415,
      "grad_norm": 0.3316130042076111,
      "learning_rate": 2.0146520146520144e-05,
      "loss": 0.5175,
      "step": 2565
    },
    {
      "epoch": 2.8186187010847177,
      "grad_norm": 0.4782855808734894,
      "learning_rate": 2.002442002442002e-05,
      "loss": 0.5111,
      "step": 2566
    },
    {
      "epoch": 2.8197171495262943,
      "grad_norm": 0.44766396284103394,
      "learning_rate": 1.9902319902319902e-05,
      "loss": 0.5825,
      "step": 2567
    },
    {
      "epoch": 2.8208155979678704,
      "grad_norm": 0.6830618977546692,
      "learning_rate": 1.978021978021978e-05,
      "loss": 0.5685,
      "step": 2568
    },
    {
      "epoch": 2.8219140464094465,
      "grad_norm": 0.5860748887062073,
      "learning_rate": 1.9658119658119656e-05,
      "loss": 0.7557,
      "step": 2569
    },
    {
      "epoch": 2.8230124948510227,
      "grad_norm": 0.49533459544181824,
      "learning_rate": 1.953601953601953e-05,
      "loss": 0.7326,
      "step": 2570
    },
    {
      "epoch": 2.8241109432925993,
      "grad_norm": 0.4989941418170929,
      "learning_rate": 1.9413919413919413e-05,
      "loss": 0.5757,
      "step": 2571
    },
    {
      "epoch": 2.8252093917341754,
      "grad_norm": 0.4973461627960205,
      "learning_rate": 1.9291819291819292e-05,
      "loss": 0.5357,
      "step": 2572
    },
    {
      "epoch": 2.826307840175752,
      "grad_norm": 0.7442370057106018,
      "learning_rate": 1.9169719169719167e-05,
      "loss": 0.7283,
      "step": 2573
    },
    {
      "epoch": 2.827406288617328,
      "grad_norm": 1.3321865797042847,
      "learning_rate": 1.9047619047619046e-05,
      "loss": 0.5107,
      "step": 2574
    },
    {
      "epoch": 2.8285047370589043,
      "grad_norm": 0.47394871711730957,
      "learning_rate": 1.892551892551892e-05,
      "loss": 0.5495,
      "step": 2575
    },
    {
      "epoch": 2.8296031855004804,
      "grad_norm": 0.6102151274681091,
      "learning_rate": 1.8803418803418804e-05,
      "loss": 0.5983,
      "step": 2576
    },
    {
      "epoch": 2.830701633942057,
      "grad_norm": 0.4657471179962158,
      "learning_rate": 1.868131868131868e-05,
      "loss": 0.5937,
      "step": 2577
    },
    {
      "epoch": 2.831800082383633,
      "grad_norm": 0.41180238127708435,
      "learning_rate": 1.8559218559218558e-05,
      "loss": 0.7775,
      "step": 2578
    },
    {
      "epoch": 2.8328985308252093,
      "grad_norm": 3.5043845176696777,
      "learning_rate": 1.8437118437118436e-05,
      "loss": 0.5304,
      "step": 2579
    },
    {
      "epoch": 2.833996979266786,
      "grad_norm": 0.4502231776714325,
      "learning_rate": 1.831501831501831e-05,
      "loss": 0.6556,
      "step": 2580
    },
    {
      "epoch": 2.835095427708362,
      "grad_norm": 0.6165898442268372,
      "learning_rate": 1.819291819291819e-05,
      "loss": 0.8434,
      "step": 2581
    },
    {
      "epoch": 2.836193876149938,
      "grad_norm": 0.5112649202346802,
      "learning_rate": 1.807081807081807e-05,
      "loss": 0.7429,
      "step": 2582
    },
    {
      "epoch": 2.8372923245915143,
      "grad_norm": 0.4834790527820587,
      "learning_rate": 1.7948717948717948e-05,
      "loss": 0.5772,
      "step": 2583
    },
    {
      "epoch": 2.838390773033091,
      "grad_norm": 0.4251219630241394,
      "learning_rate": 1.7826617826617826e-05,
      "loss": 0.5192,
      "step": 2584
    },
    {
      "epoch": 2.839489221474667,
      "grad_norm": 0.7645363807678223,
      "learning_rate": 1.7704517704517705e-05,
      "loss": 0.6624,
      "step": 2585
    },
    {
      "epoch": 2.8405876699162436,
      "grad_norm": 0.5651314854621887,
      "learning_rate": 1.758241758241758e-05,
      "loss": 0.5829,
      "step": 2586
    },
    {
      "epoch": 2.8416861183578197,
      "grad_norm": 1.059164047241211,
      "learning_rate": 1.746031746031746e-05,
      "loss": 0.6688,
      "step": 2587
    },
    {
      "epoch": 2.842784566799396,
      "grad_norm": 2.2424001693725586,
      "learning_rate": 1.7338217338217338e-05,
      "loss": 0.4515,
      "step": 2588
    },
    {
      "epoch": 2.843883015240972,
      "grad_norm": 0.6211466789245605,
      "learning_rate": 1.7216117216117213e-05,
      "loss": 0.836,
      "step": 2589
    },
    {
      "epoch": 2.8449814636825486,
      "grad_norm": 0.4224345088005066,
      "learning_rate": 1.7094017094017092e-05,
      "loss": 0.536,
      "step": 2590
    },
    {
      "epoch": 2.8460799121241247,
      "grad_norm": 0.7985780239105225,
      "learning_rate": 1.697191697191697e-05,
      "loss": 0.7433,
      "step": 2591
    },
    {
      "epoch": 2.847178360565701,
      "grad_norm": 1.4033039808273315,
      "learning_rate": 1.684981684981685e-05,
      "loss": 0.7479,
      "step": 2592
    },
    {
      "epoch": 2.8482768090072774,
      "grad_norm": 1.1432255506515503,
      "learning_rate": 1.6727716727716725e-05,
      "loss": 0.652,
      "step": 2593
    },
    {
      "epoch": 2.8493752574488536,
      "grad_norm": 0.9324535727500916,
      "learning_rate": 1.6605616605616603e-05,
      "loss": 0.5225,
      "step": 2594
    },
    {
      "epoch": 2.8504737058904297,
      "grad_norm": 0.5573447942733765,
      "learning_rate": 1.6483516483516482e-05,
      "loss": 0.6649,
      "step": 2595
    },
    {
      "epoch": 2.851572154332006,
      "grad_norm": 0.6875207424163818,
      "learning_rate": 1.636141636141636e-05,
      "loss": 0.7334,
      "step": 2596
    },
    {
      "epoch": 2.8526706027735824,
      "grad_norm": 0.32099124789237976,
      "learning_rate": 1.6239316239316236e-05,
      "loss": 0.5732,
      "step": 2597
    },
    {
      "epoch": 2.8537690512151586,
      "grad_norm": 0.4142940938472748,
      "learning_rate": 1.6117216117216118e-05,
      "loss": 0.6605,
      "step": 2598
    },
    {
      "epoch": 2.8548674996567347,
      "grad_norm": 0.5377205610275269,
      "learning_rate": 1.5995115995115994e-05,
      "loss": 0.5556,
      "step": 2599
    },
    {
      "epoch": 2.8559659480983113,
      "grad_norm": 0.43509960174560547,
      "learning_rate": 1.5873015873015872e-05,
      "loss": 0.8321,
      "step": 2600
    },
    {
      "epoch": 2.8570643965398874,
      "grad_norm": 0.4376494586467743,
      "learning_rate": 1.575091575091575e-05,
      "loss": 0.6392,
      "step": 2601
    },
    {
      "epoch": 2.8581628449814636,
      "grad_norm": 0.507837176322937,
      "learning_rate": 1.5628815628815626e-05,
      "loss": 0.5326,
      "step": 2602
    },
    {
      "epoch": 2.8592612934230397,
      "grad_norm": 29.0502986907959,
      "learning_rate": 1.5506715506715505e-05,
      "loss": 0.5478,
      "step": 2603
    },
    {
      "epoch": 2.8603597418646163,
      "grad_norm": 0.6940420866012573,
      "learning_rate": 1.5384615384615384e-05,
      "loss": 1.3063,
      "step": 2604
    },
    {
      "epoch": 2.8614581903061924,
      "grad_norm": 0.7178813219070435,
      "learning_rate": 1.5262515262515263e-05,
      "loss": 0.7447,
      "step": 2605
    },
    {
      "epoch": 2.862556638747769,
      "grad_norm": 0.6209506392478943,
      "learning_rate": 1.514041514041514e-05,
      "loss": 0.5496,
      "step": 2606
    },
    {
      "epoch": 2.863655087189345,
      "grad_norm": 0.5526819825172424,
      "learning_rate": 1.5018315018315018e-05,
      "loss": 0.4224,
      "step": 2607
    },
    {
      "epoch": 2.8647535356309213,
      "grad_norm": 0.5056405663490295,
      "learning_rate": 1.4896214896214895e-05,
      "loss": 0.6248,
      "step": 2608
    },
    {
      "epoch": 2.8658519840724974,
      "grad_norm": 2.416952610015869,
      "learning_rate": 1.4774114774114774e-05,
      "loss": 0.7551,
      "step": 2609
    },
    {
      "epoch": 2.866950432514074,
      "grad_norm": 0.52223140001297,
      "learning_rate": 1.4652014652014651e-05,
      "loss": 1.1146,
      "step": 2610
    },
    {
      "epoch": 2.86804888095565,
      "grad_norm": 0.685767650604248,
      "learning_rate": 1.4529914529914528e-05,
      "loss": 0.715,
      "step": 2611
    },
    {
      "epoch": 2.8691473293972263,
      "grad_norm": 0.650374174118042,
      "learning_rate": 1.4407814407814407e-05,
      "loss": 0.8844,
      "step": 2612
    },
    {
      "epoch": 2.870245777838803,
      "grad_norm": 0.46946465969085693,
      "learning_rate": 1.4285714285714284e-05,
      "loss": 0.9545,
      "step": 2613
    },
    {
      "epoch": 2.871344226280379,
      "grad_norm": 0.5312052369117737,
      "learning_rate": 1.4163614163614162e-05,
      "loss": 0.5204,
      "step": 2614
    },
    {
      "epoch": 2.872442674721955,
      "grad_norm": 0.41921889781951904,
      "learning_rate": 1.404151404151404e-05,
      "loss": 0.4614,
      "step": 2615
    },
    {
      "epoch": 2.8735411231635313,
      "grad_norm": 0.513203501701355,
      "learning_rate": 1.3919413919413918e-05,
      "loss": 0.613,
      "step": 2616
    },
    {
      "epoch": 2.874639571605108,
      "grad_norm": 1.1020901203155518,
      "learning_rate": 1.3797313797313795e-05,
      "loss": 0.525,
      "step": 2617
    },
    {
      "epoch": 2.875738020046684,
      "grad_norm": 0.39301392436027527,
      "learning_rate": 1.3675213675213674e-05,
      "loss": 0.5799,
      "step": 2618
    },
    {
      "epoch": 2.8768364684882606,
      "grad_norm": 1.576910376548767,
      "learning_rate": 1.3553113553113551e-05,
      "loss": 0.6286,
      "step": 2619
    },
    {
      "epoch": 2.8779349169298367,
      "grad_norm": 0.36711424589157104,
      "learning_rate": 1.3431013431013431e-05,
      "loss": 0.7542,
      "step": 2620
    },
    {
      "epoch": 2.879033365371413,
      "grad_norm": 1.2777636051177979,
      "learning_rate": 1.3308913308913308e-05,
      "loss": 0.6269,
      "step": 2621
    },
    {
      "epoch": 2.880131813812989,
      "grad_norm": 0.5584180355072021,
      "learning_rate": 1.3186813186813187e-05,
      "loss": 0.5633,
      "step": 2622
    },
    {
      "epoch": 2.8812302622545656,
      "grad_norm": 1.2418673038482666,
      "learning_rate": 1.3064713064713064e-05,
      "loss": 0.537,
      "step": 2623
    },
    {
      "epoch": 2.8823287106961417,
      "grad_norm": 0.5850531458854675,
      "learning_rate": 1.2942612942612941e-05,
      "loss": 0.595,
      "step": 2624
    },
    {
      "epoch": 2.883427159137718,
      "grad_norm": 1.054592251777649,
      "learning_rate": 1.282051282051282e-05,
      "loss": 0.8308,
      "step": 2625
    },
    {
      "epoch": 2.8845256075792944,
      "grad_norm": 0.3231412470340729,
      "learning_rate": 1.2698412698412697e-05,
      "loss": 0.4044,
      "step": 2626
    },
    {
      "epoch": 2.8856240560208706,
      "grad_norm": 0.47942933440208435,
      "learning_rate": 1.2576312576312576e-05,
      "loss": 0.6299,
      "step": 2627
    },
    {
      "epoch": 2.8867225044624467,
      "grad_norm": 0.4884187579154968,
      "learning_rate": 1.2454212454212453e-05,
      "loss": 0.6606,
      "step": 2628
    },
    {
      "epoch": 2.887820952904023,
      "grad_norm": 0.6658734083175659,
      "learning_rate": 1.2332112332112331e-05,
      "loss": 0.642,
      "step": 2629
    },
    {
      "epoch": 2.8889194013455994,
      "grad_norm": 0.24990247189998627,
      "learning_rate": 1.2210012210012208e-05,
      "loss": 0.4041,
      "step": 2630
    },
    {
      "epoch": 2.8900178497871756,
      "grad_norm": 0.6446508169174194,
      "learning_rate": 1.2087912087912087e-05,
      "loss": 0.7126,
      "step": 2631
    },
    {
      "epoch": 2.891116298228752,
      "grad_norm": 0.7800988554954529,
      "learning_rate": 1.1965811965811964e-05,
      "loss": 0.6733,
      "step": 2632
    },
    {
      "epoch": 2.8922147466703283,
      "grad_norm": 0.5319482684135437,
      "learning_rate": 1.1843711843711844e-05,
      "loss": 0.6445,
      "step": 2633
    },
    {
      "epoch": 2.8933131951119044,
      "grad_norm": 0.6029678583145142,
      "learning_rate": 1.172161172161172e-05,
      "loss": 0.7642,
      "step": 2634
    },
    {
      "epoch": 2.8944116435534806,
      "grad_norm": 0.9029693007469177,
      "learning_rate": 1.1599511599511597e-05,
      "loss": 0.635,
      "step": 2635
    },
    {
      "epoch": 2.8955100919950567,
      "grad_norm": 0.6022691130638123,
      "learning_rate": 1.1477411477411477e-05,
      "loss": 0.5361,
      "step": 2636
    },
    {
      "epoch": 2.8966085404366333,
      "grad_norm": 0.6777801513671875,
      "learning_rate": 1.1355311355311354e-05,
      "loss": 0.5099,
      "step": 2637
    },
    {
      "epoch": 2.8977069888782094,
      "grad_norm": 0.4157528877258301,
      "learning_rate": 1.1233211233211233e-05,
      "loss": 0.5038,
      "step": 2638
    },
    {
      "epoch": 2.898805437319786,
      "grad_norm": 2.6101133823394775,
      "learning_rate": 1.111111111111111e-05,
      "loss": 0.6324,
      "step": 2639
    },
    {
      "epoch": 2.899903885761362,
      "grad_norm": 0.6885612607002258,
      "learning_rate": 1.0989010989010989e-05,
      "loss": 0.4931,
      "step": 2640
    },
    {
      "epoch": 2.9010023342029383,
      "grad_norm": 0.5510079264640808,
      "learning_rate": 1.0866910866910866e-05,
      "loss": 0.5088,
      "step": 2641
    },
    {
      "epoch": 2.9021007826445144,
      "grad_norm": 0.6099854111671448,
      "learning_rate": 1.0744810744810744e-05,
      "loss": 0.4647,
      "step": 2642
    },
    {
      "epoch": 2.903199231086091,
      "grad_norm": 0.4390881657600403,
      "learning_rate": 1.0622710622710621e-05,
      "loss": 0.6787,
      "step": 2643
    },
    {
      "epoch": 2.904297679527667,
      "grad_norm": 0.46238628029823303,
      "learning_rate": 1.05006105006105e-05,
      "loss": 0.5655,
      "step": 2644
    },
    {
      "epoch": 2.9053961279692433,
      "grad_norm": 0.479106605052948,
      "learning_rate": 1.0378510378510377e-05,
      "loss": 0.7833,
      "step": 2645
    },
    {
      "epoch": 2.90649457641082,
      "grad_norm": 0.4643683135509491,
      "learning_rate": 1.0256410256410256e-05,
      "loss": 0.4563,
      "step": 2646
    },
    {
      "epoch": 2.907593024852396,
      "grad_norm": 0.4173976480960846,
      "learning_rate": 1.0134310134310133e-05,
      "loss": 0.6614,
      "step": 2647
    },
    {
      "epoch": 2.908691473293972,
      "grad_norm": 0.7158990502357483,
      "learning_rate": 1.001221001221001e-05,
      "loss": 0.7342,
      "step": 2648
    },
    {
      "epoch": 2.9097899217355483,
      "grad_norm": 0.7276301980018616,
      "learning_rate": 9.89010989010989e-06,
      "loss": 0.6883,
      "step": 2649
    },
    {
      "epoch": 2.910888370177125,
      "grad_norm": 0.63588947057724,
      "learning_rate": 9.768009768009766e-06,
      "loss": 0.7533,
      "step": 2650
    },
    {
      "epoch": 2.911986818618701,
      "grad_norm": 1.8038127422332764,
      "learning_rate": 9.645909645909646e-06,
      "loss": 0.6238,
      "step": 2651
    },
    {
      "epoch": 2.9130852670602776,
      "grad_norm": 0.7289617657661438,
      "learning_rate": 9.523809523809523e-06,
      "loss": 0.4767,
      "step": 2652
    },
    {
      "epoch": 2.9141837155018537,
      "grad_norm": 0.3828502893447876,
      "learning_rate": 9.401709401709402e-06,
      "loss": 0.4812,
      "step": 2653
    },
    {
      "epoch": 2.91528216394343,
      "grad_norm": 0.5157826542854309,
      "learning_rate": 9.279609279609279e-06,
      "loss": 0.703,
      "step": 2654
    },
    {
      "epoch": 2.916380612385006,
      "grad_norm": 0.6833345890045166,
      "learning_rate": 9.157509157509156e-06,
      "loss": 0.7471,
      "step": 2655
    },
    {
      "epoch": 2.9174790608265826,
      "grad_norm": 1.0189886093139648,
      "learning_rate": 9.035409035409035e-06,
      "loss": 0.6065,
      "step": 2656
    },
    {
      "epoch": 2.9185775092681587,
      "grad_norm": 0.5197221040725708,
      "learning_rate": 8.913308913308913e-06,
      "loss": 0.5904,
      "step": 2657
    },
    {
      "epoch": 2.919675957709735,
      "grad_norm": 0.6265780925750732,
      "learning_rate": 8.79120879120879e-06,
      "loss": 0.5622,
      "step": 2658
    },
    {
      "epoch": 2.9207744061513115,
      "grad_norm": 0.5703533887863159,
      "learning_rate": 8.669108669108669e-06,
      "loss": 0.8005,
      "step": 2659
    },
    {
      "epoch": 2.9218728545928876,
      "grad_norm": 0.8656613230705261,
      "learning_rate": 8.547008547008546e-06,
      "loss": 0.4942,
      "step": 2660
    },
    {
      "epoch": 2.9229713030344637,
      "grad_norm": 0.6180423498153687,
      "learning_rate": 8.424908424908425e-06,
      "loss": 0.8163,
      "step": 2661
    },
    {
      "epoch": 2.92406975147604,
      "grad_norm": 0.7308143377304077,
      "learning_rate": 8.302808302808302e-06,
      "loss": 0.7639,
      "step": 2662
    },
    {
      "epoch": 2.9251681999176165,
      "grad_norm": 0.585617184638977,
      "learning_rate": 8.18070818070818e-06,
      "loss": 0.7614,
      "step": 2663
    },
    {
      "epoch": 2.9262666483591926,
      "grad_norm": 0.5277345776557922,
      "learning_rate": 8.058608058608059e-06,
      "loss": 0.6489,
      "step": 2664
    },
    {
      "epoch": 2.927365096800769,
      "grad_norm": 0.3540293574333191,
      "learning_rate": 7.936507936507936e-06,
      "loss": 0.4503,
      "step": 2665
    },
    {
      "epoch": 2.9284635452423453,
      "grad_norm": 0.554492175579071,
      "learning_rate": 7.814407814407813e-06,
      "loss": 0.5785,
      "step": 2666
    },
    {
      "epoch": 2.9295619936839215,
      "grad_norm": 0.5547875761985779,
      "learning_rate": 7.692307692307692e-06,
      "loss": 0.5763,
      "step": 2667
    },
    {
      "epoch": 2.9306604421254976,
      "grad_norm": 0.745947003364563,
      "learning_rate": 7.57020757020757e-06,
      "loss": 0.512,
      "step": 2668
    },
    {
      "epoch": 2.931758890567074,
      "grad_norm": 0.47691571712493896,
      "learning_rate": 7.448107448107448e-06,
      "loss": 0.7018,
      "step": 2669
    },
    {
      "epoch": 2.9328573390086503,
      "grad_norm": 0.9611607789993286,
      "learning_rate": 7.3260073260073255e-06,
      "loss": 0.7419,
      "step": 2670
    },
    {
      "epoch": 2.9339557874502264,
      "grad_norm": 0.5495268106460571,
      "learning_rate": 7.203907203907203e-06,
      "loss": 0.6096,
      "step": 2671
    },
    {
      "epoch": 2.935054235891803,
      "grad_norm": 0.8863226771354675,
      "learning_rate": 7.081807081807081e-06,
      "loss": 0.7149,
      "step": 2672
    },
    {
      "epoch": 2.936152684333379,
      "grad_norm": 0.4234665334224701,
      "learning_rate": 6.959706959706959e-06,
      "loss": 0.6913,
      "step": 2673
    },
    {
      "epoch": 2.9372511327749553,
      "grad_norm": 0.9667326211929321,
      "learning_rate": 6.837606837606837e-06,
      "loss": 0.4181,
      "step": 2674
    },
    {
      "epoch": 2.9383495812165314,
      "grad_norm": 0.543683648109436,
      "learning_rate": 6.715506715506716e-06,
      "loss": 0.6329,
      "step": 2675
    },
    {
      "epoch": 2.939448029658108,
      "grad_norm": 0.5083779692649841,
      "learning_rate": 6.5934065934065935e-06,
      "loss": 0.8742,
      "step": 2676
    },
    {
      "epoch": 2.940546478099684,
      "grad_norm": 0.7212001085281372,
      "learning_rate": 6.4713064713064706e-06,
      "loss": 0.6912,
      "step": 2677
    },
    {
      "epoch": 2.9416449265412603,
      "grad_norm": 0.9474835991859436,
      "learning_rate": 6.349206349206348e-06,
      "loss": 0.649,
      "step": 2678
    },
    {
      "epoch": 2.942743374982837,
      "grad_norm": 0.8142021298408508,
      "learning_rate": 6.227106227106226e-06,
      "loss": 0.6136,
      "step": 2679
    },
    {
      "epoch": 2.943841823424413,
      "grad_norm": 2.9018187522888184,
      "learning_rate": 6.105006105006104e-06,
      "loss": 0.7157,
      "step": 2680
    },
    {
      "epoch": 2.944940271865989,
      "grad_norm": 0.4023605287075043,
      "learning_rate": 5.982905982905982e-06,
      "loss": 0.5675,
      "step": 2681
    },
    {
      "epoch": 2.9460387203075653,
      "grad_norm": 0.3693840801715851,
      "learning_rate": 5.86080586080586e-06,
      "loss": 0.5982,
      "step": 2682
    },
    {
      "epoch": 2.947137168749142,
      "grad_norm": 0.4298234283924103,
      "learning_rate": 5.738705738705739e-06,
      "loss": 0.5379,
      "step": 2683
    },
    {
      "epoch": 2.948235617190718,
      "grad_norm": 0.6495395302772522,
      "learning_rate": 5.6166056166056165e-06,
      "loss": 0.5411,
      "step": 2684
    },
    {
      "epoch": 2.9493340656322946,
      "grad_norm": 0.44857510924339294,
      "learning_rate": 5.494505494505494e-06,
      "loss": 0.5154,
      "step": 2685
    },
    {
      "epoch": 2.9504325140738707,
      "grad_norm": 0.7485830187797546,
      "learning_rate": 5.372405372405372e-06,
      "loss": 0.6595,
      "step": 2686
    },
    {
      "epoch": 2.951530962515447,
      "grad_norm": 0.5141469836235046,
      "learning_rate": 5.25030525030525e-06,
      "loss": 0.6289,
      "step": 2687
    },
    {
      "epoch": 2.952629410957023,
      "grad_norm": 0.8847435712814331,
      "learning_rate": 5.128205128205128e-06,
      "loss": 0.6734,
      "step": 2688
    },
    {
      "epoch": 2.9537278593985996,
      "grad_norm": 0.570573091506958,
      "learning_rate": 5.006105006105005e-06,
      "loss": 0.7013,
      "step": 2689
    },
    {
      "epoch": 2.9548263078401757,
      "grad_norm": 0.4376991391181946,
      "learning_rate": 4.884004884004883e-06,
      "loss": 0.5918,
      "step": 2690
    },
    {
      "epoch": 2.955924756281752,
      "grad_norm": 0.5480318069458008,
      "learning_rate": 4.7619047619047615e-06,
      "loss": 0.6227,
      "step": 2691
    },
    {
      "epoch": 2.9570232047233285,
      "grad_norm": 0.5831297636032104,
      "learning_rate": 4.639804639804639e-06,
      "loss": 0.6264,
      "step": 2692
    },
    {
      "epoch": 2.9581216531649046,
      "grad_norm": 1.5778921842575073,
      "learning_rate": 4.517704517704517e-06,
      "loss": 0.6352,
      "step": 2693
    },
    {
      "epoch": 2.9592201016064807,
      "grad_norm": 0.9567496180534363,
      "learning_rate": 4.395604395604395e-06,
      "loss": 0.6067,
      "step": 2694
    },
    {
      "epoch": 2.960318550048057,
      "grad_norm": 0.5237869620323181,
      "learning_rate": 4.273504273504273e-06,
      "loss": 0.8241,
      "step": 2695
    },
    {
      "epoch": 2.9614169984896335,
      "grad_norm": 0.3452164828777313,
      "learning_rate": 4.151404151404151e-06,
      "loss": 0.5718,
      "step": 2696
    },
    {
      "epoch": 2.9625154469312096,
      "grad_norm": 0.42237767577171326,
      "learning_rate": 4.0293040293040296e-06,
      "loss": 0.5199,
      "step": 2697
    },
    {
      "epoch": 2.963613895372786,
      "grad_norm": 0.7035055756568909,
      "learning_rate": 3.907203907203907e-06,
      "loss": 0.7078,
      "step": 2698
    },
    {
      "epoch": 2.9647123438143623,
      "grad_norm": 0.39236482977867126,
      "learning_rate": 3.785103785103785e-06,
      "loss": 0.59,
      "step": 2699
    },
    {
      "epoch": 2.9658107922559385,
      "grad_norm": 1.1658680438995361,
      "learning_rate": 3.6630036630036627e-06,
      "loss": 0.53,
      "step": 2700
    },
    {
      "epoch": 2.9669092406975146,
      "grad_norm": 0.6797634363174438,
      "learning_rate": 3.5409035409035406e-06,
      "loss": 0.6763,
      "step": 2701
    },
    {
      "epoch": 2.968007689139091,
      "grad_norm": 1.0421425104141235,
      "learning_rate": 3.4188034188034185e-06,
      "loss": 0.4,
      "step": 2702
    },
    {
      "epoch": 2.9691061375806673,
      "grad_norm": 0.36937475204467773,
      "learning_rate": 3.2967032967032968e-06,
      "loss": 0.5401,
      "step": 2703
    },
    {
      "epoch": 2.9702045860222435,
      "grad_norm": 0.4324638843536377,
      "learning_rate": 3.174603174603174e-06,
      "loss": 0.5882,
      "step": 2704
    },
    {
      "epoch": 2.97130303446382,
      "grad_norm": 1.2700526714324951,
      "learning_rate": 3.052503052503052e-06,
      "loss": 0.613,
      "step": 2705
    },
    {
      "epoch": 2.972401482905396,
      "grad_norm": 0.5261131525039673,
      "learning_rate": 2.93040293040293e-06,
      "loss": 0.6279,
      "step": 2706
    },
    {
      "epoch": 2.9734999313469723,
      "grad_norm": 0.42924660444259644,
      "learning_rate": 2.8083028083028082e-06,
      "loss": 1.0058,
      "step": 2707
    },
    {
      "epoch": 2.9745983797885485,
      "grad_norm": 3.100399971008301,
      "learning_rate": 2.686202686202686e-06,
      "loss": 0.5209,
      "step": 2708
    },
    {
      "epoch": 2.975696828230125,
      "grad_norm": 0.3666403293609619,
      "learning_rate": 2.564102564102564e-06,
      "loss": 0.5231,
      "step": 2709
    },
    {
      "epoch": 2.976795276671701,
      "grad_norm": 1.1315009593963623,
      "learning_rate": 2.4420024420024414e-06,
      "loss": 0.4449,
      "step": 2710
    },
    {
      "epoch": 2.9778937251132778,
      "grad_norm": 0.3323412537574768,
      "learning_rate": 2.3199023199023197e-06,
      "loss": 0.4806,
      "step": 2711
    },
    {
      "epoch": 2.978992173554854,
      "grad_norm": 0.7348967790603638,
      "learning_rate": 2.1978021978021976e-06,
      "loss": 0.7521,
      "step": 2712
    },
    {
      "epoch": 2.98009062199643,
      "grad_norm": 1.018898606300354,
      "learning_rate": 2.0757020757020754e-06,
      "loss": 0.8468,
      "step": 2713
    },
    {
      "epoch": 2.981189070438006,
      "grad_norm": 0.46808505058288574,
      "learning_rate": 1.9536019536019533e-06,
      "loss": 0.6992,
      "step": 2714
    },
    {
      "epoch": 2.9822875188795823,
      "grad_norm": 0.5411276817321777,
      "learning_rate": 1.8315018315018314e-06,
      "loss": 0.5949,
      "step": 2715
    },
    {
      "epoch": 2.983385967321159,
      "grad_norm": 0.45061302185058594,
      "learning_rate": 1.7094017094017092e-06,
      "loss": 0.4617,
      "step": 2716
    },
    {
      "epoch": 2.984484415762735,
      "grad_norm": 0.44529294967651367,
      "learning_rate": 1.587301587301587e-06,
      "loss": 0.5811,
      "step": 2717
    },
    {
      "epoch": 2.9855828642043116,
      "grad_norm": 1.255299687385559,
      "learning_rate": 1.465201465201465e-06,
      "loss": 1.1899,
      "step": 2718
    },
    {
      "epoch": 2.9866813126458878,
      "grad_norm": 0.8325234651565552,
      "learning_rate": 1.343101343101343e-06,
      "loss": 0.6344,
      "step": 2719
    },
    {
      "epoch": 2.987779761087464,
      "grad_norm": 1.0692095756530762,
      "learning_rate": 1.2210012210012207e-06,
      "loss": 0.5136,
      "step": 2720
    },
    {
      "epoch": 2.98887820952904,
      "grad_norm": 0.4980855882167816,
      "learning_rate": 1.0989010989010988e-06,
      "loss": 0.6352,
      "step": 2721
    },
    {
      "epoch": 2.9899766579706166,
      "grad_norm": 0.8502411246299744,
      "learning_rate": 9.768009768009766e-07,
      "loss": 0.599,
      "step": 2722
    },
    {
      "epoch": 2.9910751064121928,
      "grad_norm": 0.4849570691585541,
      "learning_rate": 8.547008547008546e-07,
      "loss": 0.5862,
      "step": 2723
    },
    {
      "epoch": 2.992173554853769,
      "grad_norm": 0.5491626858711243,
      "learning_rate": 7.326007326007325e-07,
      "loss": 0.5634,
      "step": 2724
    },
    {
      "epoch": 2.9932720032953455,
      "grad_norm": 0.7289263606071472,
      "learning_rate": 6.105006105006104e-07,
      "loss": 0.6643,
      "step": 2725
    },
    {
      "epoch": 2.9943704517369216,
      "grad_norm": 1.5343972444534302,
      "learning_rate": 4.884004884004883e-07,
      "loss": 0.71,
      "step": 2726
    },
    {
      "epoch": 2.9954689001784978,
      "grad_norm": 0.5619814395904541,
      "learning_rate": 3.6630036630036624e-07,
      "loss": 0.721,
      "step": 2727
    },
    {
      "epoch": 2.996567348620074,
      "grad_norm": 0.500442624092102,
      "learning_rate": 2.4420024420024416e-07,
      "loss": 0.6571,
      "step": 2728
    },
    {
      "epoch": 2.9976657970616505,
      "grad_norm": 0.42292630672454834,
      "learning_rate": 1.2210012210012208e-07,
      "loss": 0.4772,
      "step": 2729
    },
    {
      "epoch": 2.9987642455032266,
      "grad_norm": 0.4350331425666809,
      "learning_rate": 0.0,
      "loss": 0.7493,
      "step": 2730
    },
    {
      "epoch": 2.9987642455032266,
      "step": 2730,
      "total_flos": 1.0372510312766669e+18,
      "train_loss": 0.674373844124022,
      "train_runtime": 11584.4184,
      "train_samples_per_second": 1.886,
      "train_steps_per_second": 0.236
    }
  ],
  "logging_steps": 1.0,
  "max_steps": 2730,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.0372510312766669e+18,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}