Spaces:

1NEYRON1
/

Topic_classification_for_scientific_articles

Sleeping

App Files Files Community

1NEYRON1 commited on Apr 4

Commit

e7cad7a

1 Parent(s): 74f655e

Upload 5 files

Browse files

Files changed (5) hide show

checkpoint/config (4).json +305 -0
checkpoint/rng_state (3).pth +3 -0
checkpoint/scheduler (3).pt +3 -0
checkpoint/trainer_state (3).json +2059 -0
checkpoint/training_args (3).bin +3 -0

checkpoint/config (4).json ADDED Viewed

	@@ -0,0 +1,305 @@

+{
+  "activation": "gelu",
+  "architectures": [
+    "DistilBertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "dim": 768,
+  "dropout": 0.1,
+  "hidden_dim": 3072,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2",
+    "3": "LABEL_3",
+    "4": "LABEL_4",
+    "5": "LABEL_5",
+    "6": "LABEL_6",
+    "7": "LABEL_7",
+    "8": "LABEL_8",
+    "9": "LABEL_9",
+    "10": "LABEL_10",
+    "11": "LABEL_11",
+    "12": "LABEL_12",
+    "13": "LABEL_13",
+    "14": "LABEL_14",
+    "15": "LABEL_15",
+    "16": "LABEL_16",
+    "17": "LABEL_17",
+    "18": "LABEL_18",
+    "19": "LABEL_19",
+    "20": "LABEL_20",
+    "21": "LABEL_21",
+    "22": "LABEL_22",
+    "23": "LABEL_23",
+    "24": "LABEL_24",
+    "25": "LABEL_25",
+    "26": "LABEL_26",
+    "27": "LABEL_27",
+    "28": "LABEL_28",
+    "29": "LABEL_29",
+    "30": "LABEL_30",
+    "31": "LABEL_31",
+    "32": "LABEL_32",
+    "33": "LABEL_33",
+    "34": "LABEL_34",
+    "35": "LABEL_35",
+    "36": "LABEL_36",
+    "37": "LABEL_37",
+    "38": "LABEL_38",
+    "39": "LABEL_39",
+    "40": "LABEL_40",
+    "41": "LABEL_41",
+    "42": "LABEL_42",
+    "43": "LABEL_43",
+    "44": "LABEL_44",
+    "45": "LABEL_45",
+    "46": "LABEL_46",
+    "47": "LABEL_47",
+    "48": "LABEL_48",
+    "49": "LABEL_49",
+    "50": "LABEL_50",
+    "51": "LABEL_51",
+    "52": "LABEL_52",
+    "53": "LABEL_53",
+    "54": "LABEL_54",
+    "55": "LABEL_55",
+    "56": "LABEL_56",
+    "57": "LABEL_57",
+    "58": "LABEL_58",
+    "59": "LABEL_59",
+    "60": "LABEL_60",
+    "61": "LABEL_61",
+    "62": "LABEL_62",
+    "63": "LABEL_63",
+    "64": "LABEL_64",
+    "65": "LABEL_65",
+    "66": "LABEL_66",
+    "67": "LABEL_67",
+    "68": "LABEL_68",
+    "69": "LABEL_69",
+    "70": "LABEL_70",
+    "71": "LABEL_71",
+    "72": "LABEL_72",
+    "73": "LABEL_73",
+    "74": "LABEL_74",
+    "75": "LABEL_75",
+    "76": "LABEL_76",
+    "77": "LABEL_77",
+    "78": "LABEL_78",
+    "79": "LABEL_79",
+    "80": "LABEL_80",
+    "81": "LABEL_81",
+    "82": "LABEL_82",
+    "83": "LABEL_83",
+    "84": "LABEL_84",
+    "85": "LABEL_85",
+    "86": "LABEL_86",
+    "87": "LABEL_87",
+    "88": "LABEL_88",
+    "89": "LABEL_89",
+    "90": "LABEL_90",
+    "91": "LABEL_91",
+    "92": "LABEL_92",
+    "93": "LABEL_93",
+    "94": "LABEL_94",
+    "95": "LABEL_95",
+    "96": "LABEL_96",
+    "97": "LABEL_97",
+    "98": "LABEL_98",
+    "99": "LABEL_99",
+    "100": "LABEL_100",
+    "101": "LABEL_101",
+    "102": "LABEL_102",
+    "103": "LABEL_103",
+    "104": "LABEL_104",
+    "105": "LABEL_105",
+    "106": "LABEL_106",
+    "107": "LABEL_107",
+    "108": "LABEL_108",
+    "109": "LABEL_109",
+    "110": "LABEL_110",
+    "111": "LABEL_111",
+    "112": "LABEL_112",
+    "113": "LABEL_113",
+    "114": "LABEL_114",
+    "115": "LABEL_115",
+    "116": "LABEL_116",
+    "117": "LABEL_117",
+    "118": "LABEL_118",
+    "119": "LABEL_119",
+    "120": "LABEL_120",
+    "121": "LABEL_121",
+    "122": "LABEL_122",
+    "123": "LABEL_123",
+    "124": "LABEL_124",
+    "125": "LABEL_125",
+    "126": "LABEL_126",
+    "127": "LABEL_127",
+    "128": "LABEL_128",
+    "129": "LABEL_129",
+    "130": "LABEL_130",
+    "131": "LABEL_131",
+    "132": "LABEL_132",
+    "133": "LABEL_133",
+    "134": "LABEL_134",
+    "135": "LABEL_135",
+    "136": "LABEL_136",
+    "137": "LABEL_137"
+  },
+  "initializer_range": 0.02,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_10": 10,
+    "LABEL_100": 100,
+    "LABEL_101": 101,
+    "LABEL_102": 102,
+    "LABEL_103": 103,
+    "LABEL_104": 104,
+    "LABEL_105": 105,
+    "LABEL_106": 106,
+    "LABEL_107": 107,
+    "LABEL_108": 108,
+    "LABEL_109": 109,
+    "LABEL_11": 11,
+    "LABEL_110": 110,
+    "LABEL_111": 111,
+    "LABEL_112": 112,
+    "LABEL_113": 113,
+    "LABEL_114": 114,
+    "LABEL_115": 115,
+    "LABEL_116": 116,
+    "LABEL_117": 117,
+    "LABEL_118": 118,
+    "LABEL_119": 119,
+    "LABEL_12": 12,
+    "LABEL_120": 120,
+    "LABEL_121": 121,
+    "LABEL_122": 122,
+    "LABEL_123": 123,
+    "LABEL_124": 124,
+    "LABEL_125": 125,
+    "LABEL_126": 126,
+    "LABEL_127": 127,
+    "LABEL_128": 128,
+    "LABEL_129": 129,
+    "LABEL_13": 13,
+    "LABEL_130": 130,
+    "LABEL_131": 131,
+    "LABEL_132": 132,
+    "LABEL_133": 133,
+    "LABEL_134": 134,
+    "LABEL_135": 135,
+    "LABEL_136": 136,
+    "LABEL_137": 137,
+    "LABEL_14": 14,
+    "LABEL_15": 15,
+    "LABEL_16": 16,
+    "LABEL_17": 17,
+    "LABEL_18": 18,
+    "LABEL_19": 19,
+    "LABEL_2": 2,
+    "LABEL_20": 20,
+    "LABEL_21": 21,
+    "LABEL_22": 22,
+    "LABEL_23": 23,
+    "LABEL_24": 24,
+    "LABEL_25": 25,
+    "LABEL_26": 26,
+    "LABEL_27": 27,
+    "LABEL_28": 28,
+    "LABEL_29": 29,
+    "LABEL_3": 3,
+    "LABEL_30": 30,
+    "LABEL_31": 31,
+    "LABEL_32": 32,
+    "LABEL_33": 33,
+    "LABEL_34": 34,
+    "LABEL_35": 35,
+    "LABEL_36": 36,
+    "LABEL_37": 37,
+    "LABEL_38": 38,
+    "LABEL_39": 39,
+    "LABEL_4": 4,
+    "LABEL_40": 40,
+    "LABEL_41": 41,
+    "LABEL_42": 42,
+    "LABEL_43": 43,
+    "LABEL_44": 44,
+    "LABEL_45": 45,
+    "LABEL_46": 46,
+    "LABEL_47": 47,
+    "LABEL_48": 48,
+    "LABEL_49": 49,
+    "LABEL_5": 5,
+    "LABEL_50": 50,
+    "LABEL_51": 51,
+    "LABEL_52": 52,
+    "LABEL_53": 53,
+    "LABEL_54": 54,
+    "LABEL_55": 55,
+    "LABEL_56": 56,
+    "LABEL_57": 57,
+    "LABEL_58": 58,
+    "LABEL_59": 59,
+    "LABEL_6": 6,
+    "LABEL_60": 60,
+    "LABEL_61": 61,
+    "LABEL_62": 62,
+    "LABEL_63": 63,
+    "LABEL_64": 64,
+    "LABEL_65": 65,
+    "LABEL_66": 66,
+    "LABEL_67": 67,
+    "LABEL_68": 68,
+    "LABEL_69": 69,
+    "LABEL_7": 7,
+    "LABEL_70": 70,
+    "LABEL_71": 71,
+    "LABEL_72": 72,
+    "LABEL_73": 73,
+    "LABEL_74": 74,
+    "LABEL_75": 75,
+    "LABEL_76": 76,
+    "LABEL_77": 77,
+    "LABEL_78": 78,
+    "LABEL_79": 79,
+    "LABEL_8": 8,
+    "LABEL_80": 80,
+    "LABEL_81": 81,
+    "LABEL_82": 82,
+    "LABEL_83": 83,
+    "LABEL_84": 84,
+    "LABEL_85": 85,
+    "LABEL_86": 86,
+    "LABEL_87": 87,
+    "LABEL_88": 88,
+    "LABEL_89": 89,
+    "LABEL_9": 9,
+    "LABEL_90": 90,
+    "LABEL_91": 91,
+    "LABEL_92": 92,
+    "LABEL_93": 93,
+    "LABEL_94": 94,
+    "LABEL_95": 95,
+    "LABEL_96": 96,
+    "LABEL_97": 97,
+    "LABEL_98": 98,
+    "LABEL_99": 99
+  },
+  "max_position_embeddings": 512,
+  "model_type": "distilbert",
+  "n_heads": 12,
+  "n_layers": 6,
+  "output_past": true,
+  "pad_token_id": 0,
+  "problem_type": "multi_label_classification",
+  "qa_dropout": 0.1,
+  "seq_classif_dropout": 0.2,
+  "sinusoidal_pos_embds": false,
+  "tie_weights_": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.50.3",
+  "vocab_size": 28996
+}

checkpoint/rng_state (3).pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c50d9628402a32df38c032752f3d8a88e0c9e2bf51198d620654679fa05dafea
+size 14244

checkpoint/scheduler (3).pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0cdc803c58331651f83de9a076d84c91dc54e425a92682d176ffa7127a5a1c12
+size 1064

checkpoint/trainer_state (3).json ADDED Viewed

	@@ -0,0 +1,2059 @@

+{
+  "best_global_step": 2500,
+  "best_metric": 0.6559016016048936,
+  "best_model_checkpoint": "./results/checkpoint-2500",
+  "epoch": 1.2195121951219512,
+  "eval_steps": 100,
+  "global_step": 2500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.004878048780487805,
+      "grad_norm": 0.5707780718803406,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.373,
+      "step": 10
+    },
+    {
+      "epoch": 0.00975609756097561,
+      "grad_norm": 0.5740946531295776,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 0.3695,
+      "step": 20
+    },
+    {
+      "epoch": 0.014634146341463415,
+      "grad_norm": 0.5766364336013794,
+      "learning_rate": 3e-06,
+      "loss": 0.3651,
+      "step": 30
+    },
+    {
+      "epoch": 0.01951219512195122,
+      "grad_norm": 0.5667976140975952,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.3589,
+      "step": 40
+    },
+    {
+      "epoch": 0.024390243902439025,
+      "grad_norm": 0.5701761841773987,
+      "learning_rate": 5e-06,
+      "loss": 0.3521,
+      "step": 50
+    },
+    {
+      "epoch": 0.02926829268292683,
+      "grad_norm": 0.562853991985321,
+      "learning_rate": 6e-06,
+      "loss": 0.3424,
+      "step": 60
+    },
+    {
+      "epoch": 0.03414634146341464,
+      "grad_norm": 0.558131754398346,
+      "learning_rate": 7.000000000000001e-06,
+      "loss": 0.3304,
+      "step": 70
+    },
+    {
+      "epoch": 0.03902439024390244,
+      "grad_norm": 0.5538951754570007,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.315,
+      "step": 80
+    },
+    {
+      "epoch": 0.04390243902439024,
+      "grad_norm": 0.5401511788368225,
+      "learning_rate": 9e-06,
+      "loss": 0.2998,
+      "step": 90
+    },
+    {
+      "epoch": 0.04878048780487805,
+      "grad_norm": 0.5289145708084106,
+      "learning_rate": 1e-05,
+      "loss": 0.2813,
+      "step": 100
+    },
+    {
+      "epoch": 0.04878048780487805,
+      "eval_f1": 0.02288934762189008,
+      "eval_loss": 0.2639255225658417,
+      "eval_precision": 0.011585886400544311,
+      "eval_recall": 0.938986325802616,
+      "eval_runtime": 132.4738,
+      "eval_samples_per_second": 61.899,
+      "eval_steps_per_second": 0.974,
+      "step": 100
+    },
+    {
+      "epoch": 0.05365853658536585,
+      "grad_norm": 0.5152837038040161,
+      "learning_rate": 1.1000000000000001e-05,
+      "loss": 0.2626,
+      "step": 110
+    },
+    {
+      "epoch": 0.05853658536585366,
+      "grad_norm": 0.48544010519981384,
+      "learning_rate": 1.2e-05,
+      "loss": 0.2423,
+      "step": 120
+    },
+    {
+      "epoch": 0.06341463414634146,
+      "grad_norm": 0.47114691138267517,
+      "learning_rate": 1.3000000000000001e-05,
+      "loss": 0.2222,
+      "step": 130
+    },
+    {
+      "epoch": 0.06829268292682927,
+      "grad_norm": 0.44177231192588806,
+      "learning_rate": 1.4000000000000001e-05,
+      "loss": 0.2014,
+      "step": 140
+    },
+    {
+      "epoch": 0.07317073170731707,
+      "grad_norm": 0.4138778746128082,
+      "learning_rate": 1.5e-05,
+      "loss": 0.1792,
+      "step": 150
+    },
+    {
+      "epoch": 0.07804878048780488,
+      "grad_norm": 0.3736928403377533,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 0.1606,
+      "step": 160
+    },
+    {
+      "epoch": 0.08292682926829269,
+      "grad_norm": 0.3438684046268463,
+      "learning_rate": 1.7000000000000003e-05,
+      "loss": 0.1425,
+      "step": 170
+    },
+    {
+      "epoch": 0.08780487804878048,
+      "grad_norm": 0.29839885234832764,
+      "learning_rate": 1.8e-05,
+      "loss": 0.1254,
+      "step": 180
+    },
+    {
+      "epoch": 0.09268292682926829,
+      "grad_norm": 0.27134254574775696,
+      "learning_rate": 1.9e-05,
+      "loss": 0.1091,
+      "step": 190
+    },
+    {
+      "epoch": 0.0975609756097561,
+      "grad_norm": 0.24228985607624054,
+      "learning_rate": 2e-05,
+      "loss": 0.0955,
+      "step": 200
+    },
+    {
+      "epoch": 0.0975609756097561,
+      "eval_f1": 0.40798082528988794,
+      "eval_loss": 0.08500728011131287,
+      "eval_precision": 0.2875361436615431,
+      "eval_recall": 0.7020659928656362,
+      "eval_runtime": 133.9225,
+      "eval_samples_per_second": 61.229,
+      "eval_steps_per_second": 0.963,
+      "step": 200
+    },
+    {
+      "epoch": 0.1024390243902439,
+      "grad_norm": 0.21252021193504333,
+      "learning_rate": 2.1e-05,
+      "loss": 0.0858,
+      "step": 210
+    },
+    {
+      "epoch": 0.1073170731707317,
+      "grad_norm": 0.20333224534988403,
+      "learning_rate": 2.2000000000000003e-05,
+      "loss": 0.0761,
+      "step": 220
+    },
+    {
+      "epoch": 0.11219512195121951,
+      "grad_norm": 0.1808163970708847,
+      "learning_rate": 2.3000000000000003e-05,
+      "loss": 0.0707,
+      "step": 230
+    },
+    {
+      "epoch": 0.11707317073170732,
+      "grad_norm": 0.14729662239551544,
+      "learning_rate": 2.4e-05,
+      "loss": 0.0631,
+      "step": 240
+    },
+    {
+      "epoch": 0.12195121951219512,
+      "grad_norm": 0.16881898045539856,
+      "learning_rate": 2.5e-05,
+      "loss": 0.0588,
+      "step": 250
+    },
+    {
+      "epoch": 0.12682926829268293,
+      "grad_norm": 0.17096662521362305,
+      "learning_rate": 2.6000000000000002e-05,
+      "loss": 0.0535,
+      "step": 260
+    },
+    {
+      "epoch": 0.13170731707317074,
+      "grad_norm": 0.15806329250335693,
+      "learning_rate": 2.7000000000000002e-05,
+      "loss": 0.0507,
+      "step": 270
+    },
+    {
+      "epoch": 0.13658536585365855,
+      "grad_norm": 0.10550623387098312,
+      "learning_rate": 2.8000000000000003e-05,
+      "loss": 0.0529,
+      "step": 280
+    },
+    {
+      "epoch": 0.14146341463414633,
+      "grad_norm": 0.1570628583431244,
+      "learning_rate": 2.9e-05,
+      "loss": 0.0464,
+      "step": 290
+    },
+    {
+      "epoch": 0.14634146341463414,
+      "grad_norm": 0.11487462371587753,
+      "learning_rate": 3e-05,
+      "loss": 0.0455,
+      "step": 300
+    },
+    {
+      "epoch": 0.14634146341463414,
+      "eval_f1": 0.40842269111034246,
+      "eval_loss": 0.04193972423672676,
+      "eval_precision": 0.28798780487804876,
+      "eval_recall": 0.7019916765755053,
+      "eval_runtime": 131.8065,
+      "eval_samples_per_second": 62.212,
+      "eval_steps_per_second": 0.979,
+      "step": 300
+    },
+    {
+      "epoch": 0.15121951219512195,
+      "grad_norm": 0.10432987660169601,
+      "learning_rate": 3.1e-05,
+      "loss": 0.0414,
+      "step": 310
+    },
+    {
+      "epoch": 0.15609756097560976,
+      "grad_norm": 0.12195131927728653,
+      "learning_rate": 3.2000000000000005e-05,
+      "loss": 0.0415,
+      "step": 320
+    },
+    {
+      "epoch": 0.16097560975609757,
+      "grad_norm": 0.11948198080062866,
+      "learning_rate": 3.3e-05,
+      "loss": 0.0415,
+      "step": 330
+    },
+    {
+      "epoch": 0.16585365853658537,
+      "grad_norm": 0.11321187764406204,
+      "learning_rate": 3.4000000000000007e-05,
+      "loss": 0.0402,
+      "step": 340
+    },
+    {
+      "epoch": 0.17073170731707318,
+      "grad_norm": 0.13302814960479736,
+      "learning_rate": 3.5e-05,
+      "loss": 0.0385,
+      "step": 350
+    },
+    {
+      "epoch": 0.17560975609756097,
+      "grad_norm": 0.18504567444324493,
+      "learning_rate": 3.6e-05,
+      "loss": 0.0393,
+      "step": 360
+    },
+    {
+      "epoch": 0.18048780487804877,
+      "grad_norm": 0.11665136367082596,
+      "learning_rate": 3.7e-05,
+      "loss": 0.0361,
+      "step": 370
+    },
+    {
+      "epoch": 0.18536585365853658,
+      "grad_norm": 0.09814433008432388,
+      "learning_rate": 3.8e-05,
+      "loss": 0.0373,
+      "step": 380
+    },
+    {
+      "epoch": 0.1902439024390244,
+      "grad_norm": 0.10006968677043915,
+      "learning_rate": 3.9000000000000006e-05,
+      "loss": 0.0336,
+      "step": 390
+    },
+    {
+      "epoch": 0.1951219512195122,
+      "grad_norm": 0.14240923523902893,
+      "learning_rate": 4e-05,
+      "loss": 0.0363,
+      "step": 400
+    },
+    {
+      "epoch": 0.1951219512195122,
+      "eval_f1": 0.4903333065186496,
+      "eval_loss": 0.03265204280614853,
+      "eval_precision": 0.383563367873474,
+      "eval_recall": 0.6794738406658739,
+      "eval_runtime": 131.7664,
+      "eval_samples_per_second": 62.231,
+      "eval_steps_per_second": 0.979,
+      "step": 400
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 0.09334200620651245,
+      "learning_rate": 4.1e-05,
+      "loss": 0.0332,
+      "step": 410
+    },
+    {
+      "epoch": 0.2048780487804878,
+      "grad_norm": 0.0977184921503067,
+      "learning_rate": 4.2e-05,
+      "loss": 0.0326,
+      "step": 420
+    },
+    {
+      "epoch": 0.2097560975609756,
+      "grad_norm": 0.12227483093738556,
+      "learning_rate": 4.3e-05,
+      "loss": 0.0321,
+      "step": 430
+    },
+    {
+      "epoch": 0.2146341463414634,
+      "grad_norm": 0.07999078929424286,
+      "learning_rate": 4.4000000000000006e-05,
+      "loss": 0.0304,
+      "step": 440
+    },
+    {
+      "epoch": 0.21951219512195122,
+      "grad_norm": 0.13925114274024963,
+      "learning_rate": 4.5e-05,
+      "loss": 0.0296,
+      "step": 450
+    },
+    {
+      "epoch": 0.22439024390243903,
+      "grad_norm": 0.09850054234266281,
+      "learning_rate": 4.600000000000001e-05,
+      "loss": 0.0286,
+      "step": 460
+    },
+    {
+      "epoch": 0.22926829268292684,
+      "grad_norm": 0.09087326377630234,
+      "learning_rate": 4.7e-05,
+      "loss": 0.0293,
+      "step": 470
+    },
+    {
+      "epoch": 0.23414634146341465,
+      "grad_norm": 0.11158157885074615,
+      "learning_rate": 4.8e-05,
+      "loss": 0.0329,
+      "step": 480
+    },
+    {
+      "epoch": 0.23902439024390243,
+      "grad_norm": 0.0853157714009285,
+      "learning_rate": 4.9e-05,
+      "loss": 0.0302,
+      "step": 490
+    },
+    {
+      "epoch": 0.24390243902439024,
+      "grad_norm": 0.1297878473997116,
+      "learning_rate": 5e-05,
+      "loss": 0.0321,
+      "step": 500
+    },
+    {
+      "epoch": 0.24390243902439024,
+      "eval_f1": 0.5804941656357618,
+      "eval_loss": 0.02912677265703678,
+      "eval_precision": 0.5276241414939524,
+      "eval_recall": 0.645139714625446,
+      "eval_runtime": 132.6761,
+      "eval_samples_per_second": 61.805,
+      "eval_steps_per_second": 0.972,
+      "step": 500
+    },
+    {
+      "epoch": 0.24878048780487805,
+      "grad_norm": 0.1282796561717987,
+      "learning_rate": 4.9911504424778765e-05,
+      "loss": 0.0316,
+      "step": 510
+    },
+    {
+      "epoch": 0.25365853658536586,
+      "grad_norm": 0.12388455867767334,
+      "learning_rate": 4.982300884955752e-05,
+      "loss": 0.0302,
+      "step": 520
+    },
+    {
+      "epoch": 0.25853658536585367,
+      "grad_norm": 0.11067409813404083,
+      "learning_rate": 4.9734513274336284e-05,
+      "loss": 0.0299,
+      "step": 530
+    },
+    {
+      "epoch": 0.2634146341463415,
+      "grad_norm": 0.16229726374149323,
+      "learning_rate": 4.964601769911505e-05,
+      "loss": 0.0269,
+      "step": 540
+    },
+    {
+      "epoch": 0.2682926829268293,
+      "grad_norm": 0.12282289564609528,
+      "learning_rate": 4.955752212389381e-05,
+      "loss": 0.0303,
+      "step": 550
+    },
+    {
+      "epoch": 0.2731707317073171,
+      "grad_norm": 0.11870788037776947,
+      "learning_rate": 4.946902654867257e-05,
+      "loss": 0.031,
+      "step": 560
+    },
+    {
+      "epoch": 0.2780487804878049,
+      "grad_norm": 0.17082759737968445,
+      "learning_rate": 4.938053097345133e-05,
+      "loss": 0.0318,
+      "step": 570
+    },
+    {
+      "epoch": 0.28292682926829266,
+      "grad_norm": 0.10085482150316238,
+      "learning_rate": 4.929203539823009e-05,
+      "loss": 0.0269,
+      "step": 580
+    },
+    {
+      "epoch": 0.28780487804878047,
+      "grad_norm": 0.15493524074554443,
+      "learning_rate": 4.9203539823008854e-05,
+      "loss": 0.0308,
+      "step": 590
+    },
+    {
+      "epoch": 0.2926829268292683,
+      "grad_norm": 0.106038898229599,
+      "learning_rate": 4.911504424778761e-05,
+      "loss": 0.0284,
+      "step": 600
+    },
+    {
+      "epoch": 0.2926829268292683,
+      "eval_f1": 0.5525415591430115,
+      "eval_loss": 0.027496203780174255,
+      "eval_precision": 0.4633618520382486,
+      "eval_recall": 0.684230083234245,
+      "eval_runtime": 132.4968,
+      "eval_samples_per_second": 61.888,
+      "eval_steps_per_second": 0.974,
+      "step": 600
+    },
+    {
+      "epoch": 0.2975609756097561,
+      "grad_norm": 0.0896712988615036,
+      "learning_rate": 4.902654867256637e-05,
+      "loss": 0.0279,
+      "step": 610
+    },
+    {
+      "epoch": 0.3024390243902439,
+      "grad_norm": 0.0858699232339859,
+      "learning_rate": 4.893805309734513e-05,
+      "loss": 0.0287,
+      "step": 620
+    },
+    {
+      "epoch": 0.3073170731707317,
+      "grad_norm": 0.09710809588432312,
+      "learning_rate": 4.88495575221239e-05,
+      "loss": 0.0253,
+      "step": 630
+    },
+    {
+      "epoch": 0.3121951219512195,
+      "grad_norm": 0.09191035479307175,
+      "learning_rate": 4.876106194690266e-05,
+      "loss": 0.0251,
+      "step": 640
+    },
+    {
+      "epoch": 0.3170731707317073,
+      "grad_norm": 0.08466064929962158,
+      "learning_rate": 4.867256637168142e-05,
+      "loss": 0.0241,
+      "step": 650
+    },
+    {
+      "epoch": 0.32195121951219513,
+      "grad_norm": 0.10560336709022522,
+      "learning_rate": 4.858407079646018e-05,
+      "loss": 0.0263,
+      "step": 660
+    },
+    {
+      "epoch": 0.32682926829268294,
+      "grad_norm": 0.1608184576034546,
+      "learning_rate": 4.849557522123894e-05,
+      "loss": 0.027,
+      "step": 670
+    },
+    {
+      "epoch": 0.33170731707317075,
+      "grad_norm": 0.10734377801418304,
+      "learning_rate": 4.84070796460177e-05,
+      "loss": 0.0281,
+      "step": 680
+    },
+    {
+      "epoch": 0.33658536585365856,
+      "grad_norm": 0.07804067432880402,
+      "learning_rate": 4.831858407079646e-05,
+      "loss": 0.0274,
+      "step": 690
+    },
+    {
+      "epoch": 0.34146341463414637,
+      "grad_norm": 0.08093168586492538,
+      "learning_rate": 4.823008849557522e-05,
+      "loss": 0.029,
+      "step": 700
+    },
+    {
+      "epoch": 0.34146341463414637,
+      "eval_f1": 0.626304952497923,
+      "eval_loss": 0.026616454124450684,
+      "eval_precision": 0.6093343642370141,
+      "eval_recall": 0.6442479191438764,
+      "eval_runtime": 132.4172,
+      "eval_samples_per_second": 61.925,
+      "eval_steps_per_second": 0.974,
+      "step": 700
+    },
+    {
+      "epoch": 0.3463414634146341,
+      "grad_norm": 0.12165658921003342,
+      "learning_rate": 4.814159292035398e-05,
+      "loss": 0.0303,
+      "step": 710
+    },
+    {
+      "epoch": 0.35121951219512193,
+      "grad_norm": 0.11557145416736603,
+      "learning_rate": 4.805309734513275e-05,
+      "loss": 0.0288,
+      "step": 720
+    },
+    {
+      "epoch": 0.35609756097560974,
+      "grad_norm": 0.120982825756073,
+      "learning_rate": 4.7964601769911506e-05,
+      "loss": 0.0251,
+      "step": 730
+    },
+    {
+      "epoch": 0.36097560975609755,
+      "grad_norm": 0.09892363101243973,
+      "learning_rate": 4.787610619469027e-05,
+      "loss": 0.0292,
+      "step": 740
+    },
+    {
+      "epoch": 0.36585365853658536,
+      "grad_norm": 0.10615638643503189,
+      "learning_rate": 4.778761061946903e-05,
+      "loss": 0.0258,
+      "step": 750
+    },
+    {
+      "epoch": 0.37073170731707317,
+      "grad_norm": 0.1078324243426323,
+      "learning_rate": 4.769911504424779e-05,
+      "loss": 0.0249,
+      "step": 760
+    },
+    {
+      "epoch": 0.375609756097561,
+      "grad_norm": 0.131972536444664,
+      "learning_rate": 4.761061946902655e-05,
+      "loss": 0.0291,
+      "step": 770
+    },
+    {
+      "epoch": 0.3804878048780488,
+      "grad_norm": 0.08731543272733688,
+      "learning_rate": 4.752212389380531e-05,
+      "loss": 0.0294,
+      "step": 780
+    },
+    {
+      "epoch": 0.3853658536585366,
+      "grad_norm": 0.14496171474456787,
+      "learning_rate": 4.743362831858407e-05,
+      "loss": 0.0235,
+      "step": 790
+    },
+    {
+      "epoch": 0.3902439024390244,
+      "grad_norm": 0.10081491619348526,
+      "learning_rate": 4.734513274336283e-05,
+      "loss": 0.0304,
+      "step": 800
+    },
+    {
+      "epoch": 0.3902439024390244,
+      "eval_f1": 0.5844212089339851,
+      "eval_loss": 0.02550012618303299,
+      "eval_precision": 0.5005829358770535,
+      "eval_recall": 0.7019916765755053,
+      "eval_runtime": 132.3532,
+      "eval_samples_per_second": 61.955,
+      "eval_steps_per_second": 0.975,
+      "step": 800
+    },
+    {
+      "epoch": 0.3951219512195122,
+      "grad_norm": 0.07158678770065308,
+      "learning_rate": 4.7256637168141595e-05,
+      "loss": 0.025,
+      "step": 810
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 0.1092309057712555,
+      "learning_rate": 4.716814159292036e-05,
+      "loss": 0.0257,
+      "step": 820
+    },
+    {
+      "epoch": 0.40487804878048783,
+      "grad_norm": 0.10517269372940063,
+      "learning_rate": 4.707964601769912e-05,
+      "loss": 0.0235,
+      "step": 830
+    },
+    {
+      "epoch": 0.4097560975609756,
+      "grad_norm": 0.0983092337846756,
+      "learning_rate": 4.699115044247788e-05,
+      "loss": 0.0257,
+      "step": 840
+    },
+    {
+      "epoch": 0.4146341463414634,
+      "grad_norm": 0.11815937608480453,
+      "learning_rate": 4.690265486725664e-05,
+      "loss": 0.0273,
+      "step": 850
+    },
+    {
+      "epoch": 0.4195121951219512,
+      "grad_norm": 0.13173235952854156,
+      "learning_rate": 4.6814159292035396e-05,
+      "loss": 0.0266,
+      "step": 860
+    },
+    {
+      "epoch": 0.424390243902439,
+      "grad_norm": 0.08506595343351364,
+      "learning_rate": 4.672566371681416e-05,
+      "loss": 0.0243,
+      "step": 870
+    },
+    {
+      "epoch": 0.4292682926829268,
+      "grad_norm": 0.07343988120555878,
+      "learning_rate": 4.663716814159292e-05,
+      "loss": 0.026,
+      "step": 880
+    },
+    {
+      "epoch": 0.43414634146341463,
+      "grad_norm": 0.08313016593456268,
+      "learning_rate": 4.6548672566371684e-05,
+      "loss": 0.0283,
+      "step": 890
+    },
+    {
+      "epoch": 0.43902439024390244,
+      "grad_norm": 0.07794070988893509,
+      "learning_rate": 4.646017699115045e-05,
+      "loss": 0.0267,
+      "step": 900
+    },
+    {
+      "epoch": 0.43902439024390244,
+      "eval_f1": 0.5883609508987152,
+      "eval_loss": 0.024745287373661995,
+      "eval_precision": 0.4991456531869725,
+      "eval_recall": 0.7164090368608799,
+      "eval_runtime": 132.4255,
+      "eval_samples_per_second": 61.922,
+      "eval_steps_per_second": 0.974,
+      "step": 900
+    },
+    {
+      "epoch": 0.44390243902439025,
+      "grad_norm": 0.1075003445148468,
+      "learning_rate": 4.637168141592921e-05,
+      "loss": 0.0285,
+      "step": 910
+    },
+    {
+      "epoch": 0.44878048780487806,
+      "grad_norm": 0.11088255792856216,
+      "learning_rate": 4.6283185840707966e-05,
+      "loss": 0.0229,
+      "step": 920
+    },
+    {
+      "epoch": 0.45365853658536587,
+      "grad_norm": 0.10665366053581238,
+      "learning_rate": 4.619469026548673e-05,
+      "loss": 0.027,
+      "step": 930
+    },
+    {
+      "epoch": 0.4585365853658537,
+      "grad_norm": 0.11324100941419601,
+      "learning_rate": 4.6106194690265485e-05,
+      "loss": 0.0265,
+      "step": 940
+    },
+    {
+      "epoch": 0.4634146341463415,
+      "grad_norm": 0.1377974897623062,
+      "learning_rate": 4.601769911504425e-05,
+      "loss": 0.0249,
+      "step": 950
+    },
+    {
+      "epoch": 0.4682926829268293,
+      "grad_norm": 0.08704473823308945,
+      "learning_rate": 4.592920353982301e-05,
+      "loss": 0.0275,
+      "step": 960
+    },
+    {
+      "epoch": 0.47317073170731705,
+      "grad_norm": 0.07551635056734085,
+      "learning_rate": 4.584070796460177e-05,
+      "loss": 0.0267,
+      "step": 970
+    },
+    {
+      "epoch": 0.47804878048780486,
+      "grad_norm": 0.06435199081897736,
+      "learning_rate": 4.5752212389380536e-05,
+      "loss": 0.0263,
+      "step": 980
+    },
+    {
+      "epoch": 0.48292682926829267,
+      "grad_norm": 0.1029893159866333,
+      "learning_rate": 4.56637168141593e-05,
+      "loss": 0.0215,
+      "step": 990
+    },
+    {
+      "epoch": 0.4878048780487805,
+      "grad_norm": 0.09537643939256668,
+      "learning_rate": 4.5575221238938055e-05,
+      "loss": 0.024,
+      "step": 1000
+    },
+    {
+      "epoch": 0.4878048780487805,
+      "eval_f1": 0.6293077812654881,
+      "eval_loss": 0.023848505690693855,
+      "eval_precision": 0.5665417335950979,
+      "eval_recall": 0.7077140309155767,
+      "eval_runtime": 131.8557,
+      "eval_samples_per_second": 62.189,
+      "eval_steps_per_second": 0.978,
+      "step": 1000
+    },
+    {
+      "epoch": 0.4926829268292683,
+      "grad_norm": 0.11213461309671402,
+      "learning_rate": 4.548672566371682e-05,
+      "loss": 0.0258,
+      "step": 1010
+    },
+    {
+      "epoch": 0.4975609756097561,
+      "grad_norm": 0.09799027442932129,
+      "learning_rate": 4.5398230088495574e-05,
+      "loss": 0.0244,
+      "step": 1020
+    },
+    {
+      "epoch": 0.5024390243902439,
+      "grad_norm": 0.0755227655172348,
+      "learning_rate": 4.5309734513274336e-05,
+      "loss": 0.0269,
+      "step": 1030
+    },
+    {
+      "epoch": 0.5073170731707317,
+      "grad_norm": 0.10655403882265091,
+      "learning_rate": 4.52212389380531e-05,
+      "loss": 0.027,
+      "step": 1040
+    },
+    {
+      "epoch": 0.5121951219512195,
+      "grad_norm": 0.11206043511629105,
+      "learning_rate": 4.5132743362831855e-05,
+      "loss": 0.0268,
+      "step": 1050
+    },
+    {
+      "epoch": 0.5170731707317073,
+      "grad_norm": 0.08644779026508331,
+      "learning_rate": 4.5044247787610625e-05,
+      "loss": 0.0258,
+      "step": 1060
+    },
+    {
+      "epoch": 0.5219512195121951,
+      "grad_norm": 0.07745319604873657,
+      "learning_rate": 4.495575221238939e-05,
+      "loss": 0.0232,
+      "step": 1070
+    },
+    {
+      "epoch": 0.526829268292683,
+      "grad_norm": 0.10960444808006287,
+      "learning_rate": 4.4867256637168144e-05,
+      "loss": 0.0271,
+      "step": 1080
+    },
+    {
+      "epoch": 0.5317073170731708,
+      "grad_norm": 0.09823193401098251,
+      "learning_rate": 4.4778761061946906e-05,
+      "loss": 0.0279,
+      "step": 1090
+    },
+    {
+      "epoch": 0.5365853658536586,
+      "grad_norm": 0.10037508606910706,
+      "learning_rate": 4.469026548672566e-05,
+      "loss": 0.0226,
+      "step": 1100
+    },
+    {
+      "epoch": 0.5365853658536586,
+      "eval_f1": 0.6288948069241012,
+      "eval_loss": 0.023997528478503227,
+      "eval_precision": 0.5695851423058369,
+      "eval_recall": 0.7019916765755053,
+      "eval_runtime": 131.8239,
+      "eval_samples_per_second": 62.204,
+      "eval_steps_per_second": 0.979,
+      "step": 1100
+    },
+    {
+      "epoch": 0.5414634146341464,
+      "grad_norm": 0.086235910654068,
+      "learning_rate": 4.4601769911504425e-05,
+      "loss": 0.0243,
+      "step": 1110
+    },
+    {
+      "epoch": 0.5463414634146342,
+      "grad_norm": 0.09304425120353699,
+      "learning_rate": 4.451327433628319e-05,
+      "loss": 0.0236,
+      "step": 1120
+    },
+    {
+      "epoch": 0.551219512195122,
+      "grad_norm": 0.09922584891319275,
+      "learning_rate": 4.4424778761061944e-05,
+      "loss": 0.0222,
+      "step": 1130
+    },
+    {
+      "epoch": 0.5560975609756098,
+      "grad_norm": 0.07448361814022064,
+      "learning_rate": 4.433628318584071e-05,
+      "loss": 0.0246,
+      "step": 1140
+    },
+    {
+      "epoch": 0.5609756097560976,
+      "grad_norm": 0.08881635963916779,
+      "learning_rate": 4.4247787610619477e-05,
+      "loss": 0.023,
+      "step": 1150
+    },
+    {
+      "epoch": 0.5658536585365853,
+      "grad_norm": 0.11040020734071732,
+      "learning_rate": 4.415929203539823e-05,
+      "loss": 0.0255,
+      "step": 1160
+    },
+    {
+      "epoch": 0.5707317073170731,
+      "grad_norm": 0.10073444992303848,
+      "learning_rate": 4.4070796460176995e-05,
+      "loss": 0.0234,
+      "step": 1170
+    },
+    {
+      "epoch": 0.5756097560975609,
+      "grad_norm": 0.1330658495426178,
+      "learning_rate": 4.398230088495575e-05,
+      "loss": 0.0253,
+      "step": 1180
+    },
+    {
+      "epoch": 0.5804878048780487,
+      "grad_norm": 0.11121776700019836,
+      "learning_rate": 4.3893805309734514e-05,
+      "loss": 0.0253,
+      "step": 1190
+    },
+    {
+      "epoch": 0.5853658536585366,
+      "grad_norm": 0.07611318677663803,
+      "learning_rate": 4.380530973451328e-05,
+      "loss": 0.021,
+      "step": 1200
+    },
+    {
+      "epoch": 0.5853658536585366,
+      "eval_f1": 0.6257888792931642,
+      "eval_loss": 0.024241872131824493,
+      "eval_precision": 0.5657657657657658,
+      "eval_recall": 0.7000594530321046,
+      "eval_runtime": 132.4797,
+      "eval_samples_per_second": 61.896,
+      "eval_steps_per_second": 0.974,
+      "step": 1200
+    },
+    {
+      "epoch": 0.5902439024390244,
+      "grad_norm": 0.06641782820224762,
+      "learning_rate": 4.371681415929203e-05,
+      "loss": 0.0252,
+      "step": 1210
+    },
+    {
+      "epoch": 0.5951219512195122,
+      "grad_norm": 0.10350623726844788,
+      "learning_rate": 4.3628318584070796e-05,
+      "loss": 0.0261,
+      "step": 1220
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 0.09171286225318909,
+      "learning_rate": 4.353982300884956e-05,
+      "loss": 0.0222,
+      "step": 1230
+    },
+    {
+      "epoch": 0.6048780487804878,
+      "grad_norm": 0.09831242263317108,
+      "learning_rate": 4.345132743362832e-05,
+      "loss": 0.0196,
+      "step": 1240
+    },
+    {
+      "epoch": 0.6097560975609756,
+      "grad_norm": 0.06655886769294739,
+      "learning_rate": 4.3362831858407084e-05,
+      "loss": 0.0214,
+      "step": 1250
+    },
+    {
+      "epoch": 0.6146341463414634,
+      "grad_norm": 0.10220635682344437,
+      "learning_rate": 4.327433628318584e-05,
+      "loss": 0.0225,
+      "step": 1260
+    },
+    {
+      "epoch": 0.6195121951219512,
+      "grad_norm": 0.09263930469751358,
+      "learning_rate": 4.31858407079646e-05,
+      "loss": 0.0237,
+      "step": 1270
+    },
+    {
+      "epoch": 0.624390243902439,
+      "grad_norm": 0.12217256426811218,
+      "learning_rate": 4.3097345132743366e-05,
+      "loss": 0.0238,
+      "step": 1280
+    },
+    {
+      "epoch": 0.6292682926829268,
+      "grad_norm": 0.08786381781101227,
+      "learning_rate": 4.300884955752212e-05,
+      "loss": 0.0217,
+      "step": 1290
+    },
+    {
+      "epoch": 0.6341463414634146,
+      "grad_norm": 0.06754878163337708,
+      "learning_rate": 4.2920353982300885e-05,
+      "loss": 0.0209,
+      "step": 1300
+    },
+    {
+      "epoch": 0.6341463414634146,
+      "eval_f1": 0.635122838944495,
+      "eval_loss": 0.022672206163406372,
+      "eval_precision": 0.5643335643335643,
+      "eval_recall": 0.726218787158145,
+      "eval_runtime": 132.3145,
+      "eval_samples_per_second": 61.974,
+      "eval_steps_per_second": 0.975,
+      "step": 1300
+    },
+    {
+      "epoch": 0.6390243902439025,
+      "grad_norm": 0.07975753396749496,
+      "learning_rate": 4.283185840707965e-05,
+      "loss": 0.0208,
+      "step": 1310
+    },
+    {
+      "epoch": 0.6439024390243903,
+      "grad_norm": 0.10725169628858566,
+      "learning_rate": 4.274336283185841e-05,
+      "loss": 0.0243,
+      "step": 1320
+    },
+    {
+      "epoch": 0.6487804878048781,
+      "grad_norm": 0.07709804177284241,
+      "learning_rate": 4.265486725663717e-05,
+      "loss": 0.0241,
+      "step": 1330
+    },
+    {
+      "epoch": 0.6536585365853659,
+      "grad_norm": 0.07307865470647812,
+      "learning_rate": 4.256637168141593e-05,
+      "loss": 0.0221,
+      "step": 1340
+    },
+    {
+      "epoch": 0.6585365853658537,
+      "grad_norm": 0.07658623158931732,
+      "learning_rate": 4.247787610619469e-05,
+      "loss": 0.0216,
+      "step": 1350
+    },
+    {
+      "epoch": 0.6634146341463415,
+      "grad_norm": 0.12642726302146912,
+      "learning_rate": 4.2389380530973455e-05,
+      "loss": 0.0247,
+      "step": 1360
+    },
+    {
+      "epoch": 0.6682926829268293,
+      "grad_norm": 0.09556315094232559,
+      "learning_rate": 4.230088495575221e-05,
+      "loss": 0.0217,
+      "step": 1370
+    },
+    {
+      "epoch": 0.6731707317073171,
+      "grad_norm": 0.06885875016450882,
+      "learning_rate": 4.2212389380530974e-05,
+      "loss": 0.02,
+      "step": 1380
+    },
+    {
+      "epoch": 0.6780487804878049,
+      "grad_norm": 0.0719994455575943,
+      "learning_rate": 4.2123893805309737e-05,
+      "loss": 0.0214,
+      "step": 1390
+    },
+    {
+      "epoch": 0.6829268292682927,
+      "grad_norm": 0.06444905698299408,
+      "learning_rate": 4.20353982300885e-05,
+      "loss": 0.0207,
+      "step": 1400
+    },
+    {
+      "epoch": 0.6829268292682927,
+      "eval_f1": 0.6471813478465364,
+      "eval_loss": 0.02256700210273266,
+      "eval_precision": 0.590557939914163,
+      "eval_recall": 0.7158145065398336,
+      "eval_runtime": 132.1018,
+      "eval_samples_per_second": 62.073,
+      "eval_steps_per_second": 0.977,
+      "step": 1400
+    },
+    {
+      "epoch": 0.6878048780487804,
+      "grad_norm": 0.07349838316440582,
+      "learning_rate": 4.194690265486726e-05,
+      "loss": 0.0225,
+      "step": 1410
+    },
+    {
+      "epoch": 0.6926829268292682,
+      "grad_norm": 0.07198076695203781,
+      "learning_rate": 4.185840707964602e-05,
+      "loss": 0.021,
+      "step": 1420
+    },
+    {
+      "epoch": 0.697560975609756,
+      "grad_norm": 0.0936046615242958,
+      "learning_rate": 4.176991150442478e-05,
+      "loss": 0.0252,
+      "step": 1430
+    },
+    {
+      "epoch": 0.7024390243902439,
+      "grad_norm": 0.08654190599918365,
+      "learning_rate": 4.1681415929203544e-05,
+      "loss": 0.0218,
+      "step": 1440
+    },
+    {
+      "epoch": 0.7073170731707317,
+      "grad_norm": 0.08444487303495407,
+      "learning_rate": 4.15929203539823e-05,
+      "loss": 0.0267,
+      "step": 1450
+    },
+    {
+      "epoch": 0.7121951219512195,
+      "grad_norm": 0.12378791719675064,
+      "learning_rate": 4.150442477876106e-05,
+      "loss": 0.0233,
+      "step": 1460
+    },
+    {
+      "epoch": 0.7170731707317073,
+      "grad_norm": 0.09955397993326187,
+      "learning_rate": 4.1415929203539825e-05,
+      "loss": 0.0253,
+      "step": 1470
+    },
+    {
+      "epoch": 0.7219512195121951,
+      "grad_norm": 0.08549737185239792,
+      "learning_rate": 4.132743362831858e-05,
+      "loss": 0.0252,
+      "step": 1480
+    },
+    {
+      "epoch": 0.7268292682926829,
+      "grad_norm": 0.06966210901737213,
+      "learning_rate": 4.123893805309735e-05,
+      "loss": 0.0242,
+      "step": 1490
+    },
+    {
+      "epoch": 0.7317073170731707,
+      "grad_norm": 0.08285216242074966,
+      "learning_rate": 4.115044247787611e-05,
+      "loss": 0.0219,
+      "step": 1500
+    },
+    {
+      "epoch": 0.7317073170731707,
+      "eval_f1": 0.6405168738316225,
+      "eval_loss": 0.022300876677036285,
+      "eval_precision": 0.5732315820369827,
+      "eval_recall": 0.7256985731272295,
+      "eval_runtime": 132.0099,
+      "eval_samples_per_second": 62.117,
+      "eval_steps_per_second": 0.977,
+      "step": 1500
+    },
+    {
+      "epoch": 0.7365853658536585,
+      "grad_norm": 0.10072668641805649,
+      "learning_rate": 4.106194690265487e-05,
+      "loss": 0.0227,
+      "step": 1510
+    },
+    {
+      "epoch": 0.7414634146341463,
+      "grad_norm": 0.10805150866508484,
+      "learning_rate": 4.097345132743363e-05,
+      "loss": 0.0238,
+      "step": 1520
+    },
+    {
+      "epoch": 0.7463414634146341,
+      "grad_norm": 0.06195740029215813,
+      "learning_rate": 4.088495575221239e-05,
+      "loss": 0.0216,
+      "step": 1530
+    },
+    {
+      "epoch": 0.751219512195122,
+      "grad_norm": 0.06914755702018738,
+      "learning_rate": 4.079646017699115e-05,
+      "loss": 0.0215,
+      "step": 1540
+    },
+    {
+      "epoch": 0.7560975609756098,
+      "grad_norm": 0.09708551317453384,
+      "learning_rate": 4.0707964601769914e-05,
+      "loss": 0.0205,
+      "step": 1550
+    },
+    {
+      "epoch": 0.7609756097560976,
+      "grad_norm": 0.07369375228881836,
+      "learning_rate": 4.061946902654867e-05,
+      "loss": 0.0238,
+      "step": 1560
+    },
+    {
+      "epoch": 0.7658536585365854,
+      "grad_norm": 0.07211218029260635,
+      "learning_rate": 4.053097345132743e-05,
+      "loss": 0.02,
+      "step": 1570
+    },
+    {
+      "epoch": 0.7707317073170732,
+      "grad_norm": 0.09262284636497498,
+      "learning_rate": 4.0442477876106196e-05,
+      "loss": 0.0227,
+      "step": 1580
+    },
+    {
+      "epoch": 0.775609756097561,
+      "grad_norm": 0.09008630365133286,
+      "learning_rate": 4.035398230088496e-05,
+      "loss": 0.0228,
+      "step": 1590
+    },
+    {
+      "epoch": 0.7804878048780488,
+      "grad_norm": 0.1014399379491806,
+      "learning_rate": 4.026548672566372e-05,
+      "loss": 0.0215,
+      "step": 1600
+    },
+    {
+      "epoch": 0.7804878048780488,
+      "eval_f1": 0.637167016339246,
+      "eval_loss": 0.02189124934375286,
+      "eval_precision": 0.556715920453283,
+      "eval_recall": 0.7447978596908442,
+      "eval_runtime": 132.2243,
+      "eval_samples_per_second": 62.016,
+      "eval_steps_per_second": 0.976,
+      "step": 1600
+    },
+    {
+      "epoch": 0.7853658536585366,
+      "grad_norm": 0.1170215755701065,
+      "learning_rate": 4.017699115044248e-05,
+      "loss": 0.025,
+      "step": 1610
+    },
+    {
+      "epoch": 0.7902439024390244,
+      "grad_norm": 0.07999496906995773,
+      "learning_rate": 4.008849557522124e-05,
+      "loss": 0.0237,
+      "step": 1620
+    },
+    {
+      "epoch": 0.7951219512195122,
+      "grad_norm": 0.08684638142585754,
+      "learning_rate": 4e-05,
+      "loss": 0.0261,
+      "step": 1630
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.06762222945690155,
+      "learning_rate": 3.991150442477876e-05,
+      "loss": 0.0232,
+      "step": 1640
+    },
+    {
+      "epoch": 0.8048780487804879,
+      "grad_norm": 0.08543413132429123,
+      "learning_rate": 3.982300884955752e-05,
+      "loss": 0.0225,
+      "step": 1650
+    },
+    {
+      "epoch": 0.8097560975609757,
+      "grad_norm": 0.09491296857595444,
+      "learning_rate": 3.9734513274336285e-05,
+      "loss": 0.0221,
+      "step": 1660
+    },
+    {
+      "epoch": 0.8146341463414634,
+      "grad_norm": 0.06884954869747162,
+      "learning_rate": 3.964601769911505e-05,
+      "loss": 0.0221,
+      "step": 1670
+    },
+    {
+      "epoch": 0.8195121951219512,
+      "grad_norm": 0.10209941118955612,
+      "learning_rate": 3.955752212389381e-05,
+      "loss": 0.025,
+      "step": 1680
+    },
+    {
+      "epoch": 0.824390243902439,
+      "grad_norm": 0.06364341080188751,
+      "learning_rate": 3.9469026548672567e-05,
+      "loss": 0.0197,
+      "step": 1690
+    },
+    {
+      "epoch": 0.8292682926829268,
+      "grad_norm": 0.10673107206821442,
+      "learning_rate": 3.938053097345133e-05,
+      "loss": 0.0199,
+      "step": 1700
+    },
+    {
+      "epoch": 0.8292682926829268,
+      "eval_f1": 0.6390703962403836,
+      "eval_loss": 0.021866334602236748,
+      "eval_precision": 0.5636817897904719,
+      "eval_recall": 0.7377378121284186,
+      "eval_runtime": 132.1953,
+      "eval_samples_per_second": 62.029,
+      "eval_steps_per_second": 0.976,
+      "step": 1700
+    },
+    {
+      "epoch": 0.8341463414634146,
+      "grad_norm": 0.08173991739749908,
+      "learning_rate": 3.929203539823009e-05,
+      "loss": 0.0217,
+      "step": 1710
+    },
+    {
+      "epoch": 0.8390243902439024,
+      "grad_norm": 0.09340299665927887,
+      "learning_rate": 3.920353982300885e-05,
+      "loss": 0.0218,
+      "step": 1720
+    },
+    {
+      "epoch": 0.8439024390243902,
+      "grad_norm": 0.08972273021936417,
+      "learning_rate": 3.911504424778761e-05,
+      "loss": 0.0178,
+      "step": 1730
+    },
+    {
+      "epoch": 0.848780487804878,
+      "grad_norm": 0.11011021584272385,
+      "learning_rate": 3.9026548672566374e-05,
+      "loss": 0.0282,
+      "step": 1740
+    },
+    {
+      "epoch": 0.8536585365853658,
+      "grad_norm": 0.1096154972910881,
+      "learning_rate": 3.893805309734514e-05,
+      "loss": 0.0244,
+      "step": 1750
+    },
+    {
+      "epoch": 0.8585365853658536,
+      "grad_norm": 0.08531954139471054,
+      "learning_rate": 3.88495575221239e-05,
+      "loss": 0.0217,
+      "step": 1760
+    },
+    {
+      "epoch": 0.8634146341463415,
+      "grad_norm": 0.1026742234826088,
+      "learning_rate": 3.8761061946902655e-05,
+      "loss": 0.0199,
+      "step": 1770
+    },
+    {
+      "epoch": 0.8682926829268293,
+      "grad_norm": 0.06563183665275574,
+      "learning_rate": 3.867256637168142e-05,
+      "loss": 0.0185,
+      "step": 1780
+    },
+    {
+      "epoch": 0.8731707317073171,
+      "grad_norm": 0.07869338989257812,
+      "learning_rate": 3.858407079646018e-05,
+      "loss": 0.0235,
+      "step": 1790
+    },
+    {
+      "epoch": 0.8780487804878049,
+      "grad_norm": 0.08610737323760986,
+      "learning_rate": 3.849557522123894e-05,
+      "loss": 0.0193,
+      "step": 1800
+    },
+    {
+      "epoch": 0.8780487804878049,
+      "eval_f1": 0.6328935570641732,
+      "eval_loss": 0.022152401506900787,
+      "eval_precision": 0.5560432140445645,
+      "eval_recall": 0.7343935790725327,
+      "eval_runtime": 132.0266,
+      "eval_samples_per_second": 62.109,
+      "eval_steps_per_second": 0.977,
+      "step": 1800
+    },
+    {
+      "epoch": 0.8829268292682927,
+      "grad_norm": 0.09815912693738937,
+      "learning_rate": 3.84070796460177e-05,
+      "loss": 0.0179,
+      "step": 1810
+    },
+    {
+      "epoch": 0.8878048780487805,
+      "grad_norm": 0.06768873333930969,
+      "learning_rate": 3.831858407079646e-05,
+      "loss": 0.0219,
+      "step": 1820
+    },
+    {
+      "epoch": 0.8926829268292683,
+      "grad_norm": 0.09629742056131363,
+      "learning_rate": 3.8230088495575226e-05,
+      "loss": 0.0212,
+      "step": 1830
+    },
+    {
+      "epoch": 0.8975609756097561,
+      "grad_norm": 0.0719202533364296,
+      "learning_rate": 3.814159292035399e-05,
+      "loss": 0.0221,
+      "step": 1840
+    },
+    {
+      "epoch": 0.9024390243902439,
+      "grad_norm": 0.09463170170783997,
+      "learning_rate": 3.8053097345132744e-05,
+      "loss": 0.0233,
+      "step": 1850
+    },
+    {
+      "epoch": 0.9073170731707317,
+      "grad_norm": 0.08261518180370331,
+      "learning_rate": 3.796460176991151e-05,
+      "loss": 0.0205,
+      "step": 1860
+    },
+    {
+      "epoch": 0.9121951219512195,
+      "grad_norm": 0.09188443422317505,
+      "learning_rate": 3.787610619469027e-05,
+      "loss": 0.0186,
+      "step": 1870
+    },
+    {
+      "epoch": 0.9170731707317074,
+      "grad_norm": 0.0914570763707161,
+      "learning_rate": 3.7787610619469026e-05,
+      "loss": 0.0207,
+      "step": 1880
+    },
+    {
+      "epoch": 0.9219512195121952,
+      "grad_norm": 0.0840875431895256,
+      "learning_rate": 3.769911504424779e-05,
+      "loss": 0.0225,
+      "step": 1890
+    },
+    {
+      "epoch": 0.926829268292683,
+      "grad_norm": 0.0681457445025444,
+      "learning_rate": 3.7610619469026545e-05,
+      "loss": 0.0216,
+      "step": 1900
+    },
+    {
+      "epoch": 0.926829268292683,
+      "eval_f1": 0.6448713774014979,
+      "eval_loss": 0.021633492782711983,
+      "eval_precision": 0.5738959081952011,
+      "eval_recall": 0.7358799048751486,
+      "eval_runtime": 132.1734,
+      "eval_samples_per_second": 62.04,
+      "eval_steps_per_second": 0.976,
+      "step": 1900
+    },
+    {
+      "epoch": 0.9317073170731708,
+      "grad_norm": 0.07665237784385681,
+      "learning_rate": 3.752212389380531e-05,
+      "loss": 0.0231,
+      "step": 1910
+    },
+    {
+      "epoch": 0.9365853658536586,
+      "grad_norm": 0.12333638221025467,
+      "learning_rate": 3.743362831858408e-05,
+      "loss": 0.0244,
+      "step": 1920
+    },
+    {
+      "epoch": 0.9414634146341463,
+      "grad_norm": 0.05435947701334953,
+      "learning_rate": 3.734513274336283e-05,
+      "loss": 0.0209,
+      "step": 1930
+    },
+    {
+      "epoch": 0.9463414634146341,
+      "grad_norm": 0.09085798263549805,
+      "learning_rate": 3.7256637168141596e-05,
+      "loss": 0.0212,
+      "step": 1940
+    },
+    {
+      "epoch": 0.9512195121951219,
+      "grad_norm": 0.11483143270015717,
+      "learning_rate": 3.716814159292036e-05,
+      "loss": 0.0213,
+      "step": 1950
+    },
+    {
+      "epoch": 0.9560975609756097,
+      "grad_norm": 0.06926431506872177,
+      "learning_rate": 3.7079646017699115e-05,
+      "loss": 0.0203,
+      "step": 1960
+    },
+    {
+      "epoch": 0.9609756097560975,
+      "grad_norm": 0.1061626598238945,
+      "learning_rate": 3.699115044247788e-05,
+      "loss": 0.0227,
+      "step": 1970
+    },
+    {
+      "epoch": 0.9658536585365853,
+      "grad_norm": 0.09048457443714142,
+      "learning_rate": 3.6902654867256634e-05,
+      "loss": 0.0229,
+      "step": 1980
+    },
+    {
+      "epoch": 0.9707317073170731,
+      "grad_norm": 0.09511193633079529,
+      "learning_rate": 3.68141592920354e-05,
+      "loss": 0.0216,
+      "step": 1990
+    },
+    {
+      "epoch": 0.975609756097561,
+      "grad_norm": 0.091468945145607,
+      "learning_rate": 3.672566371681416e-05,
+      "loss": 0.0168,
+      "step": 2000
+    },
+    {
+      "epoch": 0.975609756097561,
+      "eval_f1": 0.6518885040409038,
+      "eval_loss": 0.021417897194623947,
+      "eval_precision": 0.5860964470016016,
+      "eval_recall": 0.7343192627824019,
+      "eval_runtime": 131.7709,
+      "eval_samples_per_second": 62.229,
+      "eval_steps_per_second": 0.979,
+      "step": 2000
+    },
+    {
+      "epoch": 0.9804878048780488,
+      "grad_norm": 0.09001079201698303,
+      "learning_rate": 3.663716814159292e-05,
+      "loss": 0.0192,
+      "step": 2010
+    },
+    {
+      "epoch": 0.9853658536585366,
+      "grad_norm": 0.10538368672132492,
+      "learning_rate": 3.6548672566371685e-05,
+      "loss": 0.0228,
+      "step": 2020
+    },
+    {
+      "epoch": 0.9902439024390244,
+      "grad_norm": 0.08615951985120773,
+      "learning_rate": 3.646017699115045e-05,
+      "loss": 0.0238,
+      "step": 2030
+    },
+    {
+      "epoch": 0.9951219512195122,
+      "grad_norm": 0.0890466719865799,
+      "learning_rate": 3.6371681415929204e-05,
+      "loss": 0.0218,
+      "step": 2040
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.08089441806077957,
+      "learning_rate": 3.628318584070797e-05,
+      "loss": 0.0204,
+      "step": 2050
+    },
+    {
+      "epoch": 1.0048780487804878,
+      "grad_norm": 0.09391944855451584,
+      "learning_rate": 3.619469026548672e-05,
+      "loss": 0.0213,
+      "step": 2060
+    },
+    {
+      "epoch": 1.0097560975609756,
+      "grad_norm": 0.059187982231378555,
+      "learning_rate": 3.6106194690265486e-05,
+      "loss": 0.0197,
+      "step": 2070
+    },
+    {
+      "epoch": 1.0146341463414634,
+      "grad_norm": 0.07538473606109619,
+      "learning_rate": 3.601769911504425e-05,
+      "loss": 0.0227,
+      "step": 2080
+    },
+    {
+      "epoch": 1.0195121951219512,
+      "grad_norm": 0.0840989351272583,
+      "learning_rate": 3.592920353982301e-05,
+      "loss": 0.0205,
+      "step": 2090
+    },
+    {
+      "epoch": 1.024390243902439,
+      "grad_norm": 0.11819695681333542,
+      "learning_rate": 3.5840707964601774e-05,
+      "loss": 0.0214,
+      "step": 2100
+    },
+    {
+      "epoch": 1.024390243902439,
+      "eval_f1": 0.6467788814717813,
+      "eval_loss": 0.020904576405882835,
+      "eval_precision": 0.5671315745252898,
+      "eval_recall": 0.7524524375743162,
+      "eval_runtime": 132.2697,
+      "eval_samples_per_second": 61.995,
+      "eval_steps_per_second": 0.975,
+      "step": 2100
+    },
+    {
+      "epoch": 1.0292682926829269,
+      "grad_norm": 0.121103934943676,
+      "learning_rate": 3.575221238938054e-05,
+      "loss": 0.0196,
+      "step": 2110
+    },
+    {
+      "epoch": 1.0341463414634147,
+      "grad_norm": 0.0714835524559021,
+      "learning_rate": 3.566371681415929e-05,
+      "loss": 0.0193,
+      "step": 2120
+    },
+    {
+      "epoch": 1.0390243902439025,
+      "grad_norm": 0.07826493680477142,
+      "learning_rate": 3.5575221238938056e-05,
+      "loss": 0.0202,
+      "step": 2130
+    },
+    {
+      "epoch": 1.0439024390243903,
+      "grad_norm": 0.0855259820818901,
+      "learning_rate": 3.548672566371681e-05,
+      "loss": 0.0217,
+      "step": 2140
+    },
+    {
+      "epoch": 1.048780487804878,
+      "grad_norm": 0.07726403325796127,
+      "learning_rate": 3.5398230088495574e-05,
+      "loss": 0.0213,
+      "step": 2150
+    },
+    {
+      "epoch": 1.053658536585366,
+      "grad_norm": 0.09908368438482285,
+      "learning_rate": 3.530973451327434e-05,
+      "loss": 0.0186,
+      "step": 2160
+    },
+    {
+      "epoch": 1.0585365853658537,
+      "grad_norm": 0.08559077978134155,
+      "learning_rate": 3.52212389380531e-05,
+      "loss": 0.0205,
+      "step": 2170
+    },
+    {
+      "epoch": 1.0634146341463415,
+      "grad_norm": 0.09128253161907196,
+      "learning_rate": 3.513274336283186e-05,
+      "loss": 0.0247,
+      "step": 2180
+    },
+    {
+      "epoch": 1.0682926829268293,
+      "grad_norm": 0.08086485415697098,
+      "learning_rate": 3.5044247787610626e-05,
+      "loss": 0.0209,
+      "step": 2190
+    },
+    {
+      "epoch": 1.0731707317073171,
+      "grad_norm": 0.08016868680715561,
+      "learning_rate": 3.495575221238938e-05,
+      "loss": 0.0205,
+      "step": 2200
+    },
+    {
+      "epoch": 1.0731707317073171,
+      "eval_f1": 0.633068352720911,
+      "eval_loss": 0.020948156714439392,
+      "eval_precision": 0.5392418300653595,
+      "eval_recall": 0.766423900118906,
+      "eval_runtime": 132.144,
+      "eval_samples_per_second": 62.054,
+      "eval_steps_per_second": 0.976,
+      "step": 2200
+    },
+    {
+      "epoch": 1.078048780487805,
+      "grad_norm": 0.08863110840320587,
+      "learning_rate": 3.4867256637168145e-05,
+      "loss": 0.021,
+      "step": 2210
+    },
+    {
+      "epoch": 1.0829268292682928,
+      "grad_norm": 0.07697419077157974,
+      "learning_rate": 3.47787610619469e-05,
+      "loss": 0.0222,
+      "step": 2220
+    },
+    {
+      "epoch": 1.0878048780487806,
+      "grad_norm": 0.07876092195510864,
+      "learning_rate": 3.469026548672566e-05,
+      "loss": 0.0176,
+      "step": 2230
+    },
+    {
+      "epoch": 1.0926829268292684,
+      "grad_norm": 0.08885340392589569,
+      "learning_rate": 3.4601769911504426e-05,
+      "loss": 0.0183,
+      "step": 2240
+    },
+    {
+      "epoch": 1.0975609756097562,
+      "grad_norm": 0.08264743536710739,
+      "learning_rate": 3.451327433628319e-05,
+      "loss": 0.0212,
+      "step": 2250
+    },
+    {
+      "epoch": 1.102439024390244,
+      "grad_norm": 0.06534498184919357,
+      "learning_rate": 3.442477876106195e-05,
+      "loss": 0.018,
+      "step": 2260
+    },
+    {
+      "epoch": 1.1073170731707318,
+      "grad_norm": 0.08914489299058914,
+      "learning_rate": 3.4336283185840715e-05,
+      "loss": 0.0201,
+      "step": 2270
+    },
+    {
+      "epoch": 1.1121951219512196,
+      "grad_norm": 0.07213272899389267,
+      "learning_rate": 3.424778761061947e-05,
+      "loss": 0.0145,
+      "step": 2280
+    },
+    {
+      "epoch": 1.1170731707317074,
+      "grad_norm": 0.07594022899866104,
+      "learning_rate": 3.4159292035398233e-05,
+      "loss": 0.0201,
+      "step": 2290
+    },
+    {
+      "epoch": 1.1219512195121952,
+      "grad_norm": 0.06026766449213028,
+      "learning_rate": 3.407079646017699e-05,
+      "loss": 0.019,
+      "step": 2300
+    },
+    {
+      "epoch": 1.1219512195121952,
+      "eval_f1": 0.6488888888888888,
+      "eval_loss": 0.020637808367609978,
+      "eval_precision": 0.569448341657781,
+      "eval_recall": 0.7540873959571938,
+      "eval_runtime": 132.2303,
+      "eval_samples_per_second": 62.013,
+      "eval_steps_per_second": 0.976,
+      "step": 2300
+    },
+    {
+      "epoch": 1.126829268292683,
+      "grad_norm": 0.08499179780483246,
+      "learning_rate": 3.398230088495575e-05,
+      "loss": 0.0197,
+      "step": 2310
+    },
+    {
+      "epoch": 1.1317073170731708,
+      "grad_norm": 0.09881128370761871,
+      "learning_rate": 3.3893805309734515e-05,
+      "loss": 0.0194,
+      "step": 2320
+    },
+    {
+      "epoch": 1.1365853658536587,
+      "grad_norm": 0.06719642132520676,
+      "learning_rate": 3.380530973451327e-05,
+      "loss": 0.0202,
+      "step": 2330
+    },
+    {
+      "epoch": 1.1414634146341462,
+      "grad_norm": 0.10720915347337723,
+      "learning_rate": 3.3716814159292034e-05,
+      "loss": 0.0165,
+      "step": 2340
+    },
+    {
+      "epoch": 1.146341463414634,
+      "grad_norm": 0.06894739717245102,
+      "learning_rate": 3.3628318584070804e-05,
+      "loss": 0.0164,
+      "step": 2350
+    },
+    {
+      "epoch": 1.1512195121951219,
+      "grad_norm": 0.0639248788356781,
+      "learning_rate": 3.353982300884956e-05,
+      "loss": 0.0217,
+      "step": 2360
+    },
+    {
+      "epoch": 1.1560975609756097,
+      "grad_norm": 0.044793836772441864,
+      "learning_rate": 3.345132743362832e-05,
+      "loss": 0.0197,
+      "step": 2370
+    },
+    {
+      "epoch": 1.1609756097560975,
+      "grad_norm": 0.0624634325504303,
+      "learning_rate": 3.336283185840708e-05,
+      "loss": 0.0202,
+      "step": 2380
+    },
+    {
+      "epoch": 1.1658536585365853,
+      "grad_norm": 0.12909162044525146,
+      "learning_rate": 3.327433628318584e-05,
+      "loss": 0.0195,
+      "step": 2390
+    },
+    {
+      "epoch": 1.170731707317073,
+      "grad_norm": 0.0766359269618988,
+      "learning_rate": 3.3185840707964604e-05,
+      "loss": 0.0208,
+      "step": 2400
+    },
+    {
+      "epoch": 1.170731707317073,
+      "eval_f1": 0.6382413782457007,
+      "eval_loss": 0.02069213055074215,
+      "eval_precision": 0.5459251043152168,
+      "eval_recall": 0.7681331747919143,
+      "eval_runtime": 131.9061,
+      "eval_samples_per_second": 62.165,
+      "eval_steps_per_second": 0.978,
+      "step": 2400
+    },
+    {
+      "epoch": 1.175609756097561,
+      "grad_norm": 0.1002466231584549,
+      "learning_rate": 3.309734513274336e-05,
+      "loss": 0.0198,
+      "step": 2410
+    },
+    {
+      "epoch": 1.1804878048780487,
+      "grad_norm": 0.09123210608959198,
+      "learning_rate": 3.300884955752212e-05,
+      "loss": 0.0167,
+      "step": 2420
+    },
+    {
+      "epoch": 1.1853658536585365,
+      "grad_norm": 0.08641325682401657,
+      "learning_rate": 3.2920353982300886e-05,
+      "loss": 0.0225,
+      "step": 2430
+    },
+    {
+      "epoch": 1.1902439024390243,
+      "grad_norm": 0.06566398590803146,
+      "learning_rate": 3.283185840707965e-05,
+      "loss": 0.0177,
+      "step": 2440
+    },
+    {
+      "epoch": 1.1951219512195121,
+      "grad_norm": 0.06867921352386475,
+      "learning_rate": 3.274336283185841e-05,
+      "loss": 0.02,
+      "step": 2450
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 0.0619225949048996,
+      "learning_rate": 3.265486725663717e-05,
+      "loss": 0.0203,
+      "step": 2460
+    },
+    {
+      "epoch": 1.2048780487804878,
+      "grad_norm": 0.07883109152317047,
+      "learning_rate": 3.256637168141593e-05,
+      "loss": 0.0199,
+      "step": 2470
+    },
+    {
+      "epoch": 1.2097560975609756,
+      "grad_norm": 0.09298081696033478,
+      "learning_rate": 3.247787610619469e-05,
+      "loss": 0.0191,
+      "step": 2480
+    },
+    {
+      "epoch": 1.2146341463414634,
+      "grad_norm": 0.06301239132881165,
+      "learning_rate": 3.238938053097345e-05,
+      "loss": 0.0212,
+      "step": 2490
+    },
+    {
+      "epoch": 1.2195121951219512,
+      "grad_norm": 0.06936347484588623,
+      "learning_rate": 3.230088495575221e-05,
+      "loss": 0.0203,
+      "step": 2500
+    },
+    {
+      "epoch": 1.2195121951219512,
+      "eval_f1": 0.6559016016048936,
+      "eval_loss": 0.020873118191957474,
+      "eval_precision": 0.5882838770574007,
+      "eval_recall": 0.7410820451843044,
+      "eval_runtime": 132.0933,
+      "eval_samples_per_second": 62.077,
+      "eval_steps_per_second": 0.977,
+      "step": 2500
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 6150,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 5311547228160000.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint/training_args (3).bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1203db0f020cb25414a56ea03da2c22cf2f3a145b30e0c1f82662247b998d06b
+size 5304