Spaces:

artnitolog
/

arxiv-classifier

Sleeping

App Files Files Community

artnitolog commited on Apr 16, 2023

Commit

34f19e6

1 Parent(s): 4897961

add checkpoint

Browse files

Files changed (12) hide show

checkpoints/checkpoint-5000/added_tokens.json +3 -0
checkpoints/checkpoint-5000/config.json +349 -0
checkpoints/checkpoint-5000/optimizer.pt +3 -0
checkpoints/checkpoint-5000/pytorch_model.bin +3 -0
checkpoints/checkpoint-5000/rng_state.pth +3 -0
checkpoints/checkpoint-5000/scheduler.pt +3 -0
checkpoints/checkpoint-5000/special_tokens_map.json +9 -0
checkpoints/checkpoint-5000/spm.model +3 -0
checkpoints/checkpoint-5000/tokenizer.json +0 -0
checkpoints/checkpoint-5000/tokenizer_config.json +17 -0
checkpoints/checkpoint-5000/trainer_state.json +716 -0
checkpoints/checkpoint-5000/training_args.bin +3 -0

checkpoints/checkpoint-5000/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[MASK]": 128000
+}

checkpoints/checkpoint-5000/config.json ADDED Viewed

	@@ -0,0 +1,349 @@

+{
+  "_name_or_path": "microsoft/deberta-v3-base",
+  "architectures": [
+    "DebertaV2ForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "cs.AI",
+    "1": "cs.AR",
+    "2": "cs.CC",
+    "3": "cs.CE",
+    "4": "cs.CG",
+    "5": "cs.CL",
+    "6": "cs.CR",
+    "7": "cs.CV",
+    "8": "cs.CY",
+    "9": "cs.DB",
+    "10": "cs.DC",
+    "11": "cs.DL",
+    "12": "cs.DM",
+    "13": "cs.DS",
+    "14": "cs.ET",
+    "15": "cs.FL",
+    "16": "cs.GL",
+    "17": "cs.GR",
+    "18": "cs.GT",
+    "19": "cs.HC",
+    "20": "cs.IR",
+    "21": "cs.IT",
+    "22": "cs.LG",
+    "23": "cs.LO",
+    "24": "cs.MA",
+    "25": "cs.MM",
+    "26": "cs.MS",
+    "27": "cs.NA",
+    "28": "cs.NE",
+    "29": "cs.NI",
+    "30": "cs.OH",
+    "31": "cs.OS",
+    "32": "cs.PF",
+    "33": "cs.PL",
+    "34": "cs.RO",
+    "35": "cs.SC",
+    "36": "cs.SD",
+    "37": "cs.SE",
+    "38": "cs.SI",
+    "39": "cs.SY",
+    "40": "econ.EM",
+    "41": "econ.GN",
+    "42": "econ.TH",
+    "43": "eess.AS",
+    "44": "eess.IV",
+    "45": "eess.SP",
+    "46": "eess.SY",
+    "47": "math.AC",
+    "48": "math.AG",
+    "49": "math.AP",
+    "50": "math.AT",
+    "51": "math.CA",
+    "52": "math.CO",
+    "53": "math.CT",
+    "54": "math.CV",
+    "55": "math.DG",
+    "56": "math.DS",
+    "57": "math.FA",
+    "58": "math.GM",
+    "59": "math.GN",
+    "60": "math.GR",
+    "61": "math.GT",
+    "62": "math.HO",
+    "63": "math.IT",
+    "64": "math.KT",
+    "65": "math.LO",
+    "66": "math.MG",
+    "67": "math.MP",
+    "68": "math.NA",
+    "69": "math.NT",
+    "70": "math.OA",
+    "71": "math.OC",
+    "72": "math.PR",
+    "73": "math.QA",
+    "74": "math.RA",
+    "75": "math.RT",
+    "76": "math.SG",
+    "77": "math.SP",
+    "78": "math.ST",
+    "79": "astro-ph.CO",
+    "80": "astro-ph.EP",
+    "81": "astro-ph.GA",
+    "82": "astro-ph.HE",
+    "83": "astro-ph.IM",
+    "84": "astro-ph.SR",
+    "85": "cond-mat.dis-nn",
+    "86": "cond-mat.mes-hall",
+    "87": "cond-mat.mtrl-sci",
+    "88": "cond-mat.other",
+    "89": "cond-mat.quant-gas",
+    "90": "cond-mat.soft",
+    "91": "cond-mat.stat-mech",
+    "92": "cond-mat.str-el",
+    "93": "cond-mat.supr-con",
+    "94": "gr-qc",
+    "95": "hep-ex",
+    "96": "hep-lat",
+    "97": "hep-ph",
+    "98": "hep-th",
+    "99": "math-ph",
+    "100": "nlin.AO",
+    "101": "nlin.CD",
+    "102": "nlin.CG",
+    "103": "nlin.PS",
+    "104": "nlin.SI",
+    "105": "nucl-ex",
+    "106": "nucl-th",
+    "107": "physics.acc-ph",
+    "108": "physics.ao-ph",
+    "109": "physics.app-ph",
+    "110": "physics.atm-clus",
+    "111": "physics.atom-ph",
+    "112": "physics.bio-ph",
+    "113": "physics.chem-ph",
+    "114": "physics.class-ph",
+    "115": "physics.comp-ph",
+    "116": "physics.data-an",
+    "117": "physics.ed-ph",
+    "118": "physics.flu-dyn",
+    "119": "physics.gen-ph",
+    "120": "physics.geo-ph",
+    "121": "physics.hist-ph",
+    "122": "physics.ins-det",
+    "123": "physics.med-ph",
+    "124": "physics.optics",
+    "125": "physics.plasm-ph",
+    "126": "physics.pop-ph",
+    "127": "physics.soc-ph",
+    "128": "physics.space-ph",
+    "129": "quant-ph",
+    "130": "q-bio.BM",
+    "131": "q-bio.CB",
+    "132": "q-bio.GN",
+    "133": "q-bio.MN",
+    "134": "q-bio.NC",
+    "135": "q-bio.OT",
+    "136": "q-bio.PE",
+    "137": "q-bio.QM",
+    "138": "q-bio.SC",
+    "139": "q-bio.TO",
+    "140": "q-fin.CP",
+    "141": "q-fin.EC",
+    "142": "q-fin.GN",
+    "143": "q-fin.MF",
+    "144": "q-fin.PM",
+    "145": "q-fin.PR",
+    "146": "q-fin.RM",
+    "147": "q-fin.ST",
+    "148": "q-fin.TR",
+    "149": "stat.AP",
+    "150": "stat.CO",
+    "151": "stat.ME",
+    "152": "stat.ML",
+    "153": "stat.OT",
+    "154": "stat.TH"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "astro-ph.CO": 79,
+    "astro-ph.EP": 80,
+    "astro-ph.GA": 81,
+    "astro-ph.HE": 82,
+    "astro-ph.IM": 83,
+    "astro-ph.SR": 84,
+    "cond-mat.dis-nn": 85,
+    "cond-mat.mes-hall": 86,
+    "cond-mat.mtrl-sci": 87,
+    "cond-mat.other": 88,
+    "cond-mat.quant-gas": 89,
+    "cond-mat.soft": 90,
+    "cond-mat.stat-mech": 91,
+    "cond-mat.str-el": 92,
+    "cond-mat.supr-con": 93,
+    "cs.AI": 0,
+    "cs.AR": 1,
+    "cs.CC": 2,
+    "cs.CE": 3,
+    "cs.CG": 4,
+    "cs.CL": 5,
+    "cs.CR": 6,
+    "cs.CV": 7,
+    "cs.CY": 8,
+    "cs.DB": 9,
+    "cs.DC": 10,
+    "cs.DL": 11,
+    "cs.DM": 12,
+    "cs.DS": 13,
+    "cs.ET": 14,
+    "cs.FL": 15,
+    "cs.GL": 16,
+    "cs.GR": 17,
+    "cs.GT": 18,
+    "cs.HC": 19,
+    "cs.IR": 20,
+    "cs.IT": 21,
+    "cs.LG": 22,
+    "cs.LO": 23,
+    "cs.MA": 24,
+    "cs.MM": 25,
+    "cs.MS": 26,
+    "cs.NA": 27,
+    "cs.NE": 28,
+    "cs.NI": 29,
+    "cs.OH": 30,
+    "cs.OS": 31,
+    "cs.PF": 32,
+    "cs.PL": 33,
+    "cs.RO": 34,
+    "cs.SC": 35,
+    "cs.SD": 36,
+    "cs.SE": 37,
+    "cs.SI": 38,
+    "cs.SY": 39,
+    "econ.EM": 40,
+    "econ.GN": 41,
+    "econ.TH": 42,
+    "eess.AS": 43,
+    "eess.IV": 44,
+    "eess.SP": 45,
+    "eess.SY": 46,
+    "gr-qc": 94,
+    "hep-ex": 95,
+    "hep-lat": 96,
+    "hep-ph": 97,
+    "hep-th": 98,
+    "math-ph": 99,
+    "math.AC": 47,
+    "math.AG": 48,
+    "math.AP": 49,
+    "math.AT": 50,
+    "math.CA": 51,
+    "math.CO": 52,
+    "math.CT": 53,
+    "math.CV": 54,
+    "math.DG": 55,
+    "math.DS": 56,
+    "math.FA": 57,
+    "math.GM": 58,
+    "math.GN": 59,
+    "math.GR": 60,
+    "math.GT": 61,
+    "math.HO": 62,
+    "math.IT": 63,
+    "math.KT": 64,
+    "math.LO": 65,
+    "math.MG": 66,
+    "math.MP": 67,
+    "math.NA": 68,
+    "math.NT": 69,
+    "math.OA": 70,
+    "math.OC": 71,
+    "math.PR": 72,
+    "math.QA": 73,
+    "math.RA": 74,
+    "math.RT": 75,
+    "math.SG": 76,
+    "math.SP": 77,
+    "math.ST": 78,
+    "nlin.AO": 100,
+    "nlin.CD": 101,
+    "nlin.CG": 102,
+    "nlin.PS": 103,
+    "nlin.SI": 104,
+    "nucl-ex": 105,
+    "nucl-th": 106,
+    "physics.acc-ph": 107,
+    "physics.ao-ph": 108,
+    "physics.app-ph": 109,
+    "physics.atm-clus": 110,
+    "physics.atom-ph": 111,
+    "physics.bio-ph": 112,
+    "physics.chem-ph": 113,
+    "physics.class-ph": 114,
+    "physics.comp-ph": 115,
+    "physics.data-an": 116,
+    "physics.ed-ph": 117,
+    "physics.flu-dyn": 118,
+    "physics.gen-ph": 119,
+    "physics.geo-ph": 120,
+    "physics.hist-ph": 121,
+    "physics.ins-det": 122,
+    "physics.med-ph": 123,
+    "physics.optics": 124,
+    "physics.plasm-ph": 125,
+    "physics.pop-ph": 126,
+    "physics.soc-ph": 127,
+    "physics.space-ph": 128,
+    "q-bio.BM": 130,
+    "q-bio.CB": 131,
+    "q-bio.GN": 132,
+    "q-bio.MN": 133,
+    "q-bio.NC": 134,
+    "q-bio.OT": 135,
+    "q-bio.PE": 136,
+    "q-bio.QM": 137,
+    "q-bio.SC": 138,
+    "q-bio.TO": 139,
+    "q-fin.CP": 140,
+    "q-fin.EC": 141,
+    "q-fin.GN": 142,
+    "q-fin.MF": 143,
+    "q-fin.PM": 144,
+    "q-fin.PR": 145,
+    "q-fin.RM": 146,
+    "q-fin.ST": 147,
+    "q-fin.TR": 148,
+    "quant-ph": 129,
+    "stat.AP": 149,
+    "stat.CO": 150,
+    "stat.ME": 151,
+    "stat.ML": 152,
+    "stat.OT": 153,
+    "stat.TH": 154
+  },
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 768,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "relative_attention": true,
+  "share_att_key": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.26.0",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

checkpoints/checkpoint-5000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3efb4ae56c2ad3c8ba675f45eecf154fab5f54e0782feec00e66330992d6f390
+size 1476449093

checkpoints/checkpoint-5000/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:03320d54ecf9e81c581e38241dd9f1a63be07de6fce865e04a08aa39fbd35cae
+size 738239353

checkpoints/checkpoint-5000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0fc91a7539cd037ead23734244c8f11c1b3a65a0ed202779afe4d0fcb9215c43
+size 14511

checkpoints/checkpoint-5000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a5fb069036ab754afccad08980fd8d5eb7bef2179ce138cf084a31e22bad0204
+size 627

checkpoints/checkpoint-5000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

checkpoints/checkpoint-5000/spm.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c679fbf93643d19aab7ee10c0b99e460bdbc02fedf34b92b05af343b4af586fd
+size 2464616

checkpoints/checkpoint-5000/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoints/checkpoint-5000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,17 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "name_or_path": "microsoft/deberta-v3-base",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "special_tokens_map_file": null,
+  "split_by_punct": false,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

checkpoints/checkpoint-5000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,716 @@

+{
+  "best_metric": 1.5726864337921143,
+  "best_model_checkpoint": "checkpoints/checkpoint-4000",
+  "epoch": 3.0807147258163896,
+  "global_step": 5000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.06,
+      "learning_rate": 2e-05,
+      "loss": 4.2861,
+      "step": 100
+    },
+    {
+      "epoch": 0.06,
+      "eval_loss": 2.8099584579467773,
+      "eval_runtime": 3.2167,
+      "eval_samples_per_second": 318.338,
+      "eval_steps_per_second": 13.368,
+      "step": 100
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 1.9591836734693877e-05,
+      "loss": 2.3657,
+      "step": 200
+    },
+    {
+      "epoch": 0.12,
+      "eval_loss": 2.1107137203216553,
+      "eval_runtime": 3.1943,
+      "eval_samples_per_second": 320.576,
+      "eval_steps_per_second": 13.462,
+      "step": 200
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 1.9183673469387756e-05,
+      "loss": 2.0236,
+      "step": 300
+    },
+    {
+      "epoch": 0.18,
+      "eval_loss": 2.0463480949401855,
+      "eval_runtime": 3.2181,
+      "eval_samples_per_second": 318.2,
+      "eval_steps_per_second": 13.362,
+      "step": 300
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 1.8775510204081636e-05,
+      "loss": 2.0204,
+      "step": 400
+    },
+    {
+      "epoch": 0.25,
+      "eval_loss": 1.9829792976379395,
+      "eval_runtime": 3.3104,
+      "eval_samples_per_second": 309.332,
+      "eval_steps_per_second": 12.99,
+      "step": 400
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 1.836734693877551e-05,
+      "loss": 1.9273,
+      "step": 500
+    },
+    {
+      "epoch": 0.31,
+      "eval_loss": 1.9156670570373535,
+      "eval_runtime": 3.1882,
+      "eval_samples_per_second": 321.188,
+      "eval_steps_per_second": 13.487,
+      "step": 500
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 1.795918367346939e-05,
+      "loss": 1.9195,
+      "step": 600
+    },
+    {
+      "epoch": 0.37,
+      "eval_loss": 1.927609920501709,
+      "eval_runtime": 3.1908,
+      "eval_samples_per_second": 320.926,
+      "eval_steps_per_second": 13.476,
+      "step": 600
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 1.7551020408163266e-05,
+      "loss": 1.8346,
+      "step": 700
+    },
+    {
+      "epoch": 0.43,
+      "eval_loss": 1.9294021129608154,
+      "eval_runtime": 3.2003,
+      "eval_samples_per_second": 319.97,
+      "eval_steps_per_second": 13.436,
+      "step": 700
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 1.7142857142857142e-05,
+      "loss": 1.8408,
+      "step": 800
+    },
+    {
+      "epoch": 0.49,
+      "eval_loss": 1.8610551357269287,
+      "eval_runtime": 3.1115,
+      "eval_samples_per_second": 329.097,
+      "eval_steps_per_second": 13.82,
+      "step": 800
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 1.673469387755102e-05,
+      "loss": 1.8239,
+      "step": 900
+    },
+    {
+      "epoch": 0.55,
+      "eval_loss": 1.819357991218567,
+      "eval_runtime": 3.1154,
+      "eval_samples_per_second": 328.693,
+      "eval_steps_per_second": 13.803,
+      "step": 900
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 1.63265306122449e-05,
+      "loss": 1.7571,
+      "step": 1000
+    },
+    {
+      "epoch": 0.62,
+      "eval_loss": 1.798096776008606,
+      "eval_runtime": 3.0659,
+      "eval_samples_per_second": 333.994,
+      "eval_steps_per_second": 14.025,
+      "step": 1000
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 1.5918367346938776e-05,
+      "loss": 1.7465,
+      "step": 1100
+    },
+    {
+      "epoch": 0.68,
+      "eval_loss": 1.779166579246521,
+      "eval_runtime": 3.0781,
+      "eval_samples_per_second": 332.678,
+      "eval_steps_per_second": 13.97,
+      "step": 1100
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 1.5510204081632655e-05,
+      "loss": 1.775,
+      "step": 1200
+    },
+    {
+      "epoch": 0.74,
+      "eval_loss": 1.7743403911590576,
+      "eval_runtime": 3.0565,
+      "eval_samples_per_second": 335.02,
+      "eval_steps_per_second": 14.068,
+      "step": 1200
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 1.510204081632653e-05,
+      "loss": 1.6985,
+      "step": 1300
+    },
+    {
+      "epoch": 0.8,
+      "eval_loss": 1.7644569873809814,
+      "eval_runtime": 3.1653,
+      "eval_samples_per_second": 323.503,
+      "eval_steps_per_second": 13.585,
+      "step": 1300
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 1.469387755102041e-05,
+      "loss": 1.6842,
+      "step": 1400
+    },
+    {
+      "epoch": 0.86,
+      "eval_loss": 1.7416290044784546,
+      "eval_runtime": 3.3051,
+      "eval_samples_per_second": 309.828,
+      "eval_steps_per_second": 13.01,
+      "step": 1400
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 1.4285714285714287e-05,
+      "loss": 1.763,
+      "step": 1500
+    },
+    {
+      "epoch": 0.92,
+      "eval_loss": 1.6806639432907104,
+      "eval_runtime": 3.29,
+      "eval_samples_per_second": 311.247,
+      "eval_steps_per_second": 13.07,
+      "step": 1500
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 1.3877551020408165e-05,
+      "loss": 1.6784,
+      "step": 1600
+    },
+    {
+      "epoch": 0.99,
+      "eval_loss": 1.7129175662994385,
+      "eval_runtime": 3.2385,
+      "eval_samples_per_second": 316.197,
+      "eval_steps_per_second": 13.278,
+      "step": 1600
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 1.3469387755102042e-05,
+      "loss": 1.6698,
+      "step": 1700
+    },
+    {
+      "epoch": 1.05,
+      "eval_loss": 1.7104843854904175,
+      "eval_runtime": 3.2875,
+      "eval_samples_per_second": 311.479,
+      "eval_steps_per_second": 13.08,
+      "step": 1700
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 1.3061224489795918e-05,
+      "loss": 1.665,
+      "step": 1800
+    },
+    {
+      "epoch": 1.11,
+      "eval_loss": 1.6988511085510254,
+      "eval_runtime": 3.147,
+      "eval_samples_per_second": 325.392,
+      "eval_steps_per_second": 13.664,
+      "step": 1800
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 1.2653061224489798e-05,
+      "loss": 1.6452,
+      "step": 1900
+    },
+    {
+      "epoch": 1.17,
+      "eval_loss": 1.6637670993804932,
+      "eval_runtime": 3.253,
+      "eval_samples_per_second": 314.784,
+      "eval_steps_per_second": 13.218,
+      "step": 1900
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 1.2244897959183674e-05,
+      "loss": 1.6676,
+      "step": 2000
+    },
+    {
+      "epoch": 1.23,
+      "eval_loss": 1.674545168876648,
+      "eval_runtime": 3.1195,
+      "eval_samples_per_second": 328.262,
+      "eval_steps_per_second": 13.784,
+      "step": 2000
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 1.1836734693877552e-05,
+      "loss": 1.6023,
+      "step": 2100
+    },
+    {
+      "epoch": 1.29,
+      "eval_loss": 1.6806392669677734,
+      "eval_runtime": 3.2169,
+      "eval_samples_per_second": 318.322,
+      "eval_steps_per_second": 13.367,
+      "step": 2100
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 1.1428571428571429e-05,
+      "loss": 1.6518,
+      "step": 2200
+    },
+    {
+      "epoch": 1.36,
+      "eval_loss": 1.6673433780670166,
+      "eval_runtime": 3.1837,
+      "eval_samples_per_second": 321.635,
+      "eval_steps_per_second": 13.506,
+      "step": 2200
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 1.1020408163265306e-05,
+      "loss": 1.6226,
+      "step": 2300
+    },
+    {
+      "epoch": 1.42,
+      "eval_loss": 1.6591168642044067,
+      "eval_runtime": 3.1917,
+      "eval_samples_per_second": 320.834,
+      "eval_steps_per_second": 13.473,
+      "step": 2300
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 1.0612244897959186e-05,
+      "loss": 1.6169,
+      "step": 2400
+    },
+    {
+      "epoch": 1.48,
+      "eval_loss": 1.6453814506530762,
+      "eval_runtime": 3.2314,
+      "eval_samples_per_second": 316.887,
+      "eval_steps_per_second": 13.307,
+      "step": 2400
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 1.0204081632653063e-05,
+      "loss": 1.6009,
+      "step": 2500
+    },
+    {
+      "epoch": 1.54,
+      "eval_loss": 1.6426032781600952,
+      "eval_runtime": 3.321,
+      "eval_samples_per_second": 308.341,
+      "eval_steps_per_second": 12.948,
+      "step": 2500
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 9.795918367346939e-06,
+      "loss": 1.5902,
+      "step": 2600
+    },
+    {
+      "epoch": 1.6,
+      "eval_loss": 1.657698392868042,
+      "eval_runtime": 3.2045,
+      "eval_samples_per_second": 319.555,
+      "eval_steps_per_second": 13.419,
+      "step": 2600
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 9.387755102040818e-06,
+      "loss": 1.6463,
+      "step": 2700
+    },
+    {
+      "epoch": 1.66,
+      "eval_loss": 1.6440751552581787,
+      "eval_runtime": 3.1987,
+      "eval_samples_per_second": 320.134,
+      "eval_steps_per_second": 13.443,
+      "step": 2700
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 8.979591836734695e-06,
+      "loss": 1.6026,
+      "step": 2800
+    },
+    {
+      "epoch": 1.73,
+      "eval_loss": 1.6263386011123657,
+      "eval_runtime": 3.2881,
+      "eval_samples_per_second": 311.424,
+      "eval_steps_per_second": 13.077,
+      "step": 2800
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 8.571428571428571e-06,
+      "loss": 1.5968,
+      "step": 2900
+    },
+    {
+      "epoch": 1.79,
+      "eval_loss": 1.646950125694275,
+      "eval_runtime": 3.1092,
+      "eval_samples_per_second": 329.35,
+      "eval_steps_per_second": 13.83,
+      "step": 2900
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 8.16326530612245e-06,
+      "loss": 1.5472,
+      "step": 3000
+    },
+    {
+      "epoch": 1.85,
+      "eval_loss": 1.622912883758545,
+      "eval_runtime": 3.2139,
+      "eval_samples_per_second": 318.616,
+      "eval_steps_per_second": 13.379,
+      "step": 3000
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 7.755102040816327e-06,
+      "loss": 1.5635,
+      "step": 3100
+    },
+    {
+      "epoch": 1.91,
+      "eval_loss": 1.611650824546814,
+      "eval_runtime": 3.1607,
+      "eval_samples_per_second": 323.981,
+      "eval_steps_per_second": 13.605,
+      "step": 3100
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 7.346938775510205e-06,
+      "loss": 1.5835,
+      "step": 3200
+    },
+    {
+      "epoch": 1.97,
+      "eval_loss": 1.6080050468444824,
+      "eval_runtime": 3.1604,
+      "eval_samples_per_second": 324.009,
+      "eval_steps_per_second": 13.606,
+      "step": 3200
+    },
+    {
+      "epoch": 2.03,
+      "learning_rate": 6.938775510204082e-06,
+      "loss": 1.5658,
+      "step": 3300
+    },
+    {
+      "epoch": 2.03,
+      "eval_loss": 1.6260864734649658,
+      "eval_runtime": 3.1732,
+      "eval_samples_per_second": 322.707,
+      "eval_steps_per_second": 13.551,
+      "step": 3300
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 6.530612244897959e-06,
+      "loss": 1.531,
+      "step": 3400
+    },
+    {
+      "epoch": 2.09,
+      "eval_loss": 1.6269021034240723,
+      "eval_runtime": 3.1363,
+      "eval_samples_per_second": 326.498,
+      "eval_steps_per_second": 13.71,
+      "step": 3400
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 6.122448979591837e-06,
+      "loss": 1.5661,
+      "step": 3500
+    },
+    {
+      "epoch": 2.16,
+      "eval_loss": 1.607744812965393,
+      "eval_runtime": 3.1233,
+      "eval_samples_per_second": 327.858,
+      "eval_steps_per_second": 13.767,
+      "step": 3500
+    },
+    {
+      "epoch": 2.22,
+      "learning_rate": 5.7142857142857145e-06,
+      "loss": 1.5551,
+      "step": 3600
+    },
+    {
+      "epoch": 2.22,
+      "eval_loss": 1.5946581363677979,
+      "eval_runtime": 3.2699,
+      "eval_samples_per_second": 313.164,
+      "eval_steps_per_second": 13.15,
+      "step": 3600
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 5.306122448979593e-06,
+      "loss": 1.5976,
+      "step": 3700
+    },
+    {
+      "epoch": 2.28,
+      "eval_loss": 1.5979944467544556,
+      "eval_runtime": 3.0009,
+      "eval_samples_per_second": 341.23,
+      "eval_steps_per_second": 14.329,
+      "step": 3700
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 4.897959183673469e-06,
+      "loss": 1.4976,
+      "step": 3800
+    },
+    {
+      "epoch": 2.34,
+      "eval_loss": 1.5903353691101074,
+      "eval_runtime": 3.1775,
+      "eval_samples_per_second": 322.268,
+      "eval_steps_per_second": 13.533,
+      "step": 3800
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 4.489795918367348e-06,
+      "loss": 1.5223,
+      "step": 3900
+    },
+    {
+      "epoch": 2.4,
+      "eval_loss": 1.5888752937316895,
+      "eval_runtime": 3.0973,
+      "eval_samples_per_second": 330.61,
+      "eval_steps_per_second": 13.883,
+      "step": 3900
+    },
+    {
+      "epoch": 2.46,
+      "learning_rate": 4.081632653061225e-06,
+      "loss": 1.5066,
+      "step": 4000
+    },
+    {
+      "epoch": 2.46,
+      "eval_loss": 1.5726864337921143,
+      "eval_runtime": 3.1937,
+      "eval_samples_per_second": 320.636,
+      "eval_steps_per_second": 13.464,
+      "step": 4000
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 3.6734693877551024e-06,
+      "loss": 1.4979,
+      "step": 4100
+    },
+    {
+      "epoch": 2.53,
+      "eval_loss": 1.6021223068237305,
+      "eval_runtime": 3.0902,
+      "eval_samples_per_second": 331.373,
+      "eval_steps_per_second": 13.915,
+      "step": 4100
+    },
+    {
+      "epoch": 2.59,
+      "learning_rate": 3.2653061224489794e-06,
+      "loss": 1.5341,
+      "step": 4200
+    },
+    {
+      "epoch": 2.59,
+      "eval_loss": 1.5761020183563232,
+      "eval_runtime": 3.1351,
+      "eval_samples_per_second": 326.63,
+      "eval_steps_per_second": 13.716,
+      "step": 4200
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 2.8571428571428573e-06,
+      "loss": 1.5174,
+      "step": 4300
+    },
+    {
+      "epoch": 2.65,
+      "eval_loss": 1.578320026397705,
+      "eval_runtime": 3.1489,
+      "eval_samples_per_second": 325.193,
+      "eval_steps_per_second": 13.656,
+      "step": 4300
+    },
+    {
+      "epoch": 2.71,
+      "learning_rate": 2.4489795918367347e-06,
+      "loss": 1.5185,
+      "step": 4400
+    },
+    {
+      "epoch": 2.71,
+      "eval_loss": 1.5889195203781128,
+      "eval_runtime": 3.1025,
+      "eval_samples_per_second": 330.06,
+      "eval_steps_per_second": 13.86,
+      "step": 4400
+    },
+    {
+      "epoch": 2.77,
+      "learning_rate": 2.0408163265306125e-06,
+      "loss": 1.5102,
+      "step": 4500
+    },
+    {
+      "epoch": 2.77,
+      "eval_loss": 1.596100091934204,
+      "eval_runtime": 3.144,
+      "eval_samples_per_second": 325.698,
+      "eval_steps_per_second": 13.677,
+      "step": 4500
+    },
+    {
+      "epoch": 2.83,
+      "learning_rate": 1.6326530612244897e-06,
+      "loss": 1.4411,
+      "step": 4600
+    },
+    {
+      "epoch": 2.83,
+      "eval_loss": 1.5760987997055054,
+      "eval_runtime": 3.1173,
+      "eval_samples_per_second": 328.488,
+      "eval_steps_per_second": 13.794,
+      "step": 4600
+    },
+    {
+      "epoch": 2.9,
+      "learning_rate": 1.2244897959183673e-06,
+      "loss": 1.511,
+      "step": 4700
+    },
+    {
+      "epoch": 2.9,
+      "eval_loss": 1.575000524520874,
+      "eval_runtime": 3.2247,
+      "eval_samples_per_second": 317.552,
+      "eval_steps_per_second": 13.335,
+      "step": 4700
+    },
+    {
+      "epoch": 2.96,
+      "learning_rate": 8.163265306122449e-07,
+      "loss": 1.4877,
+      "step": 4800
+    },
+    {
+      "epoch": 2.96,
+      "eval_loss": 1.5793194770812988,
+      "eval_runtime": 3.2241,
+      "eval_samples_per_second": 317.604,
+      "eval_steps_per_second": 13.337,
+      "step": 4800
+    },
+    {
+      "epoch": 3.02,
+      "learning_rate": 4.0816326530612243e-07,
+      "loss": 1.4913,
+      "step": 4900
+    },
+    {
+      "epoch": 3.02,
+      "eval_loss": 1.591275930404663,
+      "eval_runtime": 3.198,
+      "eval_samples_per_second": 320.2,
+      "eval_steps_per_second": 13.446,
+      "step": 4900
+    },
+    {
+      "epoch": 3.08,
+      "learning_rate": 0.0,
+      "loss": 1.4747,
+      "step": 5000
+    },
+    {
+      "epoch": 3.08,
+      "eval_loss": 1.5727088451385498,
+      "eval_runtime": 3.1331,
+      "eval_samples_per_second": 326.836,
+      "eval_steps_per_second": 13.725,
+      "step": 5000
+    }
+  ],
+  "max_steps": 5000,
+  "num_train_epochs": 4,
+  "total_flos": 1.9803672136145664e+16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoints/checkpoint-5000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8520cedda3e2747c5686a41cd0b59f852538b1601bc60917b1cd9575f13fa6ea
+size 3515