PJMixers-Dev
/

Gemma-3-Earthen-v0.2-4B-QLoRA

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1b81b091dab089fa2fe32b0bec2100bb9f9c60692c1095ab9780f0d2662d6b41
 size 1907432232

 version https://git-lfs.github.com/spec/v1
+oid sha256:fd6116f82d579a82e3164164a1945c1d5c028518d8c967b5f19b4c473791f0cd
 size 1907432232

trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.059892194050708725,
   "eval_steps": 10,
-  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1186,6 +1186,84 @@
       "eval_samples_per_second": 0.876,
       "eval_steps_per_second": 0.219,
       "step": 150
     }
   ],
   "logging_steps": 1,
@@ -1205,7 +1283,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.837675502665728e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.06388500698742264,
   "eval_steps": 10,
+  "global_step": 160,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 0.876,
       "eval_steps_per_second": 0.219,
       "step": 150
+    },
+    {
+      "epoch": 0.06029147534438012,
+      "grad_norm": 0.463015079498291,
+      "learning_rate": 2.4848560027025883e-07,
+      "loss": 2.0948,
+      "step": 151
+    },
+    {
+      "epoch": 0.060690756638051506,
+      "grad_norm": 0.4769456386566162,
+      "learning_rate": 2.484749915511997e-07,
+      "loss": 2.1417,
+      "step": 152
+    },
+    {
+      "epoch": 0.0610900379317229,
+      "grad_norm": 0.4819183647632599,
+      "learning_rate": 2.484643747622871e-07,
+      "loss": 2.2244,
+      "step": 153
+    },
+    {
+      "epoch": 0.06148931922539429,
+      "grad_norm": 0.4990222454071045,
+      "learning_rate": 2.4845374989430964e-07,
+      "loss": 2.3024,
+      "step": 154
+    },
+    {
+      "epoch": 0.06188860051906568,
+      "grad_norm": 0.553051233291626,
+      "learning_rate": 2.4844311693804187e-07,
+      "loss": 2.1907,
+      "step": 155
+    },
+    {
+      "epoch": 0.062287881812737075,
+      "grad_norm": 0.483012318611145,
+      "learning_rate": 2.4843247588424436e-07,
+      "loss": 2.2427,
+      "step": 156
+    },
+    {
+      "epoch": 0.06268716310640847,
+      "grad_norm": 0.5101610422134399,
+      "learning_rate": 2.4842182672366355e-07,
+      "loss": 2.0001,
+      "step": 157
+    },
+    {
+      "epoch": 0.06308644440007985,
+      "grad_norm": 0.47115758061408997,
+      "learning_rate": 2.484111694470319e-07,
+      "loss": 2.2248,
+      "step": 158
+    },
+    {
+      "epoch": 0.06348572569375124,
+      "grad_norm": 0.46976238489151,
+      "learning_rate": 2.4840050404506756e-07,
+      "loss": 2.0394,
+      "step": 159
+    },
+    {
+      "epoch": 0.06388500698742264,
+      "grad_norm": 0.4438592791557312,
+      "learning_rate": 2.4838983050847455e-07,
+      "loss": 2.0788,
+      "step": 160
+    },
+    {
+      "epoch": 0.06388500698742264,
+      "eval_loss": 2.1408231258392334,
+      "eval_runtime": 292.5781,
+      "eval_samples_per_second": 0.875,
+      "eval_steps_per_second": 0.219,
+      "step": 160
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 5.160187202843443e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null