tangledgroup
/

tangled-alpha-0.8-core

@@ -58,7 +58,7 @@ train:
   log_interval: 1
   # Number of samples between optimizer steps across data-parallel ranks (type: int, default: 512)
-  global_batch_size: 512
   # Number of samples per data-parallel rank (type: int, default: 4)
   micro_batch_size: 2

   log_interval: 1
   # Number of samples between optimizer steps across data-parallel ranks (type: int, default: 512)
+  global_batch_size: 256
   # Number of samples per data-parallel rank (type: int, default: 4)
   micro_batch_size: 2