TurboPascal
/

ChineseModernBert

Model card Files Files and versions Community

TurboPascal commited on Feb 27

Commit

c7e9223

·

verified ·

1 Parent(s): 6218cf7

Update README.md

Files changed (1) hide show

README.md +2 -2

README.md CHANGED Viewed

@@ -17,10 +17,10 @@ ModelBert 是一个专门基于中文预训练语料进行训练的预训练模
 ## 训练细节
-- **硬件配置**：笔者训练资源有限，本次训练使用了2\*8\*A100，预训练时间为58小时左右。
 - **优化器与学习率**：优化器采用adamw，初始学习率设置为 1e-4。learning rate scheduler 采用余弦退火。后续可能采用WSD等学习率计划从新优化。
 - **Tokenizer**：Tokenizer 选用了 Qwen2.5 系列。
-- **Batch Size**：单卡Batch Size 设置为4，总Batch size为64 。
 - **上下文长度**：上下文长度设置为 4096，并采用packing等策略。
 - **训练策略**：采用了 Packing 等策略。MLM比率设置为0.3.

 ## 训练细节
+- **硬件配置**：笔者训练资源有限，本次训练使用了3\*8\*A100，预训练时间为58小时左右。
 - **优化器与学习率**：优化器采用adamw，初始学习率设置为 1e-4。learning rate scheduler 采用余弦退火。后续可能采用WSD等学习率计划从新优化。
 - **Tokenizer**：Tokenizer 选用了 Qwen2.5 系列。
+- **Batch Size**：单卡Batch Size 设置为4，总Batch size为96。
 - **上下文长度**：上下文长度设置为 4096，并采用packing等策略。
 - **训练策略**：采用了 Packing 等策略。MLM比率设置为0.3.