Update README.md
Browse files
README.md
CHANGED
@@ -17,10 +17,10 @@ ModelBert 是一个专门基于中文预训练语料进行训练的预训练模
|
|
17 |
|
18 |
## 训练细节
|
19 |
|
20 |
-
- **硬件配置**:笔者训练资源有限,本次训练使用了
|
21 |
- **优化器与学习率**:优化器采用adamw,初始学习率设置为 1e-4。learning rate scheduler 采用余弦退火。后续可能采用WSD等学习率计划从新优化。
|
22 |
- **Tokenizer**:Tokenizer 选用了 Qwen2.5 系列。
|
23 |
-
- **Batch Size**:单卡Batch Size 设置为4,总Batch size为
|
24 |
- **上下文长度**:上下文长度设置为 4096,并采用packing等策略。
|
25 |
- **训练策略**:采用了 Packing 等策略。MLM比率设置为0.3.
|
26 |
|
|
|
17 |
|
18 |
## 训练细节
|
19 |
|
20 |
+
- **硬件配置**:笔者训练资源有限,本次训练使用了3\*8\*A100,预训练时间为58小时左右。
|
21 |
- **优化器与学习率**:优化器采用adamw,初始学习率设置为 1e-4。learning rate scheduler 采用余弦退火。后续可能采用WSD等学习率计划从新优化。
|
22 |
- **Tokenizer**:Tokenizer 选用了 Qwen2.5 系列。
|
23 |
+
- **Batch Size**:单卡Batch Size 设置为4,总Batch size为96。
|
24 |
- **上下文长度**:上下文长度设置为 4096,并采用packing等策略。
|
25 |
- **训练策略**:采用了 Packing 等策略。MLM比率设置为0.3.
|
26 |
|