TurboPascal commited on
Commit
c7e9223
·
verified ·
1 Parent(s): 6218cf7

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +2 -2
README.md CHANGED
@@ -17,10 +17,10 @@ ModelBert 是一个专门基于中文预训练语料进行训练的预训练模
17
 
18
  ## 训练细节
19
 
20
- - **硬件配置**:笔者训练资源有限,本次训练使用了2\*8\*A100,预训练时间为58小时左右。
21
  - **优化器与学习率**:优化器采用adamw,初始学习率设置为 1e-4。learning rate scheduler 采用余弦退火。后续可能采用WSD等学习率计划从新优化。
22
  - **Tokenizer**:Tokenizer 选用了 Qwen2.5 系列。
23
- - **Batch Size**:单卡Batch Size 设置为4,总Batch size为64
24
  - **上下文长度**:上下文长度设置为 4096,并采用packing等策略。
25
  - **训练策略**:采用了 Packing 等策略。MLM比率设置为0.3.
26
 
 
17
 
18
  ## 训练细节
19
 
20
+ - **硬件配置**:笔者训练资源有限,本次训练使用了3\*8\*A100,预训练时间为58小时左右。
21
  - **优化器与学习率**:优化器采用adamw,初始学习率设置为 1e-4。learning rate scheduler 采用余弦退火。后续可能采用WSD等学习率计划从新优化。
22
  - **Tokenizer**:Tokenizer 选用了 Qwen2.5 系列。
23
+ - **Batch Size**:单卡Batch Size 设置为4,总Batch size为96
24
  - **上下文长度**:上下文长度设置为 4096,并采用packing等策略。
25
  - **训练策略**:采用了 Packing 等策略。MLM比率设置为0.3.
26