Spaces:

nroggendorff
/

train-llama

Paused

nroggendorff commited on Sep 2, 2024

Commit

062ca1d

verified ·

1 Parent(s): 8cbd82e

Update train.py

Files changed (1) hide show

train.py CHANGED Viewed

@@ -34,11 +34,14 @@ def load_data():
 def create_tokenizer(training_corpus):
     tokenizer = ByteLevelBPETokenizer()
     tokenizer.train_from_iterator(
         training_corpus,
         vocab_size=VOCAB_SIZE,
         min_frequency=2,
-        special_tokens=["<s>", "<pad>", "</s>", "<unk>", "<mask>", "<|user|>", "<|bot|>", "<|end|>"]
     )
     fast_tokenizer = PreTrainedTokenizerFast(tokenizer_object=tokenizer._tokenizer)

 def create_tokenizer(training_corpus):
     tokenizer = ByteLevelBPETokenizer()
+    special_tokens = ["<s>", "<pad>", "</s>", "<unk>", "<mask>"]
+    if INSTRUCT_FINETUNE_BOOL:
+        special_tokens.append("<|user|>", "<|bot|>", "<|end|>")
     tokenizer.train_from_iterator(
         training_corpus,
         vocab_size=VOCAB_SIZE,
         min_frequency=2,
+        special_tokens=special_tokens
     )
     fast_tokenizer = PreTrainedTokenizerFast(tokenizer_object=tokenizer._tokenizer)