LIFineTuned

Paused

alexkueck commited on Aug 14, 2023

Commit

03ed1e0

1 Parent(s): 8acd9a0

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -173,8 +173,8 @@ print("Datenset vorbereiten")
 tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4) #, remove_columns=["id","text"])
 #wenn man zum Trainieren erstmal nur einen kleinen Datensatz nehem möchte:
-#small_train_dataset = tokenized_datasets["train"].shuffle(seed=42).select(range(1000))
-#small_eval_dataset = tokenized_datasets["test"].shuffle(seed=42).select(range(1000))
 #Probe ansehen - zum überprüfen...
 print('##################Beispiel Datensatz ################')
@@ -192,12 +192,8 @@ block_size = 128
 #die bereits tokenisierten Datensatze ändern sich dadurch: die samples enthalten nun Mengen aus block_size Tokens
 #lm_datasets = tokenized_datasets.map(group_texts, batched=True, batch_size=1000, num_proc=4,)
-#zum test nun einen Teil der DS laden
-small_train_dataset = tokenized_datasets["train"].shuffle(seed=42).select(range(1000))
-small_eval_dataset = tokenized_datasets["test"].shuffle(seed=42).select(range(1000))
 # Batches von Daten zusammenfassen
-tokenizer.pad_token = tokenizer.eos_token
 data_collator = DataCollatorForLanguageModeling(tokenizer, mlm=False)

 tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4) #, remove_columns=["id","text"])
 #wenn man zum Trainieren erstmal nur einen kleinen Datensatz nehem möchte:
+small_train_dataset = tokenized_datasets["train"].shuffle(seed=42).select(range(1000))
+small_eval_dataset = tokenized_datasets["test"].shuffle(seed=42).select(range(1000))
 #Probe ansehen - zum überprüfen...
 print('##################Beispiel Datensatz ################')
 #die bereits tokenisierten Datensatze ändern sich dadurch: die samples enthalten nun Mengen aus block_size Tokens
 #lm_datasets = tokenized_datasets.map(group_texts, batched=True, batch_size=1000, num_proc=4,)
 # Batches von Daten zusammenfassen
 data_collator = DataCollatorForLanguageModeling(tokenizer, mlm=False)