Spaces:
Paused
Paused
Update app.py
Browse files
app.py
CHANGED
@@ -173,8 +173,8 @@ print("Datenset vorbereiten")
|
|
173 |
tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4) #, remove_columns=["id","text"])
|
174 |
|
175 |
#wenn man zum Trainieren erstmal nur einen kleinen Datensatz nehem möchte:
|
176 |
-
|
177 |
-
|
178 |
|
179 |
#Probe ansehen - zum überprüfen...
|
180 |
print('##################Beispiel Datensatz ################')
|
@@ -192,12 +192,8 @@ block_size = 128
|
|
192 |
#die bereits tokenisierten Datensatze ändern sich dadurch: die samples enthalten nun Mengen aus block_size Tokens
|
193 |
#lm_datasets = tokenized_datasets.map(group_texts, batched=True, batch_size=1000, num_proc=4,)
|
194 |
|
195 |
-
#zum test nun einen Teil der DS laden
|
196 |
-
small_train_dataset = tokenized_datasets["train"].shuffle(seed=42).select(range(1000))
|
197 |
-
small_eval_dataset = tokenized_datasets["test"].shuffle(seed=42).select(range(1000))
|
198 |
|
199 |
# Batches von Daten zusammenfassen
|
200 |
-
tokenizer.pad_token = tokenizer.eos_token
|
201 |
data_collator = DataCollatorForLanguageModeling(tokenizer, mlm=False)
|
202 |
|
203 |
|
|
|
173 |
tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4) #, remove_columns=["id","text"])
|
174 |
|
175 |
#wenn man zum Trainieren erstmal nur einen kleinen Datensatz nehem möchte:
|
176 |
+
small_train_dataset = tokenized_datasets["train"].shuffle(seed=42).select(range(1000))
|
177 |
+
small_eval_dataset = tokenized_datasets["test"].shuffle(seed=42).select(range(1000))
|
178 |
|
179 |
#Probe ansehen - zum überprüfen...
|
180 |
print('##################Beispiel Datensatz ################')
|
|
|
192 |
#die bereits tokenisierten Datensatze ändern sich dadurch: die samples enthalten nun Mengen aus block_size Tokens
|
193 |
#lm_datasets = tokenized_datasets.map(group_texts, batched=True, batch_size=1000, num_proc=4,)
|
194 |
|
|
|
|
|
|
|
195 |
|
196 |
# Batches von Daten zusammenfassen
|
|
|
197 |
data_collator = DataCollatorForLanguageModeling(tokenizer, mlm=False)
|
198 |
|
199 |
|