LIFineTuned

Paused

alexkueck commited on Jun 21, 2023

Commit

9acbf52

1 Parent(s): 9252d8c

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -54,6 +54,7 @@ dataset_neu = daten_laden("alexkueck/tis")
 #alles zusammen auf das neue datenset anwenden - batched = True und 4 Prozesse, um die Berechnung zu beschleunigen. Die "text" - Spalte braucht man anschließend nicht mehr, daher weglassen.
 tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4, remove_columns=["id","text"])
 #den Text nun zusammenführen (concatenieren) und anschließend in kleine Häppchen aufteilen (block_size=128), die verarbeitet werden können
 #das macht die map-Funktion und das Attribut batched = True
 #man könnte das weglassen, wenn jeder Satz einzeln gegeben wurde in den Texten...

 #alles zusammen auf das neue datenset anwenden - batched = True und 4 Prozesse, um die Berechnung zu beschleunigen. Die "text" - Spalte braucht man anschließend nicht mehr, daher weglassen.
 tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4, remove_columns=["id","text"])
+print (tokenized_datasets["train"][4])
 #den Text nun zusammenführen (concatenieren) und anschließend in kleine Häppchen aufteilen (block_size=128), die verarbeitet werden können
 #das macht die map-Funktion und das Attribut batched = True
 #man könnte das weglassen, wenn jeder Satz einzeln gegeben wurde in den Texten...