alexkueck commited on
Commit
9acbf52
·
1 Parent(s): 9252d8c

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +1 -0
app.py CHANGED
@@ -54,6 +54,7 @@ dataset_neu = daten_laden("alexkueck/tis")
54
  #alles zusammen auf das neue datenset anwenden - batched = True und 4 Prozesse, um die Berechnung zu beschleunigen. Die "text" - Spalte braucht man anschließend nicht mehr, daher weglassen.
55
  tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4, remove_columns=["id","text"])
56
 
 
57
  #den Text nun zusammenführen (concatenieren) und anschließend in kleine Häppchen aufteilen (block_size=128), die verarbeitet werden können
58
  #das macht die map-Funktion und das Attribut batched = True
59
  #man könnte das weglassen, wenn jeder Satz einzeln gegeben wurde in den Texten...
 
54
  #alles zusammen auf das neue datenset anwenden - batched = True und 4 Prozesse, um die Berechnung zu beschleunigen. Die "text" - Spalte braucht man anschließend nicht mehr, daher weglassen.
55
  tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4, remove_columns=["id","text"])
56
 
57
+ print (tokenized_datasets["train"][4])
58
  #den Text nun zusammenführen (concatenieren) und anschließend in kleine Häppchen aufteilen (block_size=128), die verarbeitet werden können
59
  #das macht die map-Funktion und das Attribut batched = True
60
  #man könnte das weglassen, wenn jeder Satz einzeln gegeben wurde in den Texten...