alexkueck commited on
Commit
03ed1e0
·
1 Parent(s): 8acd9a0

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +2 -6
app.py CHANGED
@@ -173,8 +173,8 @@ print("Datenset vorbereiten")
173
  tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4) #, remove_columns=["id","text"])
174
 
175
  #wenn man zum Trainieren erstmal nur einen kleinen Datensatz nehem möchte:
176
- #small_train_dataset = tokenized_datasets["train"].shuffle(seed=42).select(range(1000))
177
- #small_eval_dataset = tokenized_datasets["test"].shuffle(seed=42).select(range(1000))
178
 
179
  #Probe ansehen - zum überprüfen...
180
  print('##################Beispiel Datensatz ################')
@@ -192,12 +192,8 @@ block_size = 128
192
  #die bereits tokenisierten Datensatze ändern sich dadurch: die samples enthalten nun Mengen aus block_size Tokens
193
  #lm_datasets = tokenized_datasets.map(group_texts, batched=True, batch_size=1000, num_proc=4,)
194
 
195
- #zum test nun einen Teil der DS laden
196
- small_train_dataset = tokenized_datasets["train"].shuffle(seed=42).select(range(1000))
197
- small_eval_dataset = tokenized_datasets["test"].shuffle(seed=42).select(range(1000))
198
 
199
  # Batches von Daten zusammenfassen
200
- tokenizer.pad_token = tokenizer.eos_token
201
  data_collator = DataCollatorForLanguageModeling(tokenizer, mlm=False)
202
 
203
 
 
173
  tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4) #, remove_columns=["id","text"])
174
 
175
  #wenn man zum Trainieren erstmal nur einen kleinen Datensatz nehem möchte:
176
+ small_train_dataset = tokenized_datasets["train"].shuffle(seed=42).select(range(1000))
177
+ small_eval_dataset = tokenized_datasets["test"].shuffle(seed=42).select(range(1000))
178
 
179
  #Probe ansehen - zum überprüfen...
180
  print('##################Beispiel Datensatz ################')
 
192
  #die bereits tokenisierten Datensatze ändern sich dadurch: die samples enthalten nun Mengen aus block_size Tokens
193
  #lm_datasets = tokenized_datasets.map(group_texts, batched=True, batch_size=1000, num_proc=4,)
194
 
 
 
 
195
 
196
  # Batches von Daten zusammenfassen
 
197
  data_collator = DataCollatorForLanguageModeling(tokenizer, mlm=False)
198
 
199