alexkueck commited on
Commit
cc37d8c
·
1 Parent(s): 6759744

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +2 -1
app.py CHANGED
@@ -44,7 +44,7 @@ xxx = os.getenv("TOKEN")
44
  login(token=xxx)
45
  #Modelle und Tokenizer
46
  model_name = "alexkueck/LIFineTuned"
47
- print(f"{model_name}/model/")
48
  #Alternativ mit beliebigen Modellen:
49
  base_model = "project-baize/baize-v2-7b" #load_8bit = False (in load_tokenizer_and_model)
50
  #base_model = "TheBloke/airoboros-13B-HF" #load_8bit = False (in load_tokenizer_and_model)
@@ -63,6 +63,7 @@ dataset_neu = daten_laden("alexkueck/tis")
63
  tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4, remove_columns=["id","text"])
64
 
65
  print (tokenized_datasets["train"][4])
 
66
  #den Text nun zusammenführen (concatenieren) und anschließend in kleine Häppchen aufteilen (block_size=128), die verarbeitet werden können
67
  #das macht die map-Funktion und das Attribut batched = True
68
  #man könnte das weglassen, wenn jeder Satz einzeln gegeben wurde in den Texten...
 
44
  login(token=xxx)
45
  #Modelle und Tokenizer
46
  model_name = "alexkueck/LIFineTuned"
47
+
48
  #Alternativ mit beliebigen Modellen:
49
  base_model = "project-baize/baize-v2-7b" #load_8bit = False (in load_tokenizer_and_model)
50
  #base_model = "TheBloke/airoboros-13B-HF" #load_8bit = False (in load_tokenizer_and_model)
 
63
  tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4, remove_columns=["id","text"])
64
 
65
  print (tokenized_datasets["train"][4])
66
+ print(f"{model_name}/model/")
67
  #den Text nun zusammenführen (concatenieren) und anschließend in kleine Häppchen aufteilen (block_size=128), die verarbeitet werden können
68
  #das macht die map-Funktion und das Attribut batched = True
69
  #man könnte das weglassen, wenn jeder Satz einzeln gegeben wurde in den Texten...