Spaces:
Paused
Paused
Update app.py
Browse files
app.py
CHANGED
@@ -44,7 +44,7 @@ xxx = os.getenv("TOKEN")
|
|
44 |
login(token=xxx)
|
45 |
#Modelle und Tokenizer
|
46 |
model_name = "alexkueck/LIFineTuned"
|
47 |
-
|
48 |
#Alternativ mit beliebigen Modellen:
|
49 |
base_model = "project-baize/baize-v2-7b" #load_8bit = False (in load_tokenizer_and_model)
|
50 |
#base_model = "TheBloke/airoboros-13B-HF" #load_8bit = False (in load_tokenizer_and_model)
|
@@ -63,6 +63,7 @@ dataset_neu = daten_laden("alexkueck/tis")
|
|
63 |
tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4, remove_columns=["id","text"])
|
64 |
|
65 |
print (tokenized_datasets["train"][4])
|
|
|
66 |
#den Text nun zusammenführen (concatenieren) und anschließend in kleine Häppchen aufteilen (block_size=128), die verarbeitet werden können
|
67 |
#das macht die map-Funktion und das Attribut batched = True
|
68 |
#man könnte das weglassen, wenn jeder Satz einzeln gegeben wurde in den Texten...
|
|
|
44 |
login(token=xxx)
|
45 |
#Modelle und Tokenizer
|
46 |
model_name = "alexkueck/LIFineTuned"
|
47 |
+
|
48 |
#Alternativ mit beliebigen Modellen:
|
49 |
base_model = "project-baize/baize-v2-7b" #load_8bit = False (in load_tokenizer_and_model)
|
50 |
#base_model = "TheBloke/airoboros-13B-HF" #load_8bit = False (in load_tokenizer_and_model)
|
|
|
63 |
tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4, remove_columns=["id","text"])
|
64 |
|
65 |
print (tokenized_datasets["train"][4])
|
66 |
+
print(f"{model_name}/model/")
|
67 |
#den Text nun zusammenführen (concatenieren) und anschließend in kleine Häppchen aufteilen (block_size=128), die verarbeitet werden können
|
68 |
#das macht die map-Funktion und das Attribut batched = True
|
69 |
#man könnte das weglassen, wenn jeder Satz einzeln gegeben wurde in den Texten...
|