Spaces:

tymbos
/

GPT2-PBE

Sleeping

App Files Files Community

tymbos commited on Mar 30

Commit

9d049fd

verified ·

1 Parent(s): f94c5ea

Update app.py

Browse files

Files changed (1) hide show

app.py +30 -59

app.py CHANGED Viewed

@@ -1,6 +1,5 @@
 # -*- coding: utf-8 -*-
 import os
-import time
 import gradio as gr
 import requests
 from io import BytesIO
@@ -11,8 +10,8 @@ from train_tokenizer import train_tokenizer
 from tokenizers import Tokenizer
 # Ρυθμίσεις checkpointing
-CHECKPOINT_FILE = "checkpoint.txt"  # αρχείο που αποθηκεύει όλα τα επεξεργασμένα κείμενα
-CHUNK_SIZE = 1000  # αριθμός δειγμάτων που θα επεξεργάζονται πριν την αποθήκευση checkpoint
 def fetch_splits(dataset_name):
     try:
@@ -41,7 +40,6 @@ def fetch_splits(dataset_name):
 def update_components(dataset_name):
     if not dataset_name:
         return [gr.Textbox.update(value=""), gr.Dropdown.update(choices=[], value=None), gr.HTML.update(value="")]
     try:
         splits_data = fetch_splits(dataset_name)
         config_choices = list(splits_data['splits'].keys())
@@ -54,7 +52,6 @@ def update_components(dataset_name):
             height="560px"
         ></iframe>
         """ if first_config else "Δεν βρέθηκαν διαθέσιμα δεδομένα"
         # Προτείνουμε ως προεπιλογή για πολλαπλά configs τα ελληνικά και αγγλικά
         default_configs = "20231101.el,20231101.en" if first_config and "el" in first_config else first_config
         return [
@@ -70,7 +67,6 @@ def update_split_choices(dataset_name, configs):
         return gr.Dropdown.update(choices=[])
     try:
         splits_data = fetch_splits(dataset_name)
-        # Χρησιμοποιούμε το πρώτο config της λίστας για τις επιλογές του split
         first_config = configs.split(",")[0].strip()
         return gr.Dropdown.update(choices=splits_data['splits'].get(first_config, []))
     except:
@@ -78,7 +74,7 @@ def update_split_choices(dataset_name, configs):
 def create_iterator(dataset_name, configs, split):
     """
-    Για κάθε config στη λίστα (χωρισμένα με κόμμα) φορτώνει το αντίστοιχο streaming dataset και παράγει τα κείμενα.
     """
     configs_list = [c.strip() for c in configs.split(",") if c.strip()]
     for config in configs_list:
@@ -98,7 +94,7 @@ def create_iterator(dataset_name, configs, split):
 def append_to_checkpoint(texts, checkpoint_file):
     """
-    Αποθηκεύει τα κείμενα στο αρχείο checkpoint.
     """
     with open(checkpoint_file, "a", encoding="utf-8") as f:
         for t in texts:
@@ -106,49 +102,47 @@ def append_to_checkpoint(texts, checkpoint_file):
 def load_checkpoint(checkpoint_file):
     """
-    Διαβάζει και επιστρέφει τα κείμενα από το checkpoint (αν υπάρχει).
     """
     if os.path.exists(checkpoint_file):
         with open(checkpoint_file, "r", encoding="utf-8") as f:
             return f.read().splitlines()
     return []
-def train_and_test_streaming(dataset_name, configs, split, vocab_size, min_freq, test_text, custom_files):
     """
-    Generator που εκπαιδεύει τον tokenizer σε chunks, αποθηκεύοντας τα δεδομένα σε checkpoint.
-    Επίσης, ενημερώνει την πρόοδο μέσω streaming στην Gradio διεπαφή.
-    Αν υπάρχει ήδη checkpoint, συνεχίζει από εκεί.
     """
-    # Φόρτωση ήδη επεξεργασμένων δεδομένων από checkpoint (αν υπάρχουν)
     all_texts = load_checkpoint(CHECKPOINT_FILE)
     total_processed = len(all_texts)
-    yield {"progress": f"Έχετε {total_processed} δείγματα ήδη αποθηκευμένα στο checkpoint.\n"}
     # Δημιουργία iterator από τα streaming datasets
     dataset_iterator = create_iterator(dataset_name, configs, split)
     new_texts = []
     chunk_count = 0
-    # Διατρέχουμε τα νέα δεδομένα σε chunks
     for text in dataset_iterator:
         new_texts.append(text)
         total_processed += 1
-        # Κάθε CHUNK_SIZE δείγματα αποθηκεύουμε στο checkpoint και ενημερώνουμε την πρόοδο
         if len(new_texts) >= CHUNK_SIZE:
             append_to_checkpoint(new_texts, CHECKPOINT_FILE)
             chunk_count += 1
-            yield {"progress": f"Επεξεργάστηκαν {total_processed} δείγματα (chunk {chunk_count}).\n"}
-            new_texts = []  # καθαρίζουμε το chunk
-    # Αποθήκευση τυχόν υπολειπόμενων νέων δεδομένων
     if new_texts:
         append_to_checkpoint(new_texts, CHECKPOINT_FILE)
         total_processed += len(new_texts)
         chunk_count += 1
-        yield {"progress": f"Τελικό chunk: συνολικά {total_processed} δείγματα αποθηκεύτηκαν.\n"}
-    # Ενσωματώνουμε επίσης τα custom files (αν υπάρχουν)
     if custom_files:
         custom_texts = []
         for file_path in custom_files:
@@ -158,17 +152,17 @@ def train_and_test_streaming(dataset_name, configs, split, vocab_size, min_freq,
                     if content:
                         custom_texts.append(content)
             except Exception as file_error:
-                print(f"Σφάλμα ανάγνωσης αρχείου {file_path}: {file_error}")
         if custom_texts:
             append_to_checkpoint(custom_texts, CHECKPOINT_FILE)
             total_processed += len(custom_texts)
-            yield {"progress": f"Προστέθηκαν {len(custom_texts)} δείγματα από custom αρχεία.\n"}
-    # Συνολικά δεδομένα για εκπαίδευση: checkpoint + νέα δεδομένα
     all_texts = load_checkpoint(CHECKPOINT_FILE)
-    yield {"progress": f"Ξεκινάει η εκπαίδευση του tokenizer σε {len(all_texts)} δείγματα...\n"}
-    # Εκπαίδευση του tokenizer πάνω στα συσσωρευμένα δεδομένα
     tokenizer = train_tokenizer(all_texts, vocab_size, min_freq)
     # Αποθήκευση και φόρτωση του εκπαιδευμένου tokenizer
@@ -197,11 +191,15 @@ def train_and_test_streaming(dataset_name, configs, split, vocab_size, min_freq,
         "Αριθμός Tokens": len(encoded.tokens),
         "Αγνώστων Tokens": sum(1 for t in encoded.tokens if t == "<unk>")
     }
-    yield {"progress": "Η εκπαίδευση ολοκληρώθηκε!\n", "results": results, "plot": img_buffer.getvalue()}
 # Gradio Interface
 with gr.Blocks(theme=gr.themes.Soft()) as demo:
-    gr.Markdown("## Wikipedia Tokenizer Trainer with Checkpointing and Streaming")
     with gr.Row():
         with gr.Column():
@@ -230,31 +228,4 @@ with gr.Blocks(theme=gr.themes.Soft()) as demo:
             custom_files = gr.File(
                 label="Προσαρμοσμένα Ελληνικά Κείμενα",
                 file_count="multiple",
-                type="filepath"
-            )
-            train_btn = gr.Button("Εκπαίδευση", variant="primary")
-        with gr.Column():
-            progress_box = gr.Textbox(label="Πρόοδος", interactive=False)
-            results_json = gr.JSON(label="��ποτελέσματα")
-            results_plot = gr.Image(label="Κατανομή Μηκών Tokens")
-    # Event handlers
-    dataset_name.change(
-        fn=update_components,
-        inputs=dataset_name,
-        outputs=[configs, split, gr.HTML(label="Dataset Preview")]
-    )
-    split.change(
-        fn=update_split_choices,
-        inputs=[dataset_name, configs],
-        outputs=split
-    )
-    train_btn.click(
-        fn=train_and_test_streaming,
-        inputs=[dataset_name, configs, split, vocab_size, min_freq, test_text, custom_files],
-        outputs=[progress_box, results_json, results_plot],
-        stream=True
-    )
-if __name__ == "__main__":
-    demo.launch()

 # -*- coding: utf-8 -*-
 import os
 import gradio as gr
 import requests
 from io import BytesIO
 from tokenizers import Tokenizer
 # Ρυθμίσεις checkpointing
+CHECKPOINT_FILE = "checkpoint.txt"  # Αρχείο που αποθηκεύει τα ήδη επεξεργασμένα κείμενα
+CHUNK_SIZE = 1000  # Αριθμός δειγμάτων ανά chunk για αποθήκευση στο checkpoint
 def fetch_splits(dataset_name):
     try:
 def update_components(dataset_name):
     if not dataset_name:
         return [gr.Textbox.update(value=""), gr.Dropdown.update(choices=[], value=None), gr.HTML.update(value="")]
     try:
         splits_data = fetch_splits(dataset_name)
         config_choices = list(splits_data['splits'].keys())
             height="560px"
         ></iframe>
         """ if first_config else "Δεν βρέθηκαν διαθέσιμα δεδομένα"
         # Προτείνουμε ως προεπιλογή για πολλαπλά configs τα ελληνικά και αγγλικά
         default_configs = "20231101.el,20231101.en" if first_config and "el" in first_config else first_config
         return [
         return gr.Dropdown.update(choices=[])
     try:
         splits_data = fetch_splits(dataset_name)
         first_config = configs.split(",")[0].strip()
         return gr.Dropdown.update(choices=splits_data['splits'].get(first_config, []))
     except:
 def create_iterator(dataset_name, configs, split):
     """
+    Για κάθε config (χωρισμένα με κόμμα) φορτώνει το αντίστοιχο streaming dataset και παράγει τα κείμενα.
     """
     configs_list = [c.strip() for c in configs.split(",") if c.strip()]
     for config in configs_list:
 def append_to_checkpoint(texts, checkpoint_file):
     """
+    Αποθηκεύει τα δεδομένα στο αρχείο checkpoint.
     """
     with open(checkpoint_file, "a", encoding="utf-8") as f:
         for t in texts:
 def load_checkpoint(checkpoint_file):
     """
+    Διαβάζει τα δεδομένα από το checkpoint (αν υπάρχει).
     """
     if os.path.exists(checkpoint_file):
         with open(checkpoint_file, "r", encoding="utf-8") as f:
             return f.read().splitlines()
     return []
+def train_and_test(dataset_name, configs, split, vocab_size, min_freq, test_text, custom_files):
     """
+    Εκπαιδεύει τον tokenizer με checkpointing.
+    Επιστρέφει στο τέλος την τελική πρόοδο, τα αποτελέσματα και το plot.
+    (Σημείωση: Σε αυτήν την έκδοση δεν υπάρχει streaming progress λόγω περιορισμών στο Gradio στο Spaces.)
     """
+    progress_messages = []
+    # Φόρτωση ήδη επεξεργασμένων δεδομένων από το checkpoint (αν υπάρχουν)
     all_texts = load_checkpoint(CHECKPOINT_FILE)
     total_processed = len(all_texts)
+    progress_messages.append(f"Έχετε {total_processed} δείγματα ήδη αποθηκευμένα σ��ο checkpoint.")
     # Δημιουργία iterator από τα streaming datasets
     dataset_iterator = create_iterator(dataset_name, configs, split)
     new_texts = []
     chunk_count = 0
+    # Επεξεργασία νέων δεδομένων σε chunks
     for text in dataset_iterator:
         new_texts.append(text)
         total_processed += 1
         if len(new_texts) >= CHUNK_SIZE:
             append_to_checkpoint(new_texts, CHECKPOINT_FILE)
             chunk_count += 1
+            progress_messages.append(f"Επεξεργάστηκαν {total_processed} δείγματα (chunk {chunk_count}).")
+            new_texts = []
+    # Αποθήκευση υπολειπόμενων δεδομένων
     if new_texts:
         append_to_checkpoint(new_texts, CHECKPOINT_FILE)
         total_processed += len(new_texts)
         chunk_count += 1
+        progress_messages.append(f"Τελικό chunk: συνολικά {total_processed} δείγματα αποθηκεύτηκαν.")
+    # Επεξεργασία των custom αρχείων, αν υπάρχουν
     if custom_files:
         custom_texts = []
         for file_path in custom_files:
                     if content:
                         custom_texts.append(content)
             except Exception as file_error:
+                progress_messages.append(f"Σφάλμα ανάγνωσης αρχείου {file_path}: {file_error}")
         if custom_texts:
             append_to_checkpoint(custom_texts, CHECKPOINT_FILE)
             total_processed += len(custom_texts)
+            progress_messages.append(f"Προστέθηκαν {len(custom_texts)} δείγματα από custom αρχεία.")
+    # Φόρτωση όλων των δεδομένων για εκπαίδευση
     all_texts = load_checkpoint(CHECKPOINT_FILE)
+    progress_messages.append(f"Ξεκινάει η εκπαίδευση του tokenizer σε {len(all_texts)} δείγματα...")
+    # Εκπαίδευση του tokenizer
     tokenizer = train_tokenizer(all_texts, vocab_size, min_freq)
     # Αποθήκευση και φόρτωση του εκπαιδευμένου tokenizer
         "Αριθμός Tokens": len(encoded.tokens),
         "Αγνώστων Tokens": sum(1 for t in encoded.tokens if t == "<unk>")
     }
+    progress_messages.append("Η εκπαίδευση ολοκληρώθηκε!")
+    # Επιστρέφουμε τα μηνύματα προόδου μαζί με τα τελικά αποτελέσματα και το plot
+    final_progress = "\n".join(progress_messages)
+    return final_progress, results, img_buffer.getvalue()
 # Gradio Interface
 with gr.Blocks(theme=gr.themes.Soft()) as demo:
+    gr.Markdown("## Wikipedia Tokenizer Trainer with Checkpointing")
     with gr.Row():
         with gr.Column():
             custom_files = gr.File(
                 label="Προσαρμοσμένα Ελληνικά Κείμενα",
                 file_count="multiple",
+                type="filepath"