Spaces:

tymbos
/

GPT2-PBE

Sleeping

App Files Files Community

tymbos commited on Mar 31

Commit

5d41434

verified ·

1 Parent(s): af398a5

Update app.py

Browse files

Files changed (1) hide show

app.py +66 -19

app.py CHANGED Viewed

@@ -8,12 +8,17 @@ import matplotlib.pyplot as plt
 from datasets import load_dataset
 from train_tokenizer import train_tokenizer
 from tokenizers import Tokenizer
-# Ρυθμίσεις checkpointing
 CHECKPOINT_FILE = "checkpoint.txt"
 TOKENIZER_DIR = "tokenizer_model"
 TOKENIZER_FILE = os.path.join(TOKENIZER_DIR, "tokenizer.json")
 CHUNK_SIZE = 1000  # Μέγεθος batch για checkpoint
 def fetch_splits(dataset_name):
     """Ανάκτηση των splits του dataset από το Hugging Face."""
@@ -63,6 +68,37 @@ def load_checkpoint():
             return f.read().splitlines()
     return []
 def train_and_test(dataset_name, configs, split, vocab_size, min_freq, test_text):
     """Εκπαίδευση του tokenizer και δοκιμή του."""
     print("🚀 Ξεκινά η διαδικασία εκπαίδευσης...")
@@ -73,8 +109,10 @@ def train_and_test(dataset_name, configs, split, vocab_size, min_freq, test_text
     dataset_iterator = create_iterator(dataset_name, configs, split)
     new_texts = []
     for text in dataset_iterator:
         new_texts.append(text)
         total_processed += 1
         if len(new_texts) >= CHUNK_SIZE:
@@ -86,6 +124,8 @@ def train_and_test(dataset_name, configs, split, vocab_size, min_freq, test_text
         append_to_checkpoint(new_texts)
         print(f"✅ Τελικό batch αποθηκεύτηκε ({total_processed} δείγματα).")
     # Εκπαίδευση του tokenizer
     all_texts = load_checkpoint()
     tokenizer = train_tokenizer(all_texts, vocab_size, min_freq, TOKENIZER_DIR)
@@ -113,23 +153,30 @@ def train_and_test(dataset_name, configs, split, vocab_size, min_freq, test_text
 with gr.Blocks() as demo:
     gr.Markdown("## Wikipedia Tokenizer Trainer with Checkpointing")
-    dataset_name = gr.Textbox(value="wikimedia/wikipedia", label="Dataset Name")
-    configs = gr.Textbox(value="20231101.el,20231101.en", label="Configs")
-    split = gr.Dropdown(choices=["train"], value="train", label="Split")
-    vocab_size = gr.Slider(20000, 100000, value=50000, label="Vocabulary Size")
-    min_freq = gr.Slider(1, 100, value=3, label="Minimum Frequency")
-    test_text = gr.Textbox(value="Η Ακρόπολη είναι σύμβολο της αρχαίας Ελλάδας.", label="Test Text")
-    train_btn = gr.Button("Train")
-    progress = gr.Textbox(label="Progress", interactive=False)
-    results_plot = gr.Image(label="Token Length Distribution")
-#    download_button = gr.File(label="Download Tokenizer", value=TOKENIZER_FILE)
-    # Έλεγχος αν υπάρχει ήδη ο tokenizer
-    if os.path.exists(TOKENIZER_FILE):
-        initial_file_value = TOKENIZER_FILE
-    else:
-        initial_file_value = None  # Αν δεν υπάρχει, ξεκινάει ως None
-    download_button = gr.File(label="Download Tokenizer", value=initial_file_value)
-    train_btn.click(train_and_test, [dataset_name, configs, split, vocab_size, min_freq, test_text], [progress, test_text, results_plot])
 demo.launch()

 from datasets import load_dataset
 from train_tokenizer import train_tokenizer
 from tokenizers import Tokenizer
+from langdetect import detect, DetectorFactory
+# Για επαναληψιμότητα στο langdetect
+DetectorFactory.seed = 0
+# Ρυθμίσεις checkpointing και αποθήκευσης του tokenizer
 CHECKPOINT_FILE = "checkpoint.txt"
 TOKENIZER_DIR = "tokenizer_model"
 TOKENIZER_FILE = os.path.join(TOKENIZER_DIR, "tokenizer.json")
 CHUNK_SIZE = 1000  # Μέγεθος batch για checkpoint
+MAX_SAMPLES = 3000000  # Όριο δειγμάτων (μπορείς να το προσαρμόσεις)
 def fetch_splits(dataset_name):
     """Ανάκτηση των splits του dataset από το Hugging Face."""
             return f.read().splitlines()
     return []
+def analyze_checkpoint(num_samples=1000):
+    """
+    Διαβάζει τα πρώτα num_samples δείγματα από το checkpoint και επιστρέφει το ποσοστό γλωσσών.
+    """
+    if not os.path.exists(CHECKPOINT_FILE):
+        return "Το αρχείο checkpoint δεν υπάρχει."
+    with open(CHECKPOINT_FILE, "r", encoding="utf-8") as f:
+        lines = f.read().splitlines()
+    sample_lines = lines[:num_samples] if len(lines) >= num_samples else lines
+    language_counts = {}
+    total = 0
+    for line in sample_lines:
+        try:
+            lang = detect(line)
+            language_counts[lang] = language_counts.get(lang, 0) + 1
+            total += 1
+        except Exception as e:
+            continue
+    if total == 0:
+        return "Δεν βρέθηκαν έγκυρα δείγματα για ανάλυση."
+    report = "Αποτελέσματα Ανάλυσης:\n"
+    for lang, count in language_counts.items():
+        report += f"Γλώσσα {lang}: {count/total*100:.2f}%\n"
+    return report
 def train_and_test(dataset_name, configs, split, vocab_size, min_freq, test_text):
     """Εκπαίδευση του tokenizer και δοκιμή του."""
     print("🚀 Ξεκινά η διαδικασία εκπαίδευσης...")
     dataset_iterator = create_iterator(dataset_name, configs, split)
     new_texts = []
     for text in dataset_iterator:
+        if total_processed >= MAX_SAMPLES:
+            break  # Διακοπή εάν ξεπεραστεί το όριο
         new_texts.append(text)
         total_processed += 1
         if len(new_texts) >= CHUNK_SIZE:
         append_to_checkpoint(new_texts)
         print(f"✅ Τελικό batch αποθηκεύτηκε ({total_processed} δείγματα).")
+    print("🚀 Η αποθήκευση δεδομένων ολοκληρώθηκε! Ξεκινάει η εκπαίδευση του tokenizer...")
     # Εκπαίδευση του tokenizer
     all_texts = load_checkpoint()
     tokenizer = train_tokenizer(all_texts, vocab_size, min_freq, TOKENIZER_DIR)
 with gr.Blocks() as demo:
     gr.Markdown("## Wikipedia Tokenizer Trainer with Checkpointing")
+    with gr.Row():
+        with gr.Column():
+            dataset_name = gr.Textbox(value="wikimedia/wikipedia", label="Dataset Name")
+            configs = gr.Textbox(value="20231101.el,20231101.en", label="Configs")
+            split = gr.Dropdown(choices=["train"], value="train", label="Split")
+            vocab_size = gr.Slider(20000, 100000, value=50000, label="Vocabulary Size")
+            min_freq = gr.Slider(1, 100, value=3, label="Minimum Frequency")
+            test_text = gr.Textbox(value="Η Ακρόπολη είναι σύμβολο της αρχαίας Ελλάδας.", label="Test Text")
+            train_btn = gr.Button("Train")
+            analyze_btn = gr.Button("Analyze Samples")
+        with gr.Column():
+            progress = gr.Textbox(label="Progress", interactive=False, lines=10)
+            results_text = gr.Textbox(label="Test Decoded Text", interactive=False)
+            results_plot = gr.Image(label="Token Length Distribution")
+            # Έλεγχος ύπαρξης του tokenizer για download
+            initial_file_value = TOKENIZER_FILE if os.path.exists(TOKENIZER_FILE) else None
+            download_button = gr.File(label="Download Tokenizer", value=initial_file_value)
+    train_btn.click(train_and_test,
+                    inputs=[dataset_name, configs, split, vocab_size, min_freq, test_text],
+                    outputs=[progress, results_text, results_plot])
+    analyze_btn.click(fn=lambda: analyze_checkpoint(1000),
+                      inputs=[],
+                      outputs=progress)
 demo.launch()