Spaces:

Itsme5
/

tokenGPT-2

Runtime error

App Files Files Community

Itsme5 commited on Mar 27

Commit

887ad63

verified ·

1 Parent(s): 0b0b3a9

Update app.py

Browse files

Files changed (1) hide show

app.py +15 -14

app.py CHANGED Viewed

@@ -1,22 +1,26 @@
 from fastapi import FastAPI
 from transformers import PreTrainedTokenizerFast
 from tokenizers import ByteLevelBPETokenizer
 from datasets import load_dataset
-from contextlib import asynccontextmanager
 app = FastAPI()
 @asynccontextmanager
 async def lifespan(app: FastAPI):
-    # Εκκίνηση διαδικασίας εκπαίδευσης tokenizer
     await train_tokenizer()
-    yield  # Εδώ κάνουμε την διαδικασία που θα τρέξει μετά την ολοκλήρωση του lifespan
-    # Οποιαδήποτε διαδικασία κατά το κλείσιμο της εφαρμογής
 app = FastAPI(lifespan=lifespan)
 async def train_tokenizer():
-    # Μέγεθος λεξιλογίου και ελάχιστη συχνότητα
     vocab_size = 50000
     min_frequency = 2
@@ -24,25 +28,22 @@ async def train_tokenizer():
     dataset_greek = load_dataset("oscar", "unshuffled_deduplicated_el", split="train", streaming=True)
     dataset_english = load_dataset("wikipedia", "20220301.en", split="train", streaming=True)
-    # Διαχείριση καθαρού κώδικα (π.χ., από GitHub ή άλλες πηγές αν υπάρχουν)
     try:
         dataset_code = load_dataset("bigcode/the-stack", split="train", streaming=True)
         datasets_list = [dataset_greek, dataset_english, dataset_code]
     except:
         datasets_list = [dataset_greek, dataset_english]
-    # Ενοποίηση των δεδομένων και προεπεξεργασία
     def preprocess_data(dataset):
         for item in dataset:
             text = item["text"]
-            # Αφαίρεση περιττών χαρακτήρων και κανονικοποίηση
-            text = text.strip().lower()  # Μπορείς να το κάνεις lower εάν το θέλεις
-            if text:  # Εξασφαλίζουμε ότι δεν είναι άδειο το κείμενο
                 yield text
-    combined_data = (
-        preprocess_data(dataset) for dataset in datasets_list
-    )
     # Δημιουργία του tokenizer
     tokenizer = ByteLevelBPETokenizer()
@@ -60,4 +61,4 @@ async def train_tokenizer():
 @app.get("/")
 async def root():
-    return {"message": "Custom Tokenizer Training Completed and Saved"}

+!pip install torch
+!pip install tensorflow
 from fastapi import FastAPI
+from contextlib import asynccontextmanager
 from transformers import PreTrainedTokenizerFast
 from tokenizers import ByteLevelBPETokenizer
 from datasets import load_dataset
 app = FastAPI()
 @asynccontextmanager
 async def lifespan(app: FastAPI):
+    # Εκκίνηση της διαδικασίας εκπαίδευσης του tokenizer όταν η εφαρμογή ξεκινά
     await train_tokenizer()
+    yield  # Διαχείριση κατά τη διάρκεια της εφαρμογής
+    # Οποιαδήποτε διαδικασία που πρέπει να γίνει όταν η εφαρμογή σταματήσει
 app = FastAPI(lifespan=lifespan)
 async def train_tokenizer():
+    # Ρυθμίσεις tokenizer
     vocab_size = 50000
     min_frequency = 2
     dataset_greek = load_dataset("oscar", "unshuffled_deduplicated_el", split="train", streaming=True)
     dataset_english = load_dataset("wikipedia", "20220301.en", split="train", streaming=True)
+    # Διαχείριση καθαρού κώδικα (αν βρεθούν κατάλληλα δεδομένα)
     try:
         dataset_code = load_dataset("bigcode/the-stack", split="train", streaming=True)
         datasets_list = [dataset_greek, dataset_english, dataset_code]
     except:
         datasets_list = [dataset_greek, dataset_english]
+    # Ενοποίηση δεδομένων και προεπεξεργασία
     def preprocess_data(dataset):
         for item in dataset:
             text = item["text"]
+            text = text.strip().lower()  # Μπορείς να το κάνεις lower αν το θέλεις
+            if text:
                 yield text
+    combined_data = (preprocess_data(dataset) for dataset in datasets_list)
     # Δημιουργία του tokenizer
     tokenizer = ByteLevelBPETokenizer()
 @app.get("/")
 async def root():
+    return {"message": "Custom Tokenizer Training Completed and Saved"}