Spaces:

vonewman
/

ner_app

Runtime error

vonewman commited on Oct 28, 2023

Commit

fab7e8b

1 Parent(s): 4a5eb39

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -27,32 +27,26 @@ def load_model():
     return trainer, model, tokenizer
 def align_word_ids(texts):
-    trainer, model, tokenizer = load_model()
-    tokenized_inputs = tokenizer(texts, padding='max_length', max_length=218, truncation=True)
-    word_ids = tokenized_inputs.word_ids()
-    previous_word_idx = None
     label_ids = []
-    for word_idx in word_ids:
-        if word_idx is None:
-            label_ids.append(-100)
-        elif word_idx != previous_word_idx:
-            try:
-                label_ids.append(1)
-            except:
-                label_ids.append(-100)
         else:
-            try:
-                label_ids.append(1 if label_all_tokens else -100)
-            except:
-                label_ids.append(-100)
-        previous_word_idx = word_idx
     return label_ids

     return trainer, model, tokenizer
 def align_word_ids(texts):
+    # Utilisez le tokenizer pour obtenir les tokens de chaque mot
+    tokenized_inputs = tokenizer(texts, padding='max_length', max_length=218, truncation=True, return_tensors="pt")
+    input_ids = tokenized_inputs["input_ids"][0]
+    # Créez une liste pour stocker les IDs correspondant à chaque mot
+    word_ids = []
+    for i, input_id in enumerate(input_ids):
+        # Si le token est un token de début de mot, ajoutez son ID à la liste
+        if tokenizer.decode(input_id) == tokenizer.decode(tokenizer.encode(tokenizer.decode(input_id), add_special_tokens=False)):
+            word_ids.append(i)
     label_ids = []
+    # Parcourez les word_ids pour étiqueter les tokens de début de mot comme 1
+    for i in range(len(input_ids)):
+        if i in word_ids:
+            label_ids.append(1)
         else:
+            label_ids.append(-100)  # -100 pour les tokens qui ne sont pas le début d'un mot
     return label_ids