Spaces:

Krishna086
/

Multi-language-translation-with-MarianMT

Running

Krishna086 commited on Apr 16

Commit

f2db407

verified ·

1 Parent(s): f6b831a

Update translation.py

Files changed (1) hide show

translation.py CHANGED Viewed

@@ -27,13 +27,13 @@ def load_model(source_lang, target_lang):
             model = MarianMTModel.from_pretrained(model_name)
             return tokenizer, model
         except Exception:
-            # Pivot through English
             if source_lang != "en" and target_lang != "en":
-                en_to_target_tokenizer, en_to_target_model = load_model("en", target_lang)
-                source_to_en_tokenizer, source_to_en_model = load_model(source_lang, "en")
                 def combined_translate(text):
-                    en_text = source_to_en_tokenizer.decode(source_to_en_model.generate(**source_to_en_tokenizer(text, return_tensors="pt", padding=True, truncation=True, max_length=500))[0], skip_special_tokens=True)
-                    return en_to_target_tokenizer.decode(en_to_target_model.generate(**en_to_target_tokenizer(en_text, return_tensors="pt", padding=True, truncation=True, max_length=500))[0], skip_special_tokens=True)
                 class CombinedModel:
                     def generate(self, **kwargs):
                         return torch.tensor([combined_translate(tokenizer.decode(x, skip_special_tokens=True)) for x in kwargs['input_ids']])

             model = MarianMTModel.from_pretrained(model_name)
             return tokenizer, model
         except Exception:
+            # Pivot through English for non-English pairs
             if source_lang != "en" and target_lang != "en":
                 def combined_translate(text):
+                    en_tokenizer, en_model = load_model(source_lang, "en")
+                    en_text = en_tokenizer.decode(en_model.generate(**en_tokenizer(text, return_tensors="pt", padding=True, truncation=True, max_length=500))[0], skip_special_tokens=True)
+                    target_tokenizer, target_model = load_model("en", target_lang)
+                    return target_tokenizer.decode(target_model.generate(**target_tokenizer(en_text, return_tensors="pt", padding=True, truncation=True, max_length=500))[0], skip_special_tokens=True)
                 class CombinedModel:
                     def generate(self, **kwargs):
                         return torch.tensor([combined_translate(tokenizer.decode(x, skip_special_tokens=True)) for x in kwargs['input_ids']])