Spaces:

Seicas
/

VoiceToWrite

Sleeping

App Files Files Community

Seicas commited on Jun 16

Commit

4d6e765

verified ·

1 Parent(s): e4a7287

Update advanced_term_correction.py

Browse files

Files changed (1) hide show

advanced_term_correction.py +75 -154

advanced_term_correction.py CHANGED Viewed

@@ -1,154 +1,75 @@
-import re
-import difflib
-from typing import Dict, List, Tuple, Any
-import spacy
-from fuzzywuzzy import fuzz
-from medical_terms import load_turkish_medical_terms  # .medical_terms -> medical_terms
-# SpaCy modelini yükle (Türkçe model kurulu olmalı)
-# pip install https://github.com/explosion/spacy-models/releases/download/tr_core_news_md-3.2.0/tr_core_news_md-3.2.0.tar.gz
-try:
-    nlp = spacy.load("tr_core_news_md")
-except:
-    # Eğer model yüklü değilse
-    print("Türkçe SpaCy modeli yüklü değil. Yüklemek için: pip install https://github.com/explosion/spacy-models/releases/download/tr_core_news_md-3.2.0/tr_core_news_md-3.2.0.tar.gz")
-    nlp = spacy.blank("tr")
-try:
-    import python_Levenshtein  # Opsiyonel hızlandırma
-except ImportError:
-    pass  # Olmasa da çalışır
-class MedicalTermCorrector:
-    def __init__(self, medical_terms: Dict[str, str], threshold: int = 85):
-        """
-        Tıbbi terimleri düzeltmek için gelişmiş bir düzeltici
-        Args:
-            medical_terms: Tıbbi terimler sözlüğü {yanlış_terim: doğru_terim}
-            threshold: Bulanık eşleşme için eşik değeri (0-100)
-        """
-        self.medical_terms = medical_terms
-        self.threshold = threshold
-        # Terimler için regex kalıpları oluştur
-        self.regex_patterns = self._build_regex_patterns()
-        # Terim varyasyonları için indeks oluştur
-        self.term_variations = self._build_term_variations()
-    def _build_regex_patterns(self) -> Dict[str, re.Pattern]:
-        """Tıbbi terimler için regex kalıpları oluşturur"""
-        patterns = {}
-        for term in self.medical_terms.keys():
-            # Basit varyasyon kalıpları: boşluk, tire, kesme işareti varyasyonları
-            pattern_str = term.replace(" ", r"\s*")
-            pattern_str = pattern_str.replace("-", r"[-\s]?")
-            # Türkçe karakter varyasyonları
-            pattern_str = re.sub(r'i', r'[iIıİ]', pattern_str)
-            pattern_str = re.sub(r'ü', r'[üÜuU]', pattern_str)
-            pattern_str = re.sub(r'ö', r'[öÖoO]', pattern_str)
-            pattern_str = re.sub(r'ç', r'[çÇcC]', pattern_str)
-            pattern_str = re.sub(r'ş', r'[şŞsS]', pattern_str)
-            pattern_str = re.sub(r'ğ', r'[ğĞgG]', pattern_str)
-            # Daha fazla esneklik için kelime sınırları
-            pattern = re.compile(r'\b' + pattern_str + r'\b', re.IGNORECASE)
-            patterns[term] = pattern
-        return patterns
-    def _build_term_variations(self) -> Dict[str, List[str]]:
-        """Olası terim varyasyonları oluşturur"""
-        variations = {}
-        for term in self.medical_terms.keys():
-            term_vars = [term]
-            # Boşluk/tire varyasyonları
-            if " " in term:
-                term_vars.append(term.replace(" ", "-"))
-                term_vars.append(term.replace(" ", ""))
-            if "-" in term:
-                term_vars.append(term.replace("-", " "))
-                term_vars.append(term.replace("-", ""))
-            # Küçük/büyük harf varyasyonları
-            term_vars.append(term.lower())
-            term_vars.append(term.upper())
-            term_vars.append(term.capitalize())
-            variations[term] = list(set(term_vars))  # Benzersiz varyasyonlar
-        return variations
-    def find_term_candidates(self, text: str) -> List[Tuple[str, str, float]]:
-        """
-        Metindeki olası tıbbi terim adaylarını bulur
-        Returns:
-            [(bulunan_terim, doğru_terim, benzerlik_skoru)]
-        """
-        candidates = []
-        # 1. Regex ile kesin eşleşmeleri bul
-        for term, pattern in self.regex_patterns.items():
-            matches = pattern.finditer(text)
-            for match in matches:
-                correct_term = self.medical_terms[term]
-                candidates.append((match.group(), correct_term, 100))
-        # 2. NLP analizi ile tıbbi terimleri bul
-        doc = nlp(text)
-        for ent in doc.ents:
-            # Eğer varlık sağlık ile ilgiliyse veya sınıflandırılamadıysa
-            if ent.label_ in ["DISEASE", "BODY", "CHEMICAL", "MISC", ""]:
-                ent_text = ent.text.lower()
-                best_match = None
-                best_score = 0
-                # Sözlükteki terimlerle karşılaştır
-                for term, correct_term in self.medical_terms.items():
-                    # Ana terim ve varyasyonlarla karşılaştır
-                    for term_var in self.term_variations.get(term, [term]):
-                        score = fuzz.ratio(ent_text, term_var.lower())
-                        if score > best_score and score >= self.threshold:
-                            best_score = score
-                            best_match = correct_term
-                if best_match:
-                    candidates.append((ent.text, best_match, best_score))
-        # Eğer SpaCy modeli basit ise farklı bir yol izleyelim
-        if isinstance(nlp, spacy.blank):
-            # Basit kelime tabanlı analiz yap
-            words = text.split()
-            for word in words:
-                # SpaCy'ye güvenmeden basit tıbbi terim kontrolü
-                for term, correct_term in self.medical_terms.items():
-                    score = fuzz.ratio(word.lower(), term.lower())
-                    if score >= self.threshold:
-                        candidates.append((word, correct_term, score))
-        # Tekrarlananları kaldır, en yüksek skorları tut
-        unique_candidates = {}
-        for found, correct, score in candidates:
-            if found not in unique_candidates or score > unique_candidates[found][1]:
-                unique_candidates[found] = (correct, score)
-        return [(found, correct, score) for found, (correct, score) in unique_candidates.items()]
-    def correct_text(self, text: str) -> str:
-        """Metindeki tıbbi terimleri düzeltir"""
-        # Terim adaylarını bul
-        candidates = self.find_term_candidates(text)
-        # En uzun terimlerden başlayarak değiştir (kısa terimlerin parçası olan uzun terimleri önceliklendir)
-        candidates.sort(key=lambda x: len(x[0]), reverse=True)
-        corrected_text = text
-        for found, correct, score in candidates:
-            # Eşleşme %100 değilse, orijinal metinde tam olarak nerede olduğunu bul
-            if score < 100:
-                # Kelimenin sınırlarını koru
-                corrected_text = re.sub(r'\b' + re.escape(found) + r'\b', correct, corrected_text)
-            else:
-                # Tam eşleşme durumu
-                corrected_text = corrected_text.replace(found, correct)
-        return corrected_text

+import re
+import difflib
+from typing import Dict, List, Tuple, Any
+import spacy
+from fuzzywuzzy import fuzz
+from medical_terms import load_turkish_medical_terms  # .medical_terms -> medical_terms
+# SpaCy modelini yükle (Türkçe model kurulu olmalı)
+# pip install https://github.com/explosion/spacy-models/releases/download/tr_core_news_md-3.2.0/tr_core_news_md-3.2.0.tar.gz
+try:
+    nlp = spacy.load("tr_core_news_md")
+except:
+    # Eğer model yüklü değilse
+    print("Türkçe SpaCy modeli yüklü değil. Yüklemek için: pip install https://github.com/explosion/spacy-models/releases/download/tr_core_news_md-3.2.0/tr_core_news_md-3.2.0.tar.gz")
+    nlp = spacy.blank("tr")
+try:
+    import python_Levenshtein  # Opsiyonel hızlandırma
+except ImportError:
+    pass  # Olmasa da çalışır
+class MedicalTermCorrector:
+    def __init__(self, medical_terms: Dict[str, str]):
+        """
+        Tıbbi terim düzeltme sınıfı
+        Args:
+            medical_terms: Tıbbi terim sözlüğü (İngilizce -> Türkçe)
+        """
+        self.medical_terms = medical_terms
+        self.term_patterns = self._create_term_patterns()
+    def _create_term_patterns(self) -> List[Tuple[str, str]]:
+        """Terim eşleştirme desenlerini oluşturur"""
+        patterns = []
+        for eng_term, tr_term in self.medical_terms.items():
+            # Tam eşleşme için
+            patterns.append((rf'\b{re.escape(eng_term)}\b', tr_term))
+            # Kısmi eşleşme için (kelime sınırları olmadan)
+            patterns.append((eng_term, tr_term))
+        return patterns
+    def correct_text(self, text: str) -> str:
+        """
+        Metindeki tıbbi terimleri düzeltir
+        Args:
+            text: Düzeltilecek metin
+        Returns:
+            Düzeltilmiş metin
+        """
+        corrected_text = text
+        # Önce tam eşleşmeleri düzelt
+        for pattern, replacement in self.term_patterns:
+            corrected_text = re.sub(pattern, replacement, corrected_text, flags=re.IGNORECASE)
+        # Sonra bulanık eşleşmeleri kontrol et
+        words = corrected_text.split()
+        for i, word in enumerate(words):
+            # En iyi eşleşmeyi bul
+            best_match = None
+            best_score = 0
+            for eng_term, tr_term in self.medical_terms.items():
+                score = fuzz.ratio(word.lower(), eng_term.lower())
+                if score > best_score and score > 80:  # 80% eşleşme eşiği
+                    best_score = score
+                    best_match = tr_term
+            if best_match:
+                words[i] = best_match
+        return ' '.join(words)