Spaces:

Slamlab
/

asr_metrics

Sleeping

App Files Files Community

akki2825 commited on Jul 3

Commit

d41eee2

verified ·

1 Parent(s): b19598b

display where the misalignment occurs

Browse files

Files changed (1) hide show

app.py +22 -6

app.py CHANGED Viewed

@@ -78,7 +78,7 @@ def calculate_sentence_metrics(reference, hypothesis):
 def identify_misaligned_sentences(reference_text, hypothesis_text):
     """
     Identify sentences that don't match between reference and hypothesis.
-    Returns a dictionary with misaligned sentence pairs and their indices.
     """
     reference_sentences = split_into_sentences(reference_text)
     hypothesis_sentences = split_into_sentences(hypothesis_text)
@@ -86,10 +86,24 @@ def identify_misaligned_sentences(reference_text, hypothesis_text):
     misaligned = []
     for i, (ref, hyp) in enumerate(zip(reference_sentences, hypothesis_sentences)):
         if ref != hyp:
             misaligned.append({
                 "index": i+1,
                 "reference": ref,
-                "hypothesis": hyp
             })
     return misaligned
@@ -115,8 +129,9 @@ def format_sentence_metrics(sentence_wers, sentence_cers, average_wer, average_c
         md += "\n### Misaligned Sentences\n\n"
         for misaligned in misaligned_sentences:
             md += f"#### Sentence {misaligned['index']}\n"
-            md += f"* Reference: {misaligned['reference']}\n"
-            md += f"* Hypothesis: {misaligned['hypothesis']}\n\n"
     return md
@@ -215,8 +230,9 @@ def main():
             misaligned_md = "### Misaligned Sentences\n\n"
             for misaligned in result["Misaligned Sentences"]:
                 misaligned_md += f"#### Sentence {misaligned['index']}\n"
-                misaligned_md += f"* Reference: {misaligned['reference']}\n"
-                misaligned_md += f"* Hypothesis: {misaligned['hypothesis']}\n\n"
             return metrics, metrics_md, misaligned_md

 def identify_misaligned_sentences(reference_text, hypothesis_text):
     """
     Identify sentences that don't match between reference and hypothesis.
+    Returns a dictionary with misaligned sentence pairs, their indices, and misalignment details.
     """
     reference_sentences = split_into_sentences(reference_text)
     hypothesis_sentences = split_into_sentences(hypothesis_text)
     misaligned = []
     for i, (ref, hyp) in enumerate(zip(reference_sentences, hypothesis_sentences)):
         if ref != hyp:
+            # Find the first position where the sentences diverge
+            min_len = min(len(ref), len(hyp))
+            misalignment_start = 0
+            for j in range(min_len):
+                if ref[j] != hyp[j]:
+                    misalignment_start = j
+                    break
+            # Prepare the context for display
+            context_ref = ref[:misalignment_start] + f"**{ref[misalignment_start:]}**"
+            context_hyp = hyp[:misalignment_start] + f"**{hyp[misalignment_start:]}**"
             misaligned.append({
                 "index": i+1,
                 "reference": ref,
+                "hypothesis": hyp,
+                "misalignment_start": misalignment_start,
+                "context_ref": context_ref,
+                "context_hyp": context_hyp
             })
     return misaligned
         md += "\n### Misaligned Sentences\n\n"
         for misaligned in misaligned_sentences:
             md += f"#### Sentence {misaligned['index']}\n"
+            md += f"* Reference: {misaligned['context_ref']}\n"
+            md += f"* Hypothesis: {misaligned['context_hyp']}\n"
+            md += f"* Misalignment starts at position: {misaligned['misalignment_start']}\n\n"
     return md
             misaligned_md = "### Misaligned Sentences\n\n"
             for misaligned in result["Misaligned Sentences"]:
                 misaligned_md += f"#### Sentence {misaligned['index']}\n"
+                misaligned_md += f"* Reference: {misaligned['context_ref']}\n"
+                misaligned_md += f"* Hypothesis: {misaligned['context_hyp']}\n"
+                misaligned_md += f"* Misalignment starts at position: {misaligned['misalignment_start']}\n\n"
             return metrics, metrics_md, misaligned_md