LocalDoc
/

az-en-unigram-tokenizer-50k

Model card Files Files and versions

vrashad commited on May 30

Commit

913c705

·

verified ·

1 Parent(s): f0b5f77

Update README.md

Files changed (1) hide show

README.md +1 -1

README.md CHANGED Viewed

@@ -23,7 +23,7 @@ It is designed for tasks involving both languages, such as training bilingual se
 *   **Type:** SentencePiece Unigram
 *   **Languages:** Azerbaijani (az), English (en)
 *   **Vocabulary Size:** Approximately 50,000 (actual size might be slightly larger due to special tokens, e.g., 50001).
-*   **Training Data:** Trained on a parallel corpus of ~4.14 million sentence pairs (total ~8.28 million sentences) sourced from `merged_data.csv`. The corpus was balanced between Azerbaijani and English.
 *   **Normalization:** NFKC Unicode normalization (standard for SentencePiece).
 *   **Character Coverage:** 0.9995 (ensuring good coverage for Azerbaijani specific characters: ç, ö, ə, ü, ğ, ş).

 *   **Type:** SentencePiece Unigram
 *   **Languages:** Azerbaijani (az), English (en)
 *   **Vocabulary Size:** Approximately 50,000 (actual size might be slightly larger due to special tokens, e.g., 50001).
+*   **Training Data:** Trained on a parallel corpus of ~4.14 million sentence pairs (total ~8.28 million sentences). The corpus was balanced between Azerbaijani and English.
 *   **Normalization:** NFKC Unicode normalization (standard for SentencePiece).
 *   **Character Coverage:** 0.9995 (ensuring good coverage for Azerbaijani specific characters: ç, ö, ə, ü, ğ, ş).