te-sla/GloVeSr · Hugging Face

GloVe Sr
Обучаван над корпусом српског језика - 9.5 милијарди речи	Trained on the Serbian language corpus - 9.5 billion words

from gensim.models import KeyedVectors
from huggingface_hub import snapshot_download

local_dir = snapshot_download(repo_id="te-sla/GloVeSr",
allow_patterns=["*.kv", "*npy"])
vectors = KeyedVectors.load(local_dir + "/glove_keyed_vectors.kv")
print(vectors.most_similar("klijent", topn=5))

[('prethodnik', 0.8428025245666504),
('saputnik', 0.8391610383987427),
('suprug', 0.8257851004600525),
('premijerov', 0.8162577748298645),
('maleni', 0.8144716620445251)]

Author

Mihailo Škorić

@procesaur

Computation

TESLA project

@te-sla

@inproceedings{stankovic-dict2vec,
  author    = {Ranka Stanković, Jovana Rađenović, Mihailo Škorić, Marko Putniković},
  title     = {Learning Word Embeddings using Lexical Resources and Corpora},
  booktitle   = {15th International Conference on Information Society and Technology, ISIST 2025, Kopaonik},
  year      = {2025},
  address = {Kopaonik, Belgrade}
  publisher = {SASA, Belgrade},
  url       = {https://doi.org/10.5281/zenodo.15093900}
}

Истраживање jе спроведено уз подршку Фонда за науку Републике Србиjе, #7276, Text Embeddings – Serbian Language Applications – TESLA

This research was supported by the Science Fund of the Republic of Serbia, #7276, Text Embeddings - Serbian Language Applications - TESLA

te-sla
/

GloVeSr

GloVe Sr

Datasets used to train te-sla/GloVeSr

Collection including te-sla/GloVeSr

Statička vektorizacija