Turkish DeepSeek Model

Bu model, DeepSeek mimarisi kullanılarak Türkçe metinler üzerinde eğitilmiş bir dil modelidir. Multi-head Latent Attention (MLA) ve Mixture of Experts (MoE) teknolojilerini içerir.

Model Özellikleri

  • Parametre Sayısı: ~192M
  • Kelime Hazinesi: 50,256 token
  • Bağlam Uzunluğu: 256 token
  • Dil: Türkçe (tr)
  • Mimarisi: DeepSeek with MLA + MoE

Teknik Detaylar

  • Gizli Boyut: 1024
  • Katman Sayısı: 6 (1 yoğun + 5 MoE)
  • Attention Head: 8
  • MoE Uzmanları: 4 yönlendirilmiş + 2 paylaşımlı
  • Aktif Uzman: 2 per token

Kullanım

Temel Kullanım

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

# Model ve tokenizer'ı yükle
model = AutoModelForCausalLM.from_pretrained("your-username/turkish-deepseek", trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained("your-username/turkish-deepseek")

# Metin üretimi
prompt = "Merhaba dünya"
inputs = tokenizer(prompt, return_tensors="pt")
with torch.no_grad():
    outputs = model.generate(
        **inputs,
        max_length=50,
        temperature=0.7,
        do_sample=True,
        pad_token_id=tokenizer.pad_token_id
    )

generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(generated_text)

Orijinal Implementation ile Kullanım

# Orijinal implementasyonu kullanmak için
import torch
import sentencepiece as spm

# Tokenizer'ı yükle
tokenizer = spm.SentencePieceProcessor()
tokenizer.load("tokenizer.model")

# Model checkpoint'ini yükle
checkpoint = torch.load("pytorch_model.bin", map_location="cpu")

# Orijinal model sınıfınızı kullanarak yükleyin
# from your_original_implementation import Transformer, ModelArgs
# model = Transformer(args)
# model.load_state_dict(checkpoint)

Eğitim Verisi

  • Kaynak: Türkçe Wikipedia
  • Tokenization: SentencePiece BPE
  • Kelime Hazinesi: Türkçe diline optimize edilmiş

Model Mimarisi

Multi-head Latent Attention (MLA)

  • Sıkıştırılmış key-value temsilleri (rank 256)
  • Ayrı no-position ve position encoding bileşenleri
  • Uzun diziler için verimli bellek kullanımı

Mixture of Experts (MoE)

  • Top-2 yönlendirme ve yük dengeleme
  • Ortak desenler için paylaşımlı uzmanlar
  • Seyrek aktivasyon ile azaltılmış hesaplama

RoPE with YaRN Scaling

  • Frekans ölçekleme ile rotational position embedding
  • Eğitim uzunluğunun ötesinde genişletilmiş bağlam desteği
  • Temel frekans: 10000.0

Performans

  • Çıkarım: Türkçe metin üretimi için optimize edilmiş
  • Bellek: MLA, KV cache boyutunu azaltır
  • Hız: MoE, kontrollü hesaplama ile daha büyük kapasiteye olanak tanır

Sınırlamalar

  • Ağırlıklı olarak Türkçe Wikipedia üzerinde eğitilmiş (sınırlı alan kapsamı)
  • Bağlam uzunluğu 256 token ile sınırlı
  • Eğitim verisinde mevcut önyargılar sergileyebilir

Alıntı

Bu modeli kullanırsanız, lütfen alıntı yapın:

@misc{turkish-deepseek,
  title={Turkish DeepSeek Language Model},
  author={Your Name},
  year={2024},
  url={https://huggingface.co/your-username/turkish-deepseek}
}

Lisans

Apache 2.0 License

Model Card Authors

[Your Name]


English Summary

This is a Turkish language model based on the DeepSeek architecture, featuring Multi-head Latent Attention (MLA) and Mixture of Experts (MoE). The model has ~192M parameters and was trained on Turkish Wikipedia data.

Key Features

  • Architecture: DeepSeek with advanced MLA and MoE components
  • Language: Turkish (tr)
  • Training: Turkish Wikipedia corpus
  • Vocabulary: 50,256 tokens optimized for Turkish

Usage

Load with trust_remote_code=True to use the custom implementation, or use the provided model files directly.

Downloads last month
28
Safetensors
Model size
192M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support