Turkish DeepSeek Model
Bu model, DeepSeek mimarisi kullanılarak Türkçe metinler üzerinde eğitilmiş bir dil modelidir. Multi-head Latent Attention (MLA) ve Mixture of Experts (MoE) teknolojilerini içerir.
Model Özellikleri
- Parametre Sayısı: ~192M
- Kelime Hazinesi: 50,256 token
- Bağlam Uzunluğu: 256 token
- Dil: Türkçe (tr)
- Mimarisi: DeepSeek with MLA + MoE
Teknik Detaylar
- Gizli Boyut: 1024
- Katman Sayısı: 6 (1 yoğun + 5 MoE)
- Attention Head: 8
- MoE Uzmanları: 4 yönlendirilmiş + 2 paylaşımlı
- Aktif Uzman: 2 per token
Kullanım
Temel Kullanım
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
# Model ve tokenizer'ı yükle
model = AutoModelForCausalLM.from_pretrained("your-username/turkish-deepseek", trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained("your-username/turkish-deepseek")
# Metin üretimi
prompt = "Merhaba dünya"
inputs = tokenizer(prompt, return_tensors="pt")
with torch.no_grad():
outputs = model.generate(
**inputs,
max_length=50,
temperature=0.7,
do_sample=True,
pad_token_id=tokenizer.pad_token_id
)
generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(generated_text)
Orijinal Implementation ile Kullanım
# Orijinal implementasyonu kullanmak için
import torch
import sentencepiece as spm
# Tokenizer'ı yükle
tokenizer = spm.SentencePieceProcessor()
tokenizer.load("tokenizer.model")
# Model checkpoint'ini yükle
checkpoint = torch.load("pytorch_model.bin", map_location="cpu")
# Orijinal model sınıfınızı kullanarak yükleyin
# from your_original_implementation import Transformer, ModelArgs
# model = Transformer(args)
# model.load_state_dict(checkpoint)
Eğitim Verisi
- Kaynak: Türkçe Wikipedia
- Tokenization: SentencePiece BPE
- Kelime Hazinesi: Türkçe diline optimize edilmiş
Model Mimarisi
Multi-head Latent Attention (MLA)
- Sıkıştırılmış key-value temsilleri (rank 256)
- Ayrı no-position ve position encoding bileşenleri
- Uzun diziler için verimli bellek kullanımı
Mixture of Experts (MoE)
- Top-2 yönlendirme ve yük dengeleme
- Ortak desenler için paylaşımlı uzmanlar
- Seyrek aktivasyon ile azaltılmış hesaplama
RoPE with YaRN Scaling
- Frekans ölçekleme ile rotational position embedding
- Eğitim uzunluğunun ötesinde genişletilmiş bağlam desteği
- Temel frekans: 10000.0
Performans
- Çıkarım: Türkçe metin üretimi için optimize edilmiş
- Bellek: MLA, KV cache boyutunu azaltır
- Hız: MoE, kontrollü hesaplama ile daha büyük kapasiteye olanak tanır
Sınırlamalar
- Ağırlıklı olarak Türkçe Wikipedia üzerinde eğitilmiş (sınırlı alan kapsamı)
- Bağlam uzunluğu 256 token ile sınırlı
- Eğitim verisinde mevcut önyargılar sergileyebilir
Alıntı
Bu modeli kullanırsanız, lütfen alıntı yapın:
@misc{turkish-deepseek,
title={Turkish DeepSeek Language Model},
author={Your Name},
year={2024},
url={https://huggingface.co/your-username/turkish-deepseek}
}
Lisans
Apache 2.0 License
Model Card Authors
[Your Name]
English Summary
This is a Turkish language model based on the DeepSeek architecture, featuring Multi-head Latent Attention (MLA) and Mixture of Experts (MoE). The model has ~192M parameters and was trained on Turkish Wikipedia data.
Key Features
- Architecture: DeepSeek with advanced MLA and MoE components
- Language: Turkish (tr)
- Training: Turkish Wikipedia corpus
- Vocabulary: 50,256 tokens optimized for Turkish
Usage
Load with trust_remote_code=True
to use the custom implementation, or use the provided model files directly.
- Downloads last month
- 28
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support