π¨π± Vikhr-Llama-3.2-1B-instruct
RU
ΠΠ½ΡΡΡΡΠΊΡΠΈΠ²Π½Π°Ρ ΠΌΠΎΠ΄Π΅Π»Ρ Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ Llama-3.2-1B-Instruct, ΠΎΠ±ΡΡΠ΅Π½Π½Π°Ρ Π½Π° ΡΡΡΡΠΊΠΎΡΠ·ΡΡΠ½ΠΎΠΌ Π΄Π°ΡΠ°ΡΠ΅ΡΠ΅ GrandMaster-PRO-MAX. Π 5 ΡΠ°Π· ΡΡΡΠ΅ΠΊΡΠΈΠ²Π½Π΅Π΅ Π±Π°Π·ΠΎΠ²ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ, ΠΈ ΠΈΠ΄Π΅Π°Π»ΡΠ½ΠΎ ΠΏΠΎΠ΄Ρ ΠΎΠ΄ΠΈΡ Π΄Π»Ρ Π·Π°ΠΏΡΡΠΊΠ° Π½Π° ΡΠ»Π°Π±ΡΡ ΠΈΠ»ΠΈ ΠΌΠΎΠ±ΠΈΠ»ΡΠ½ΡΡ ΡΡΡΡΠΎΠΉΡΡΠ²Π°Ρ .
EN
Instructive model based on Llama-3.2-1B-Instruct, trained on the Russian-language dataset GrandMaster-PRO-MAX. It is 5 times more efficient than the base model, making it perfect for deployment on low-power or mobile devices.
GGUF
ΠΡΠΎΠ±Π΅Π½Π½ΠΎΡΡΠΈ:
- π ΠΡΠ½ΠΎΠ²Π° / Base: Llama-3.2-1B-Instruct
- π·πΊ Π‘ΠΏΠ΅ΡΠΈΠ°Π»ΠΈΠ·Π°ΡΠΈΡ / Specialization: RU
- πΎ ΠΠ°ΡΠ°ΡΠ΅Ρ / Dataset: GrandMaster-PRO-MAX
ΠΠΎΠΏΡΠΎΠ±ΠΎΠ²Π°ΡΡ / Try now:
ΠΠΏΠΈΡΠ°Π½ΠΈΠ΅:
RU
Vikhr-Llama-3.2-1B-instruct β ΡΡΠΎ ΠΊΠΎΠΌΠΏΠ°ΠΊΡΠ½Π°Ρ ΡΠ·ΡΠΊΠΎΠ²Π°Ρ ΠΌΠΎΠ΄Π΅Π»Ρ, ΠΎΠ±ΡΡΠ΅Π½Π½Π°Ρ Π½Π° Π΄Π°ΡΠ°ΡΠ΅ΡΠ΅ GrandMaster-PRO-MAX, ΡΠΏΠ΅ΡΠΈΠ°Π»ΡΠ½ΠΎ Π΄ΠΎΡΡΠ΅Π½Π½Π°Ρ Π΄Π»Ρ ΠΎΠ±ΡΠ°Π±ΠΎΡΠΊΠΈ ΡΡΡΡΠΊΠΎΠ³ΠΎ ΡΠ·ΡΠΊΠ°. ΠΡΡΠ΅ΠΊΡΠΈΠ²Π½ΠΎΡΡΡ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π² 5 ΡΠ°Π· ΠΏΡΠ΅Π²ΡΡΠ°Π΅Ρ Π±Π°Π·ΠΎΠ²ΡΡ ΠΌΠΎΠ΄Π΅Π»Ρ, Π° Π΅Ρ ΡΠ°Π·ΠΌΠ΅Ρ Π½Π΅ ΠΏΡΠ΅Π²ΡΡΠ°Π΅Ρ 3GB, ΡΡΠΎ Π΄Π΅Π»Π°Π΅Ρ Π΅Ρ ΠΎΡΠ»ΠΈΡΠ½ΡΠΌ Π²ΡΠ±ΠΎΡΠΎΠΌ Π΄Π»Ρ Π·Π°ΠΏΡΡΠΊΠ° Π½Π° ΡΠ»Π°Π±ΡΡ ΠΈ ΠΌΠΎΠ±ΠΈΠ»ΡΠ½ΡΡ ΡΡΡΡΠΎΠΉΡΡΠ²Π°Ρ .
EN
Vikhr-Llama-3.2-1B-instruct is a compact language model trained on the GrandMaster-PRO-MAX dataset, specifically designed for processing the Russian language. Its efficiency is 5 times higher than the base model, and its size does not exceed 3GB, making it an excellent choice for deployment on low-power and mobile devices.
ΠΠ±ΡΡΠ΅Π½ΠΈΠ΅ / Train:
RU
ΠΠ»Ρ ΡΠΎΠ·Π΄Π°Π½ΠΈΡ Vikhr-Llama-3.2-1B-instruct ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π»ΡΡ ΠΌΠ΅ΡΠΎΠ΄ SFT (Supervised Fine-Tuning). ΠΡ ΠΎΠ±ΡΡΠΈΠ»ΠΈ ΠΌΠΎΠ΄Π΅Π»Ρ Π½Π° ΡΠΈΠ½ΡΠ΅ΡΠΈΡΠ΅ΡΠΊΠΎΠΌ Π΄Π°ΡΠ°ΡΠ΅ΡΠ΅ Vikhrmodels/GrandMaster-PRO-MAX (150k ΠΈΠ½ΡΡΡΡΠΊΡΠΈΠΉ) Ρ ΠΏΠΎΠ΄Π΄Π΅ΡΠΆΠΊΠΎΠΉ CoT (Chain-Of-Thought), ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΡ ΠΏΡΠΎΠΌΠΏΡΡ Π΄Π»Ρ GPT-4-turbo.
Π‘ΠΊΡΠΈΠΏΡ Π΄Π»Ρ Π·Π°ΠΏΡΡΠΊΠ° SFT ΠΌΠΎΠΆΠ½ΠΎ Π½Π°ΠΉΡΠΈ Π² Π½Π°ΡΠ΅ΠΉ Π±ΠΈΠ±Π»ΠΈΠΎΡΠ΅ΠΊΠ΅ Π½Π° GitHub: effective_llm_alignment.
EN
To create Vikhr-Llama-3.2-1B-instruct, the SFT (Supervised Fine-Tuning) method was used. We trained the model on a synthetic dataset Vikhrmodels/GrandMaster-PRO-MAX (150k instructions) with support for CoT (Chain-Of-Thought), utilizing prompts for GPT-4-turbo.
The script for running SFT can be found in our GitHub repository: effective_llm_alignment.
ΠΡΠΈΠΌΠ΅Ρ ΠΊΠΎΠ΄Π° Π΄Π»Ρ Π·Π°ΠΏΡΡΠΊΠ° / Sample code to run:
Π Π΅ΠΊΠΎΠΌΠ΅Π½Π΄ΡΠ΅ΠΌΠ°Ρ ΡΠ΅ΠΌΠΏΠ΅ΡΠ°ΡΡΡΠ° Π΄Π»Ρ Π³Π΅Π½Π΅ΡΠ°ΡΠΈΠΈ: 0.3 / Recommended generation temperature: 0.3.
from transformers import AutoModelForCausalLM, AutoTokenizer
# ΠΠ°Π³ΡΡΠ·ΠΊΠ° ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈ ΡΠΎΠΊΠ΅Π½ΠΈΠ·Π°ΡΠΎΡΠ°
model_name = "Vikhrmodels/Vikhr-Llama-3.2-1B-instruct"
model = AutoModelForCausalLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)
# ΠΠΎΠ΄Π³ΠΎΡΠΎΠ²ΠΊΠ° Π²Ρ
ΠΎΠ΄Π½ΠΎΠ³ΠΎ ΡΠ΅ΠΊΡΡΠ°
input_text = "ΠΠ°ΠΏΠΈΡΠΈ ΠΎΡΠ΅Π½Ρ ΠΊΡΠ°ΡΠΊΡΡ ΡΠ΅ΡΠ΅Π½Π·ΠΈΡ ΠΎ ΠΊΠ½ΠΈΠ³Π΅ Π³Π°ΡΡΠΈ ΠΏΠΎΡΡΠ΅Ρ."
# Π’ΠΎΠΊΠ΅Π½ΠΈΠ·Π°ΡΠΈΡ ΠΈ Π³Π΅Π½Π΅ΡΠ°ΡΠΈΡ ΡΠ΅ΠΊΡΡΠ°
input_ids = tokenizer.encode(input_text, return_tensors="pt")
output = model.generate(
input_ids,
max_length=1512,
temperature=0.3,
num_return_sequences=1,
no_repeat_ngram_size=2,
top_k=50,
top_p=0.95,
)
# ΠΠ΅ΠΊΠΎΠ΄ΠΈΡΠΎΠ²Π°Π½ΠΈΠ΅ ΠΈ Π²ΡΠ²ΠΎΠ΄ ΡΠ΅Π·ΡΠ»ΡΡΠ°ΡΠ°
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(generated_text)
ΠΡΠ²Π΅Ρ ΠΌΠΎΠ΄Π΅Π»ΠΈ / Model response:
ΠΡΠ°ΡΠΊΠ°Ρ ΡΠ΅ΡΠ΅Π½Π·ΠΈΡ Π½Π° ΠΊΠ½ΠΈΠ³Ρ "ΠΠ°ΡΡΠΈ ΠΠΎΡΡΠ΅Ρ"
"ΠΠ°ΡΡΠΈ ΠΠΎΡΡΠ΅Ρ" β ΡΡΠΎ ΡΠ΅ΡΠΈΡ ΠΊΠ½ΠΈΠ³, Π½Π°ΠΏΠΈΡΠ°Π½Π½Π°Ρ ΠΠΆ. Π. Π ΠΎΡΠ»ΠΈΠ½Π³, ΠΊΠΎΡΠΎΡΠ°Ρ ΡΡΠ°Π»Π° ΠΊΡΠ»ΡΡΠΎΠ²ΠΎΠΉ Π² ΠΌΠΈΡΠ΅ Π΄Π΅ΡΡΠΊΠΈΡ Π»ΠΈΡΠ΅ΡΠ°ΡΡΡΡ. ΠΠ½ΠΈΠ³ΠΈ ΡΠ°ΡΡΠΊΠ°Π·ΡΠ²Π°ΡΡ ΠΎ ΠΆΠΈΠ·Π½ΠΈ ΠΈ ΠΏΡΠΈΠΊΠ»ΡΡΠ΅Π½ΠΈΡΡ ΠΌΠΎΠ»ΠΎΠ΄ΠΎΠ³ΠΎ ΡΡΠ΅Π½ΠΈΠΊΠ° ΠΏΠΎ ΠΈΠΌΠ΅Π½ΠΈ ΠΠ°ΡΡΠΈ ΠΠΎΡΡΠ΅Ρ, ΠΊΠΎΡΠΎΡΡΠΉ ΡΡΠ°Π» Π·Π½Π°ΠΌΠ΅Π½ΠΈΡΡΠΌ ΠΏΠΎ ΡΠ²ΠΎΠ΅ΠΉ ΡΠΏΠΎΡΠΎΠ±Π½ΠΎΡΡΠΈ ΠΊ ΠΌΠ°Π³ΠΈΠΈ.
ΠΡΠ½ΠΎΠ²Π½ΡΠ΅ ΠΌΠΎΠΌΠ΅Π½ΡΡ:
ΠΠ²Π΅Π΄Π΅Π½ΠΈΠ΅ Π² ΠΌΠΈΡ ΠΠ°ΡΡΠΈ ΠΠΎΡΡΠ΅ΡΠ°: ΠΠ½ΠΈΠ³ΠΈ Π½Π°ΡΠΈΠ½Π°ΡΡΡΡ Ρ ΠΎΠΏΠΈΡΠ°Π½ΠΈΡ ΠΠ°ΡΡΠΈ, Π΅Π³ΠΎ ΡΠ΅ΠΌΡΠΈ ΠΈ ΡΠΊΠΎΠ»Ρ, Π³Π΄Π΅ ΠΎΠ½ ΠΈΠ·ΡΡΠ°Π΅Ρ ΠΌΠ°Π³ΠΈΡ. ΠΠ°ΡΡΠΈ β Π½Π΅ΠΎΠ±ΡΡΠ½ΡΠΉ ΡΡΠ΅Π½ΠΈΠΊ, ΠΊΠΎΡΠΎΡΡΠΉ Π½Π΅ ΠΈΠΌΠ΅Π΅Ρ ΠΌΠ°Π³ΠΈΡΠ΅ΡΠΊΠΈΡ ΡΠΏΠΎΡΠΎΠ±Π½ΠΎΡΡΠ΅ΠΉ, Π½ΠΎ ΠΎΠ±Π»Π°Π΄Π°Π΅Ρ ΡΠ½ΠΈΠΊΠ°Π»ΡΠ½ΡΠΌ ΡΠΌΠΎΠΌ ΠΈ ΡΠΏΠΎΡΠΎΠ±Π½ΠΎΡΡΡΡ ΠΊ ΡΠ΅ΡΠ΅Π½ΠΈΡ ΠΏΡΠΎΠ±Π»Π΅ΠΌ.
Π‘ΠΎΡΠΈΠ°Π»ΡΠ½ΡΠ΅ ΠΈ ΠΏΠΎΠ»ΠΈΡΠΈΡΠ΅ΡΠΊΠΈΠ΅ Π°ΡΠΏΠ΅ΠΊΡΡ: Π ΠΊΠ½ΠΈΠ³Π°Ρ ΡΠ°ΡΡΠΌΠ°ΡΡΠΈΠ²Π°ΡΡΡΡ ΡΠΎΡΠΈΠ°Π»ΡΠ½ΡΠ΅ ΠΈ ΠΏΠΎΠ»ΠΈΡΠΈΡΠ΅ΡΠΊΠΈΠ΅ Π°ΡΠΏΠ΅ΠΊΡΡ, ΡΠ°ΠΊΠΈΠ΅ ΠΊΠ°ΠΊ ΠΏΡΠ°Π²ΠΈΡΠ΅Π»ΡΡΡΠ²ΠΎ, ΠΌΠ°Π³ΠΈΡΠ΅ΡΠΊΠΈΠ΅ ΠΎΠ±ΡΠ΅ΡΡΠ²Π°, ΠΈ ΠΈΡ Π²Π·Π°ΠΈΠΌΠΎΠ΄Π΅ΠΉΡΡΠ²ΠΈΠ΅.
ΠΠ°Π³ΠΈΡΠ΅ΡΠΊΠΈΠ΅ ΠΏΡΠΈΠΊΠ»ΡΡΠ΅Π½ΠΈΡ: ΠΠ°ΡΡΠΈ ΠΈ Π΅Π³ΠΎ Π΄ΡΡΠ·ΡΡ, Π²ΠΊΠ»ΡΡΠ°Ρ Π ΠΎΠ½ ΠΈ Π₯ΡΠ», ΡΡΠ°Π»ΠΊΠΈΠ²Π°ΡΡΡΡ Ρ ΠΌΠ½ΠΎΠΆΠ΅ΡΡΠ²ΠΎΠΌ ΠΌΠ°Π³ΠΈΡΠ΅ΡΠΊΠΈΡ ΡΠ³ΡΠΎΠ·, Π²ΠΊΠ»ΡΡΠ°Ρ Π·Π»ΠΎΠ΄Π΅Π΅Π², ΡΠ°ΠΊΠΈΠ΅ ΠΊΠ°ΠΊ ΠΠΎΠ»ΡΠ΅Π±Π½ΡΠΉ ΠΠΎΠΉΠ½ΡΠΊ ΠΈ Π‘Π°ΡΠ°Π½.
Π Π°Π·Π²ΠΈΡΠΈΠ΅ ΠΏΠ΅ΡΡΠΎΠ½Π°ΠΆΠ΅ΠΉ: Π ΠΊΠ½ΠΈΠ³Π°Ρ ΡΠ°Π·Π²ΠΈΠ²Π°ΡΡΡΡ ΠΏΠ΅ΡΡΠΎΠ½Π°ΠΆΠΈ, ΠΈΡ ΠΌΠΎΡΠΈΠ²Π°ΡΠΈΠΈ ΠΈ ΠΎΡΠ½ΠΎΡΠ΅Π½ΠΈΡ Ρ Π΄ΡΡΠ³ΠΈΠΌΠΈ ΠΏΠ΅ΡΡΠΎΠ½Π°ΠΆΠ°ΠΌΠΈ.
Π€ΠΈΠ»ΠΎΡΠΎΡΡΠΊΠΈΠ΅ ΠΈ ΠΌΠΎΡΠ°Π»ΡΠ½ΡΠ΅ Π²ΠΎΠΏΡΠΎΡΡ: ΠΠ½ΠΈΠ³ΠΈ Π·Π°ΡΡΠ°Π³ΠΈΠ²Π°ΡΡ ΡΠ΅ΠΌΡ, ΡΠ°ΠΊΠΈΠ΅ ΠΊΠ°ΠΊ Π²Π΅ΡΠ°, Π΄ΠΎΠ±ΡΠΎΡΠ°, ΡΠΏΡΠ°Π²Π΅Π΄Π»ΠΈΠ²ΠΎΡΡΡ ΠΈ ΠΌΠΎΡΠ°Π»ΡΠ½ΡΠ΅ Π΄ΠΈΠ»Π΅ΠΌΠΌΡ.
ΠΠ°ΠΊΠ»ΡΡΠ΅Π½ΠΈΠ΅:
"ΠΠ°ΡΡΠΈ ΠΠΎΡΡΠ΅Ρ" β ΡΡΠΎ Π½Π΅ ΡΠΎΠ»ΡΠΊΠΎ ΠΈΡΡΠΎΡΠΈΡ ΠΎ ΠΌΠΎΠ»ΠΎΠ΄ΠΎΠΌ ΡΡΠ΅Π½ΠΈΠΊΠ΅, Π½ΠΎ ΠΈ Π³Π»ΡΠ±ΠΎΠΊΠΎΠ΅ ΠΈΡΡΠ»Π΅Π΄ΠΎΠ²Π°Π½ΠΈΠ΅ ΡΠ΅Π»ΠΎΠ²Π΅ΡΠ΅ΡΠΊΠΎΠ³ΠΎ ΠΎΠΏΡΡΠ°, ΡΠΎΡΠΈΠ°Π»ΡΠ½ΡΡ Π½ΠΎΡΠΌ ΠΈ ΠΌΠΎΡΠ°Π»ΡΠ½ΡΡ Π΄ΠΈΠ»Π΅ΠΌΠΌ. ΠΠ½ΠΈΠ³ΠΈ ΠΏΡΠΈΠ²Π»Π΅ΠΊΠ°ΡΡ ΡΠΈΡΠ°ΡΠ΅Π»Π΅ΠΉ ΡΠ²ΠΎΠΈΠΌΠΈ Π·Π°Ρ Π²Π°ΡΡΠ²Π°ΡΡΠΈΠΌΠΈ ΡΡΠΆΠ΅ΡΠ°ΠΌΠΈ, ΡΡΠΊΠΈΠΌΠΈ ΠΏΠ΅ΡΡΠΎΠ½Π°ΠΆΠ°ΠΌΠΈ ΠΈ Π³Π»ΡΠ±ΠΎΠΊΠΈΠΌΠΈ ΡΠΈΠ»ΠΎΡΠΎΡΡΠΊΠΈΠΌΠΈ ΡΠ°Π·ΠΌΡΡΠ»Π΅Π½ΠΈΡΠΌΠΈ. ΠΠ½ΠΈ ΡΠ²Π»ΡΡΡΡΡ Π½Π΅ ΡΠΎΠ»ΡΠΊΠΎ ΡΠ²Π»Π΅ΠΊΠ°ΡΠ΅Π»ΡΠ½ΡΠΌ ΠΏΡΠΈΠΊΠ»ΡΡΠ΅Π½ΠΈΠ΅ΠΌ, Π½ΠΎ ΠΈ Π²Π°ΠΆΠ½ΡΠΌ ΠΈΡΡΠΎΡΠ½ΠΈΠΊΠΎΠΌ Π²Π΄ΠΎΡ Π½ΠΎΠ²Π΅Π½ΠΈΡ Π΄Π»Ρ ΠΌΠ½ΠΎΠ³ΠΈΡ Π»ΡΠ΄Π΅ΠΉ.
ΠΠ΅ΡΡΠΈΠΊΠΈ Π½Π° ru_arena_general / Metrics on ru_arena_general
Model | Score | 95% CI | Avg Tokens | Std Tokens | LC Score |
---|---|---|---|---|---|
kolibri-vikhr-mistral-0427 | 22.41 | +1.6 / -1.6 | 489.89 | 566.29 | 46.04 |
storm-7b | 20.62 | +2.0 / -1.6 | 419.32 | 190.85 | 45.78 |
neural-chat-7b-v3-3 | 19.04 | +2.0 / -1.7 | 927.21 | 1211.62 | 45.56 |
Vikhrmodels-Vikhr-Llama-3.2-1B-instruct | 19.04 | +1.3 / -1.6 | 958.63 | 1297.33 | 45.56 |
gigachat_lite | 17.2 | +1.4 / -1.4 | 276.81 | 329.66 | 45.29 |
Vikhrmodels-vikhr-qwen-1.5b-it | 13.19 | +1.4 / -1.6 | 2495.38 | 741.45 | 44.72 |
meta-llama-Llama-3.2-1B-Instruct | 4.04 | +0.8 / -0.6 | 1240.53 | 1783.08 | 43.42 |
ΠΠ²ΡΠΎΡΡ / Authors
- Sergei Bratchikov, NLP Wanderer, Vikhr Team
- Nikolay Kompanets, LakoMoor, Vikhr Team
- Konstantin Korolev, Vikhr Team
- Aleksandr Nikolich, Vikhr Team
@article{nikolich2024vikhr,
title={Vikhr: The Family of Open-Source Instruction-Tuned Large Language Models for Russian},
author={Aleksandr Nikolich and Konstantin Korolev and Sergey Bratchikov and Nikolay Kompanets and Artem Shelmanov},
journal={arXiv preprint arXiv:2405.13929},
year={2024},
url={https://arxiv.org/pdf/2405.13929}
}
- Downloads last month
- 3,014
Model tree for Vikhrmodels/Vikhr-Llama-3.2-1B-Instruct
Base model
meta-llama/Llama-3.2-1B-Instruct