Spaces:

qahorov
/

Llama-3-1-8B-Uzbek

Running

App Files Files Community

futzone commited on Apr 19

Commit

48b3ff3

1 Parent(s): 311ac7e

app.py

Browse files

Files changed (1) hide show

app.py +69 -0

app.py ADDED Viewed

	@@ -0,0 +1,69 @@

+import streamlit as st
+from transformers import AutoModelForCausalLM, AutoTokenizer, TrainingArguments, Trainer
+from peft import get_peft_model, LoraConfig, TaskType
+from datasets import load_dataset
+import torch
+st.title("🧠 Llama 3.1 8B Uzbek Fine-Tuning")
+@st.cache_resource
+def load_tokenizer_model(model_id):
+    tokenizer = AutoTokenizer.from_pretrained(model_id)
+    model = AutoModelForCausalLM.from_pretrained(
+        model_id,
+        load_in_8bit=True,
+        device_map="auto"
+    )
+    return tokenizer, model
+def tokenize_function(example, tokenizer):
+    prompt = f"<s>[INST] {example['instruction']} [/INST] {example['output']} </s>"
+    return tokenizer(prompt, truncation=True, padding="max_length", max_length=512)
+def fine_tune(model_id, dataset_path):
+    tokenizer, model = load_tokenizer_model(model_id)
+    # LoRA config
+    lora_config = LoraConfig(
+        task_type=TaskType.CAUSAL_LM,
+        r=8,
+        lora_alpha=32,
+        lora_dropout=0.1
+    )
+    model = get_peft_model(model, lora_config)
+    dataset = load_dataset("json", data_files=dataset_path)
+    tokenized = dataset["train"].map(lambda x: tokenize_function(x, tokenizer))
+    training_args = TrainingArguments(
+        per_device_train_batch_size=1,
+        num_train_epochs=2,
+        output_dir="./results",
+        logging_dir="./logs",
+        save_strategy="no",
+        learning_rate=2e-4
+    )
+    trainer = Trainer(
+        model=model,
+        args=training_args,
+        train_dataset=tokenized
+    )
+    trainer.train()
+    model.save_pretrained("finetuned_model")
+    tokenizer.save_pretrained("finetuned_model")
+    return "✅ Fine-tuning tugadi!"
+# 📌 UI
+model_id = st.text_input("Model ID (masalan: qahorov/Llama-3-1-8B-Uzbek)", "qahorov/Llama-3-1-8B-Uzbek")
+dataset_path = st.text_input("Dataset path (masalan: datasets/train.json)", "datasets/train.json")
+if st.button("🚀 Start Fine-Tuning"):
+    st.warning("Fine-tuning boshlandi! Bu vaqt oladi...")
+    status = fine_tune(model_id, dataset_path)
+    st.success(status)