Spaces:

Hodely
/

AmInSide1.0

No application file

Hodely commited on Jun 3

Commit

aabab56

verified ·

1 Parent(s): 03cdea3

Upload 6 files

Files changed (6) hide show

0_data_gen/app.py ADDED Viewed

+from transformers import pipeline, AutoTokenizer, AutoModelForCausalLM
+import gradio as gr
+model_id = "Hodely/AmInSide1.0"  # Reemplaza con tu repo real
+tokenizer = AutoTokenizer.from_pretrained(model_id)
+model = AutoModelForCausalLM.from_pretrained(model_id)
+pipe = pipeline("text-generation", model=model, tokenizer=tokenizer)
+def chat(user_input):
+    result = pipe(user_input, max_new_tokens=200, temperature=0.7, do_sample=True)
+    return result[0]['generated_text']
+gr.Interface(fn=chat, inputs="text", outputs="text", title="🧠 AmInSide1.0").launch()

0_data_gen/generate_dataset.py ADDED Viewed

+from transformers import pipeline
+import json
+generator = pipeline("text-generation", model="mistralai/Mistral-7B-Instruct", tokenizer="mistralai/Mistral-7B-Instruct")
+seed_prompts = [
+    "Dame 10 preguntas filosóficas con respuestas profundas.",
+    "Genera 5 ejemplos tipo ChatGPT con tono sarcástico pero sabio.",
+    "Crea 10 instrucciones para IA educativa con respuestas creativas."
+]
+output = []
+for prompt in seed_prompts:
+    result = generator(prompt, max_new_tokens=512)[0]["generated_text"]
+    # ¡Aquí puedes separar y limpiar! Por ahora simplificamos
+    output.append({"instruction": prompt, "response": result})
+with open("instruct_dataset.jsonl", "w", encoding="utf-8") as f:
+    for example in output:
+        f.write(json.dumps(example, ensure_ascii=False) + "\n")
+print("✅ Dataset generado.")

1_train/train.py ADDED Viewed

+from datasets import load_dataset
+from transformers import AutoTokenizer, AutoModelForCausalLM, TrainingArguments, Trainer
+from peft import get_peft_model, LoraConfig, TaskType
+import torch
+model_id = "microsoft/phi-3-mini-4k-instruct"
+dataset_path = "../0_data_gen/instruct_dataset.jsonl"
+# Carga dataset personalizado
+data = load_dataset("json", data_files=dataset_path)
+# Tokenización
+tokenizer = AutoTokenizer.from_pretrained(model_id)
+def tokenize(example):
+    return tokenizer(f"<|user|>{example['instruction']}<|assistant|>{example['response']}", truncation=True, padding="max_length", max_length=512)
+tokenized = data["train"].map(tokenize)
+# Carga modelo + PEFT
+model = AutoModelForCausalLM.from_pretrained(model_id)
+peft_config = LoraConfig(task_type=TaskType.CAUSAL_LM, inference_mode=False, r=8, lora_alpha=16, lora_dropout=0.05)
+model = get_peft_model(model, peft_config)
+# Entrenamiento
+training_args = TrainingArguments(
+    output_dir="./model",
+    per_device_train_batch_size=2,
+    num_train_epochs=3,
+    save_total_limit=1,
+    logging_steps=10,
+    learning_rate=2e-4,
+    fp16=torch.cuda.is_available()
+)
+trainer = Trainer(model=model, args=training_args, train_dataset=tokenized)
+trainer.train()

2_space/README.md ADDED Viewed

+# AmInSide1.0
+Este es el modelo de lenguaje creado por Hodely. Entrenado con ejemplos generados por otro modelo, afinado para combinar inteligencia, humor y creatividad.
+🔹 Entrenado con LoRA
+🔹 Base: Phi-3 / Mistral
+🔹 Fine-tuned en estilo instructivo con dataset propio

2_space/app.py ADDED Viewed

+from transformers import pipeline, AutoTokenizer, AutoModelForCausalLM
+import gradio as gr
+model_id = "Hodely/AmInSide1.0"  # Reemplaza con tu repo real
+tokenizer = AutoTokenizer.from_pretrained(model_id)
+model = AutoModelForCausalLM.from_pretrained(model_id)
+pipe = pipeline("text-generation", model=model, tokenizer=tokenizer)
+def chat(user_input):
+    result = pipe(user_input, max_new_tokens=200, temperature=0.7, do_sample=True)
+    return result[0]['generated_text']
+gr.Interface(fn=chat, inputs="text", outputs="text", title="🧠 AmInSide1.0").launch()

2_space/requirements.txt ADDED Viewed

+transformers
+gradio
+peft
+datasets
+accelerate