Spaces:

markredito
/

gemma-pip-finetuned

Sleeping

App Files Files Community

markredito commited on Apr 20

Commit

5bd469b

verified ·

1 Parent(s): ab4349c

fixed token reqs

Browse files

Files changed (1) hide show

app.py +38 -14

app.py CHANGED Viewed

@@ -1,18 +1,37 @@
 import torch
 from transformers import AutoTokenizer, AutoModelForCausalLM
 from peft import PeftModel
-import gradio as gr
-# Model identifiers
 BASE_MODEL = "google/gemma-3-1b-it"
-LORA_ADAPTER = "markredito/gemma-pip-finetuned-v2"  # replace this!
-# Load base + adapter
-tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL, token=True)
-model = AutoModelForCausalLM.from_pretrained(BASE_MODEL, torch_dtype=torch.bfloat16, device_map="auto", token=True)
-model = PeftModel.from_pretrained(model, LORA_ADAPTER, token=True)
-# Handle missing pad token
 if tokenizer.pad_token is None:
     tokenizer.pad_token = tokenizer.eos_token
     tokenizer.padding_side = "right"
@@ -25,6 +44,7 @@ def generate_response(user_input):
         "<start_of_turn>model\n"
     )
     inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
     outputs = model.generate(
         **inputs,
         max_new_tokens=200,
@@ -32,18 +52,22 @@ def generate_response(user_input):
         temperature=0.7,
         top_p=0.9,
         top_k=50,
-        eos_token_id=tokenizer.eos_token_id,
         pad_token_id=tokenizer.pad_token_id,
     )
     response = tokenizer.decode(outputs[0][inputs["input_ids"].shape[1]:], skip_special_tokens=True)
-    response = response.split("<end_of_turn>")[0].strip()
     return response
 # Gradio UI
 gr.Interface(
     fn=generate_response,
-    inputs=gr.Textbox(label="Enter your prompt"),
-    outputs=gr.Textbox(label="Model response"),
-    title="Gemma LoRA: Philosophical Inference",
-    description="LoRA fine-tuned Gemma model generating poetic/abstract outputs."
 ).launch()

+import os
 import torch
+import gradio as gr
 from transformers import AutoTokenizer, AutoModelForCausalLM
 from peft import PeftModel
+# Read your Hugging Face token from Space Secrets
+HF_TOKEN = os.environ.get("HF_TOKEN")
+# Hugging Face model identifiers
 BASE_MODEL = "google/gemma-3-1b-it"
+LORA_ADAPTER = "your-username/your-lora-repo"  # 🔁 Replace this with your adapter repo
+# Load base model with token (required for gated models)
+tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL, token=HF_TOKEN)
+# Detect if GPU is available
+device = "cuda" if torch.cuda.is_available() else "cpu"
+dtype = torch.bfloat16 if device == "cuda" else torch.float32
+model = AutoModelForCausalLM.from_pretrained(
+    BASE_MODEL,
+    device_map="auto" if device == "cuda" else None,
+    torch_dtype=dtype,
+    token=HF_TOKEN
+)
+model = PeftModel.from_pretrained(
+    model,
+    LORA_ADAPTER,
+    token=HF_TOKEN
+)
+# Pad token fallback
 if tokenizer.pad_token is None:
     tokenizer.pad_token = tokenizer.eos_token
     tokenizer.padding_side = "right"
         "<start_of_turn>model\n"
     )
     inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
     outputs = model.generate(
         **inputs,
         max_new_tokens=200,
         temperature=0.7,
         top_p=0.9,
         top_k=50,
         pad_token_id=tokenizer.pad_token_id,
+        eos_token_id=tokenizer.eos_token_id,
     )
+    # Decode and clean output
     response = tokenizer.decode(outputs[0][inputs["input_ids"].shape[1]:], skip_special_tokens=True)
+    response = response.split("<end_of_turn>")[0].replace("model\n", "").strip()
     return response
 # Gradio UI
 gr.Interface(
     fn=generate_response,
+    inputs=gr.Textbox(label="Enter your prompt", placeholder="E.g. Describe a universe made of sound..."),
+    outputs=gr.Textbox(label="Model's response"),
+    title="Gemma LoRA: Abstract Thought Generator",
+    description="LoRA fine-tuned `gemma-3-1b-it` on poetic/philosophical prompts. Run your own abstract experiments.",
+    theme="soft"
 ).launch()