Spaces:

howtomakepplragequit
/

llm-docker-chatbot

Sleeping

howtomakepplragequit commited on Jun 2

Commit

097de50

verified ·

1 Parent(s): 1638d7e

Upload main.py

Files changed (1) hide show

main.py CHANGED Viewed

@@ -1,27 +1,26 @@
 import os
 from fastapi import FastAPI
 from pydantic import BaseModel
-from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
-# Force Hugging Face cache to a writable dir
-os.environ["HF_HOME"] = "/data"
-model_name = "howtomakepplragequit/phi2-lora-instruct"
-# Load tokenizer and model
 tokenizer = AutoTokenizer.from_pretrained(model_name)
-model = AutoModelForCausalLM.from_pretrained(model_name)
-# Create pipeline
-generator = pipeline("text-generation", model=model, tokenizer=tokenizer)
-# FastAPI app setup
 app = FastAPI()
 class Prompt(BaseModel):
-    prompt: str
-@app.post("/generate")
-def generate_text(data: Prompt):
-    output = generator(data.prompt, max_length=200, do_sample=True)[0]["generated_text"]
-    return {"response": output}

 import os
+os.environ["HF_HOME"] = "/tmp"
+from transformers import AutoTokenizer, AutoModelForCausalLM
+from peft import PeftModel
 from fastapi import FastAPI
 from pydantic import BaseModel
+model_name = "microsoft/phi-2"
+adapter_path = "howtomakepplragequit/phi2-lora-instruct"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
+base_model = AutoModelForCausalLM.from_pretrained(model_name)
+model = PeftModel.from_pretrained(base_model, adapter_path)
 app = FastAPI()
 class Prompt(BaseModel):
+    input: str
+@app.post("/chat")
+def chat(prompt: Prompt):
+    inputs = tokenizer(prompt.input, return_tensors="pt")
+    output = model.generate(**inputs, max_new_tokens=50)
+    response = tokenizer.decode(output[0], skip_special_tokens=True)
+    return {"response": response}