Spaces:

howtomakepplragequit
/

llm-docker-chatbot

Sleeping

howtomakepplragequit commited on Jun 2

Commit

ac58efe

verified ·

1 Parent(s): e015985

Upload 2 files

Files changed (2) hide show

DOCKERFILE ADDED Viewed

+FROM python:3.10-slim
+RUN apt-get update && apt-get install -y git && rm -rf /var/lib/apt/lists/*
+RUN pip install --upgrade pip
+RUN pip install torch transformers fastapi uvicorn bitsandbytes accelerate
+WORKDIR /app
+COPY main.py .
+CMD ["uvicorn", "main:app", "--host", "0.0.0.0", "--port", "7860"]

main.py ADDED Viewed

+from fastapi import FastAPI, Request
+from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
+import torch
+app = FastAPI()
+model_name = "howtomakepplragequit/phi2-lora-instruct"
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+model = AutoModelForCausalLM.from_pretrained(
+    model_name,
+    torch_dtype=torch.float16 if torch.cuda.is_available() else torch.float32,
+    device_map="auto"
+)
+pipe = pipeline("text-generation", model=model, tokenizer=tokenizer)
+@app.post("/generate")
+async def generate(request: Request):
+    data = await request.json()
+    prompt = data.get("prompt", "")
+    formatted = f"### Instruction:\n{prompt}\n\n### Response:\n"
+    result = pipe(formatted, max_new_tokens=200)[0]["generated_text"]
+    return {"response": result.split("### Response:")[-1].strip()}