Spaces:

baliddeki
/

phronesis-ml-endpoint

Running

App Files Files Community

baliddeki commited on May 2

Commit

e65d0e5

1 Parent(s): d4d94d2

fix with endpoints

Browse files

Files changed (1) hide show

app.py +21 -27

app.py CHANGED Viewed

@@ -14,9 +14,11 @@ import gc
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
-# Load tokenizer and models
 HF_TOKEN = os.getenv("HF_TOKEN")
 tokenizer = AutoTokenizer.from_pretrained("baliddeki/phronesis-ml", token=HF_TOKEN)
 video_model = models.video.r3d_18(weights="KINETICS400_V1")
 video_model.fc = torch.nn.Linear(video_model.fc.in_features, 512)
@@ -26,27 +28,20 @@ projector = ImageToTextProjector(512, report_generator.config.d_model)
 num_classes = 4
 class_names = ["acute", "normal", "chronic", "lacunar"]
-combined_model = CombinedModel(
-    video_model, report_generator, num_classes, projector, tokenizer
-)
-model_file = hf_hub_download(
-    "baliddeki/phronesis-ml", "pytorch_model.bin", token=HF_TOKEN
-)
 state_dict = torch.load(model_file, map_location=device)
 combined_model.load_state_dict(state_dict)
 combined_model.eval()
 # Image transforms
-image_transform = transforms.Compose(
-    [
-        transforms.Resize((112, 112)),
-        transforms.ToTensor(),
-        transforms.Normalize(
-            mean=[0.43216, 0.394666, 0.37645], std=[0.22803, 0.22145, 0.216989]
-        ),
-    ]
-)
 def dicom_to_image(file_bytes):
     dicom_file = pydicom.dcmread(io.BytesIO(file_bytes))
@@ -55,23 +50,21 @@ def dicom_to_image(file_bytes):
     pixel_array = pixel_array.astype(np.uint8)
     return Image.fromarray(pixel_array).convert("RGB")
 def predict(images):
     if not images:
         return "No image uploaded.", ""
-    # Convert images
     processed_imgs = []
     for img in images:
         filename = img.name.lower()
         if filename.endswith((".dcm", ".ima")):
-            dicom_img = dicom_to_image(img.read())
             processed_imgs.append(dicom_img)
         else:
             pil_img = Image.open(img).convert("RGB")
             processed_imgs.append(pil_img)
-    # Sample or pad
     n_frames = 16
     if len(processed_imgs) >= n_frames:
         images_sampled = [
@@ -79,9 +72,7 @@ def predict(images):
             for i in np.linspace(0, len(processed_imgs) - 1, n_frames, dtype=int)
         ]
     else:
-        images_sampled = processed_imgs + [processed_imgs[-1]] * (
-            n_frames - len(processed_imgs)
-        )
     tensor_imgs = [image_transform(i) for i in images_sampled]
     input_tensor = torch.stack(tensor_imgs).permute(1, 0, 2, 3).unsqueeze(0).to(device)
@@ -97,8 +88,7 @@ def predict(images):
     return class_name, report[0] if report else "No report generated."
-# Gradio interface
 demo = gr.Interface(
     fn=predict,
     inputs=gr.File(
@@ -106,9 +96,13 @@ demo = gr.Interface(
         file_count="multiple",
         label="Upload CT Scan Images",
     ),
-    outputs=[gr.Textbox(label="Predicted Class"), gr.Textbox(label="Generated Report")],
     title="Phronesis Medical Report Generator",
     description="Upload CT scan DICOM or image files. Returns diagnosis classification and generated report.",
 )
 demo.launch()

 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+# Environment setup
 HF_TOKEN = os.getenv("HF_TOKEN")
+os.environ["HF_HOME"] = "/tmp/huggingface_cache"
+# Model initialization
 tokenizer = AutoTokenizer.from_pretrained("baliddeki/phronesis-ml", token=HF_TOKEN)
 video_model = models.video.r3d_18(weights="KINETICS400_V1")
 video_model.fc = torch.nn.Linear(video_model.fc.in_features, 512)
 num_classes = 4
 class_names = ["acute", "normal", "chronic", "lacunar"]
+combined_model = CombinedModel(video_model, report_generator, num_classes, projector, tokenizer)
+model_file = hf_hub_download("baliddeki/phronesis-ml", "pytorch_model.bin", token=HF_TOKEN)
 state_dict = torch.load(model_file, map_location=device)
 combined_model.load_state_dict(state_dict)
+combined_model.to(device)
 combined_model.eval()
 # Image transforms
+image_transform = transforms.Compose([
+    transforms.Resize((112, 112)),
+    transforms.ToTensor(),
+    transforms.Normalize(mean=[0.43216, 0.394666, 0.37645], std=[0.22803, 0.22145, 0.216989]),
+])
 def dicom_to_image(file_bytes):
     dicom_file = pydicom.dcmread(io.BytesIO(file_bytes))
     pixel_array = pixel_array.astype(np.uint8)
     return Image.fromarray(pixel_array).convert("RGB")
 def predict(images):
     if not images:
         return "No image uploaded.", ""
     processed_imgs = []
     for img in images:
         filename = img.name.lower()
         if filename.endswith((".dcm", ".ima")):
+            file_bytes = img.read()
+            dicom_img = dicom_to_image(file_bytes)
             processed_imgs.append(dicom_img)
         else:
             pil_img = Image.open(img).convert("RGB")
             processed_imgs.append(pil_img)
     n_frames = 16
     if len(processed_imgs) >= n_frames:
         images_sampled = [
             for i in np.linspace(0, len(processed_imgs) - 1, n_frames, dtype=int)
         ]
     else:
+        images_sampled = processed_imgs + [processed_imgs[-1]] * (n_frames - len(processed_imgs))
     tensor_imgs = [image_transform(i) for i in images_sampled]
     input_tensor = torch.stack(tensor_imgs).permute(1, 0, 2, 3).unsqueeze(0).to(device)
     return class_name, report[0] if report else "No report generated."
+# Define Gradio Interface explicitly
 demo = gr.Interface(
     fn=predict,
     inputs=gr.File(
         file_count="multiple",
         label="Upload CT Scan Images",
     ),
+    outputs=[
+        gr.Textbox(label="Predicted Class"),
+        gr.Textbox(label="Generated Report")
+    ],
     title="Phronesis Medical Report Generator",
     description="Upload CT scan DICOM or image files. Returns diagnosis classification and generated report.",
 )
+# Launch with explicit api_name for REST API compatibility
 demo.launch()