Spaces:

riteshkokam
/

MedAI

Runtime error

App Files Files Community

riteshkokam commited on Jun 17

Commit

ab6adaa

verified ·

1 Parent(s): bf7dabd

Update app.py

Browse files

Files changed (1) hide show

app.py +52 -33

app.py CHANGED Viewed

@@ -1,60 +1,79 @@
-# app.py
 import gradio as gr
 import torch
-from transformers import AutoProcessor, AutoModelForVision2Seq, pipeline
 from gtts import gTTS
 import tempfile
 from PIL import Image
 class AIDoctor:
-    def __init__(self, vision_model="meta-llama/Llama-3.2-11B-Vision"):
         self.device = "cpu"
-        print(f"🖥️ Using device: {self.device}")
-        self.proc = AutoProcessor.from_pretrained(vision_model, trust_remote_code=True)
-        self.model = AutoModelForVision2Seq.from_pretrained(
-            vision_model,
             torch_dtype=torch.float32,
             trust_remote_code=True
         ).to(self.device)
         self.stt = pipeline("automatic-speech-recognition", model="openai/whisper-tiny", device=-1)
     def analyze(self, image, question):
         if image is None:
-            return "Please upload a medical image."
-        prompt = question or "Please analyze this medical image for any abnormalities."
-        inputs = self.proc(images=image, text=prompt, return_tensors="pt").to(self.device)
-        outputs = self.model.generate(**inputs, max_new_tokens=256, temperature=0.7)
-        return self.proc.decode(outputs[0], skip_special_tokens=True).strip()
     def tts(self, text):
         tts = gTTS(text=text, lang="en")
-        file = tempfile.NamedTemporaryFile(delete=False, suffix=".mp3").name
-        tts.save(file)
-        return file
     def respond(self, image, audio, text):
-        q = text.strip()
         if audio:
-            result = self.stt(audio)
-            trans = result.get("text", "").strip() if isinstance(result, dict) else str(result)
-            if trans:
-                q = trans
-        resp = self.analyze(image, q)
         voice = self.tts(resp)
-        return resp, voice, q
 doctor = AIDoctor()
-with gr.Blocks(title="🏥 AI Doctor with Llama 3.2 Vision") as demo:
-    gr.Markdown("## AI Doctor — Vision + Voice using Llama‑3.2‑11B‑Vision")
     with gr.Row():
-        img = gr.Image(label="Medical Image", type="pil")
-        aud_input = gr.Audio(label="Ask by voice", type="filepath")
-    txt_input = gr.Textbox(label="Ask by text", lines=2)
     resp_out = gr.Textbox(label="AI Response", lines=10)
     aud_out = gr.Audio(label="AI Speaks", type="filepath")
-    q_out = gr.Textbox(label="Processed Question")
-    btn = gr.Button("Ask Doctor")
-    btn.click(fn=doctor.respond, inputs=[img, aud_input, txt_input],
               outputs=[resp_out, aud_out, q_out])
 demo.launch()

+import os
 import gradio as gr
 import torch
+from transformers import AutoProcessor, MllamaForConditionalGeneration, pipeline
+from huggingface_hub import login
 from gtts import gTTS
 import tempfile
 from PIL import Image
+# ————————————————
+# 💡 STEP 0: AUTHENTICATE WITH HF
+login(token=os.getenv("HUGGINGFACE_TOKEN"))  # Or paste your token: "hf_xxx"
+# ————————————————
 class AIDoctor:
+    def __init__(self, model_id="meta-llama/Llama-3.2-11B-Vision-Instruct"):
         self.device = "cpu"
+        print(f"🔧 Running on device: {self.device}")
+        # Load vision+language model with gated access
+        self.processor = AutoProcessor.from_pretrained(model_id, trust_remote_code=True)
+        self.model = MllamaForConditionalGeneration.from_pretrained(
+            model_id,
             torch_dtype=torch.float32,
             trust_remote_code=True
         ).to(self.device)
+        # Speech-to-text
         self.stt = pipeline("automatic-speech-recognition", model="openai/whisper-tiny", device=-1)
     def analyze(self, image, question):
         if image is None:
+            return "❗ Please upload a medical image."
+        prompt = question.strip() or "Analyze this medical image and share any abnormalities."
+        inputs = self.processor(
+            images=image, text=prompt, return_tensors="pt"
+        ).to(self.device)
+        outputs = self.model.generate(**inputs, max_new_tokens=200, temperature=0.7)
+        return self.processor.decode(outputs[0], skip_special_tokens=True).strip()
     def tts(self, text):
         tts = gTTS(text=text, lang="en")
+        tmp = tempfile.NamedTemporaryFile(delete=False, suffix=".mp3").name
+        tts.save(tmp)
+        return tmp
     def respond(self, image, audio, text):
+        question = text.strip()
         if audio:
+            res = self.stt(audio)
+            q = res.get("text", "").strip() if isinstance(res, dict) else str(res).strip()
+            if q:
+                question = q
+        resp = self.analyze(image, question)
         voice = self.tts(resp)
+        return resp, voice, question
+# Initialize model
 doctor = AIDoctor()
+# ————————————————
+with gr.Blocks(title="🏥 AI Doctor with Llama 3.2 Vision") as demo:
+    gr.Markdown("## AI Doctor — Vision + Voice powered by Llama 3.2‑Vision‑Instruct")
     with gr.Row():
+        img_in = gr.Image(label="Upload Medical Image", type="pil")
+        aud_in = gr.Audio(label="Ask by Voice", type="filepath")
+    txt_in = gr.Textbox(label="Ask by Text", lines=2)
     resp_out = gr.Textbox(label="AI Response", lines=10)
     aud_out = gr.Audio(label="AI Speaks", type="filepath")
+    q_out = gr.Textbox(label="Processed Question", lines=1)
+    btn = gr.Button("Ask AI Doctor")
+    btn.click(fn=doctor.respond,
+              inputs=[img_in, aud_in, txt_in],
               outputs=[resp_out, aud_out, q_out])
 demo.launch()