Spaces:

riteshkokam
/

MedAI

Runtime error

App Files Files Community

riteshkokam commited on Jun 17

Commit

f7b537d

verified ·

1 Parent(s): ab6adaa

Update app.py

Browse files

Files changed (1) hide show

app.py +29 -50

app.py CHANGED Viewed

@@ -1,79 +1,58 @@
 import os
 import gradio as gr
 import torch
-from transformers import AutoProcessor, MllamaForConditionalGeneration, pipeline
-from huggingface_hub import login
 from gtts import gTTS
 import tempfile
-from PIL import Image
-# ————————————————
-# 💡 STEP 0: AUTHENTICATE WITH HF
-login(token=os.getenv("HUGGINGFACE_TOKEN"))  # Or paste your token: "hf_xxx"
-# ————————————————
 class AIDoctor:
-    def __init__(self, model_id="meta-llama/Llama-3.2-11B-Vision-Instruct"):
         self.device = "cpu"
-        print(f"🔧 Running on device: {self.device}")
-        # Load vision+language model with gated access
-        self.processor = AutoProcessor.from_pretrained(model_id, trust_remote_code=True)
-        self.model = MllamaForConditionalGeneration.from_pretrained(
             model_id,
             torch_dtype=torch.float32,
             trust_remote_code=True
         ).to(self.device)
-        # Speech-to-text
         self.stt = pipeline("automatic-speech-recognition", model="openai/whisper-tiny", device=-1)
     def analyze(self, image, question):
         if image is None:
-            return "❗ Please upload a medical image."
-        prompt = question.strip() or "Analyze this medical image and share any abnormalities."
-        inputs = self.processor(
-            images=image, text=prompt, return_tensors="pt"
-        ).to(self.device)
-        outputs = self.model.generate(**inputs, max_new_tokens=200, temperature=0.7)
-        return self.processor.decode(outputs[0], skip_special_tokens=True).strip()
     def tts(self, text):
         tts = gTTS(text=text, lang="en")
-        tmp = tempfile.NamedTemporaryFile(delete=False, suffix=".mp3").name
-        tts.save(tmp)
-        return tmp
     def respond(self, image, audio, text):
-        question = text.strip()
         if audio:
             res = self.stt(audio)
-            q = res.get("text", "").strip() if isinstance(res, dict) else str(res).strip()
-            if q:
-                question = q
-        resp = self.analyze(image, question)
         voice = self.tts(resp)
-        return resp, voice, question
-# Initialize model
 doctor = AIDoctor()
-# ————————————————
-with gr.Blocks(title="🏥 AI Doctor with Llama 3.2 Vision") as demo:
-    gr.Markdown("## AI Doctor — Vision + Voice powered by Llama 3.2‑Vision‑Instruct")
     with gr.Row():
-        img_in = gr.Image(label="Upload Medical Image", type="pil")
-        aud_in = gr.Audio(label="Ask by Voice", type="filepath")
-    txt_in = gr.Textbox(label="Ask by Text", lines=2)
-    resp_out = gr.Textbox(label="AI Response", lines=10)
-    aud_out = gr.Audio(label="AI Speaks", type="filepath")
-    q_out = gr.Textbox(label="Processed Question", lines=1)
-    btn = gr.Button("Ask AI Doctor")
-    btn.click(fn=doctor.respond,
-              inputs=[img_in, aud_in, txt_in],
-              outputs=[resp_out, aud_out, q_out])
 demo.launch()

 import os
 import gradio as gr
 import torch
+from transformers import AutoProcessor, Qwen2_5_VLForConditionalGeneration
+from transformers import pipeline
 from gtts import gTTS
 import tempfile
 class AIDoctor:
+    def __init__(self, model_id="Qwen/Qwen2.5-VL-7B-Instruct-quantized.w8a8"):
         self.device = "cpu"
+        print("🚀 Using device:", self.device)
+        self.proc = AutoProcessor.from_pretrained(model_id, trust_remote_code=True)
+        self.model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
             model_id,
             torch_dtype=torch.float32,
             trust_remote_code=True
         ).to(self.device)
         self.stt = pipeline("automatic-speech-recognition", model="openai/whisper-tiny", device=-1)
     def analyze(self, image, question):
         if image is None:
+            return "Please upload a medical image."
+        prompt = question.strip() or "Analyze this medical image for abnormalities."
+        inputs = self.proc(images=image, text=prompt, return_tensors="pt").to(self.device)
+        out = self.model.generate(**inputs, max_new_tokens=150, temperature=0.7)
+        return self.proc.decode(out[0], skip_special_tokens=True).strip()
     def tts(self, text):
         tts = gTTS(text=text, lang="en")
+        path = tempfile.NamedTemporaryFile(delete=False, suffix=".mp3").name
+        tts.save(path)
+        return path
     def respond(self, image, audio, text):
+        q = text.strip()
         if audio:
             res = self.stt(audio)
+            q_trans = res.get("text", "").strip() if isinstance(res, dict) else str(res)
+            if q_trans: q = q_trans
+        resp = self.analyze(image, q)
         voice = self.tts(resp)
+        return resp, voice, q
 doctor = AIDoctor()
+with gr.Blocks(title="AI Doctor (Qwen 2.5‑VL‑7B INT8)") as demo:
+    gr.Markdown("### AI Doctor with Qwen 2.5‑VL‑7B (quantized INT8)")
     with gr.Row():
+        img = gr.Image(label="Upload medical image", type="pil")
+        aud = gr.Audio(label="Ask by voice", type="filepath")
+    txt = gr.Textbox(label="Ask by text", lines=2)
+    out_txt = gr.Textbox(label="AI Response", lines=10)
+    out_aud = gr.Audio(label="AI Speaks", type="filepath")
+    q_out = gr.Textbox(label="Processed question", lines=1)
+    btn = gr.Button("Ask Doctor")
+    btn.click(fn=doctor.respond, inputs=[img, aud, txt], outputs=[out_txt, out_aud, q_out])
 demo.launch()