Spaces:

ikraamkb
/

qtAnswering

Sleeping

App Files Files Community

ikraamkb commited on Mar 26

Commit

254a090

verified ·

1 Parent(s): 84d9e96

Update app.py

Browse files

Files changed (1) hide show

app.py +11 -14

app.py CHANGED Viewed

@@ -4,23 +4,21 @@ from tika import parser  # Apache Tika for document parsing
 import openpyxl
 from pptx import Presentation
 import torch
-from PIL import Image
 from transformers import pipeline
 import gradio as gr
 import numpy as np
-import easyocr
-# Initialize FastAPI (not needed for HF Spaces, but kept for flexibility)
 app = FastAPI()
 print(f"🔄 Loading models")
 doc_qa_pipeline = pipeline("text-generation", model="TinyLlama/TinyLlama-1.1B-Chat-v1.0", device=-1)
-image_captioning_pipeline = pipeline("image-to-text", model="nlpconnect/vit-gpt2-image-captioning")
-print("✅ Models loaded")
-# Initialize OCR Model (CPU Mode)
-reader = easyocr.Reader(["en"], gpu=False)
 # Allowed File Extensions
 ALLOWED_EXTENSIONS = {"pdf", "docx", "pptx", "xlsx"}
@@ -69,6 +67,7 @@ def extract_text_from_excel(excel_bytes):
     except Exception as e:
         return f"❌ Error reading Excel: {str(e)}"
 def answer_question_from_document(file: UploadFile, question: str):
     print("📂 Processing document for QA...")
     validation_error = validate_file_type(file)
@@ -96,19 +95,17 @@ def answer_question_from_document(file: UploadFile, question: str):
     return response[0]["generated_text"]
 def answer_question_from_image(image, question):
     try:
         print("🖼️ Processing image for QA...")
         if isinstance(image, np.ndarray):  # If it's a NumPy array from Gradio
             image = Image.fromarray(image)  # Convert to PIL Image
-        print("🖼️ Generating caption for image...")
-        caption = image_captioning_pipeline(image)[0]['generated_text']
-        print("🤖 Answering question based on caption...")
-        response = doc_qa_pipeline(f"Question: {question}\nContext: {caption}")
-        return response[0]["generated_text"]
     except Exception as e:
         return f"❌ Error processing image: {str(e)}"
@@ -124,7 +121,7 @@ img_interface = gr.Interface(
     fn=answer_question_from_image,
     inputs=[gr.Image(label="🖼️ Upload Image"), gr.Textbox(label="💬 Ask a Question")],
     outputs="text",
-    title="🖼️ AI Image Question Answering"
 )
 # Launch Gradio

 import openpyxl
 from pptx import Presentation
 import torch
 from transformers import pipeline
 import gradio as gr
+from PIL import Image
 import numpy as np
+# Initialize FastAPI (not needed for HF Spaces but kept for flexibility)
 app = FastAPI()
 print(f"🔄 Loading models")
+# Load Hugging Face Models
 doc_qa_pipeline = pipeline("text-generation", model="TinyLlama/TinyLlama-1.1B-Chat-v1.0", device=-1)
+vqa_pipeline = pipeline("vqa", model="Salesforce/blip-vqa-base")  # VQA model for images
+print("✅ Models loaded")
 # Allowed File Extensions
 ALLOWED_EXTENSIONS = {"pdf", "docx", "pptx", "xlsx"}
     except Exception as e:
         return f"❌ Error reading Excel: {str(e)}"
+# Function to process documents and answer questions
 def answer_question_from_document(file: UploadFile, question: str):
     print("📂 Processing document for QA...")
     validation_error = validate_file_type(file)
     return response[0]["generated_text"]
+# Function to process images and answer questions (NO OCR)
 def answer_question_from_image(image, question):
     try:
         print("🖼️ Processing image for QA...")
         if isinstance(image, np.ndarray):  # If it's a NumPy array from Gradio
             image = Image.fromarray(image)  # Convert to PIL Image
+        print("🤖 Answering question based on image content...")
+        response = vqa_pipeline(image=image, question=question)
+        return response[0]["answer"]
     except Exception as e:
         return f"❌ Error processing image: {str(e)}"
     fn=answer_question_from_image,
     inputs=[gr.Image(label="🖼️ Upload Image"), gr.Textbox(label="💬 Ask a Question")],
     outputs="text",
+    title="🖼️ AI Image Question Answering (NO OCR)"
 )
 # Launch Gradio