restapitrial_vectordb

Sleeping

Redmind commited on Feb 13

Commit

6bbcff4

verified ·

1 Parent(s): a244d5b

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,6 +1,6 @@
 from fastapi import FastAPI
 import os
-import fitz  # pymupdf
 from pptx import Presentation  # PowerPoint
 from sentence_transformers import SentenceTransformer  # Text embeddings
 import torch
@@ -29,7 +29,7 @@ os.makedirs(IMAGE_FOLDER, exist_ok=True)
 # Extract text from PDF
 def extract_text_from_pdf(pdf_path):
-    return " ".join([page.get_text() for page in fitz.open(pdf_path)]).strip()
 # Extract text from PowerPoint
 def extract_text_from_pptx(pptx_path):
@@ -38,7 +38,7 @@ def extract_text_from_pptx(pptx_path):
 # Extract images from PDF
 def extract_images_from_pdf(pdf_path):
     images = []
-    doc = fitz.open(pdf_path)
     for i, page in enumerate(doc):
         for img_index, img in enumerate(page.get_images(full=True)):
             xref = img[0]

 from fastapi import FastAPI
 import os
+import pymupdf
 from pptx import Presentation  # PowerPoint
 from sentence_transformers import SentenceTransformer  # Text embeddings
 import torch
 # Extract text from PDF
 def extract_text_from_pdf(pdf_path):
+    return " ".join([page.get_text() for page in pymupdf.open(pdf_path)]).strip()
 # Extract text from PowerPoint
 def extract_text_from_pptx(pptx_path):
 # Extract images from PDF
 def extract_images_from_pdf(pdf_path):
     images = []
+    doc = pymupdf.open(pdf_path)
     for i, page in enumerate(doc):
         for img_index, img in enumerate(page.get_images(full=True)):
             xref = img[0]