restapitrial_vectordb

Sleeping

Redmind commited on Feb 14

Commit

313edde

verified ·

1 Parent(s): c2710ab

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -90,22 +90,28 @@ def extract_images_from_pptx(pptx_path):
 def get_text_embedding(text):
     return text_model.encode(text).tolist()
-# Extract Image Embeddings and Reduce to 384 Dimensions
 def get_image_embedding(image_path):
     try:
         image = Image.open(image_path)
         inputs = processor(images=image, return_tensors="pt")
         with torch.no_grad():
             image_embedding = model.get_image_features(**inputs).numpy().flatten()
-        # Ensure embedding is 384-dimensional
         if len(image_embedding) != 384:
-            pca = PCA(n_components=384)
             image_embedding = pca.fit_transform(image_embedding.reshape(1, -1)).flatten()
         return image_embedding.tolist()
     except Exception as e:
-        print(f"Error generating image embedding: {e}")
         return None
 # Store Data in ChromaDB

 def get_text_embedding(text):
     return text_model.encode(text).tolist()
+# Preload PCA instance globally (to maintain consistency across calls)
+pca = PCA(n_components=384)
 def get_image_embedding(image_path):
     try:
+        # Load the image
         image = Image.open(image_path)
         inputs = processor(images=image, return_tensors="pt")
+        # Extract image embeddings
         with torch.no_grad():
             image_embedding = model.get_image_features(**inputs).numpy().flatten()
+        # Check if the embedding dimension is already 384
         if len(image_embedding) != 384:
+            # Ensure PCA transformation gets the correct shape
             image_embedding = pca.fit_transform(image_embedding.reshape(1, -1)).flatten()
         return image_embedding.tolist()
     except Exception as e:
+        print(f"❌ Error generating image embedding: {e}")
         return None
 # Store Data in ChromaDB