Spaces:

wilwork
/

KC

Sleeping

App Files Files Community

wilwork commited on Mar 3

Commit

ab10c56

verified ·

1 Parent(s): 2a8e08c

Update app.py

Browse files

Files changed (1) hide show

app.py +20 -27

app.py CHANGED Viewed

@@ -7,46 +7,39 @@ import torch
 model = AutoModel.from_pretrained('jinaai/jina-clip-v1', trust_remote_code=True)
 def compute_similarity(input1_type, input1_text, input1_image, input2_type, input2_text, input2_image):
-    """
-    Computes similarity between:
-    - Text-Text
-    - Image-Image
-    - Text-Image & Image-Text
-    """
-    # Validate inputs
     if input1_type == "Text" and not input1_text.strip():
-        return "Error: Input 1 is empty!"
     if input1_type == "Image" and (input1_image is None or isinstance(input1_image, bool)):
-        return "Error: Please upload an image for Input 1!"
     if input2_type == "Text" and not input2_text.strip():
-        return "Error: Input 2 is empty!"
     if input2_type == "Image" and (input2_image is None or isinstance(input2_image, bool)):
-        return "Error: Please upload an image for Input 2!"
     try:
         with torch.no_grad():
             if input1_type == "Text" and input2_type == "Text":
-                # Text-Text Similarity
                 emb1 = model.encode_text([input1_text])
                 emb2 = model.encode_text([input2_text])
             elif input1_type == "Image" and input2_type == "Image":
-                # Image-Image Similarity
-                emb1 = model.encode_image([Image.fromarray(input1_image)])
-                emb2 = model.encode_image([Image.fromarray(input2_image)])
             else:
-                # Image-Text Similarity (either order)
                 if input1_type == "Image":
-                    emb1 = model.encode_image([Image.fromarray(input1_image)])
                     emb2 = model.encode_text([input2_text])
                 else:
                     emb1 = model.encode_text([input1_text])
-                    emb2 = model.encode_image([Image.fromarray(input2_image)])
-            # Compute cosine similarity
-            similarity_score = (emb1 @ emb2.T).item()
         return similarity_score
     except Exception as e:
@@ -55,7 +48,7 @@ def compute_similarity(input1_type, input1_text, input1_image, input2_type, inpu
 # Gradio UI
 with gr.Blocks() as demo:
     gr.Markdown("# JinaAI CLIP Multimodal Similarity")
-    gr.Markdown("Compare similarity between **Text-Text, Image-Image, or Image-Text**.")
     with gr.Row():
         input1_type = gr.Radio(["Text", "Image"], label="Input 1 Type", value="Text")
@@ -71,10 +64,10 @@ with gr.Blocks() as demo:
     def update_visibility(input1_type, input2_type):
         return (
-            input1_type == "Text",  # Input 1 text visible
-            input1_type == "Image", # Input 1 image visible
-            input2_type == "Text",  # Input 2 text visible
-            input2_type == "Image"  # Input 2 image visible
         )
     input1_type.change(update_visibility, inputs=[input1_type, input2_type], outputs=[input1_text, input1_image, input2_text, input2_image])
@@ -83,4 +76,4 @@ with gr.Blocks() as demo:
     compute_button = gr.Button("Compute Similarity")
     compute_button.click(compute_similarity, inputs=[input1_type, input1_text, input1_image, input2_type, input2_text, input2_image], outputs=output)
-demo.launch()

 model = AutoModel.from_pretrained('jinaai/jina-clip-v1', trust_remote_code=True)
 def compute_similarity(input1_type, input1_text, input1_image, input2_type, input2_text, input2_image):
+    """Computes similarity for Text-Text, Image-Image, or Text-Image comparisons."""
+    # Handle empty inputs properly
     if input1_type == "Text" and not input1_text.strip():
+        return "Error: Input 1 (Text) is empty!"
     if input1_type == "Image" and (input1_image is None or isinstance(input1_image, bool)):
+        return "Error: Please upload a valid image for Input 1!"
     if input2_type == "Text" and not input2_text.strip():
+        return "Error: Input 2 (Text) is empty!"
     if input2_type == "Image" and (input2_image is None or isinstance(input2_image, bool)):
+        return "Error: Please upload a valid image for Input 2!"
     try:
         with torch.no_grad():
             if input1_type == "Text" and input2_type == "Text":
                 emb1 = model.encode_text([input1_text])
                 emb2 = model.encode_text([input2_text])
             elif input1_type == "Image" and input2_type == "Image":
+                emb1 = model.encode_image([Image.fromarray(input1_image)]) if input1_image is not None else None
+                emb2 = model.encode_image([Image.fromarray(input2_image)]) if input2_image is not None else None
             else:
                 if input1_type == "Image":
+                    emb1 = model.encode_image([Image.fromarray(input1_image)]) if input1_image is not None else None
                     emb2 = model.encode_text([input2_text])
                 else:
                     emb1 = model.encode_text([input1_text])
+                    emb2 = model.encode_image([Image.fromarray(input2_image)]) if input2_image is not None else None
+            if emb1 is None or emb2 is None:
+                return "Error: Failed to process one or both inputs."
+            similarity_score = (emb1 @ emb2.T).item()
         return similarity_score
     except Exception as e:
 # Gradio UI
 with gr.Blocks() as demo:
     gr.Markdown("# JinaAI CLIP Multimodal Similarity")
+    gr.Markdown("Compare **Text-Text, Image-Image, or Text-Image** similarity.")
     with gr.Row():
         input1_type = gr.Radio(["Text", "Image"], label="Input 1 Type", value="Text")
     def update_visibility(input1_type, input2_type):
         return (
+            input1_type == "Text",  # Show text input 1
+            input1_type == "Image", # Show image input 1
+            input2_type == "Text",  # Show text input 2
+            input2_type == "Image"  # Show image input 2
         )
     input1_type.change(update_visibility, inputs=[input1_type, input2_type], outputs=[input1_text, input1_image, input2_text, input2_image])
     compute_button = gr.Button("Compute Similarity")
     compute_button.click(compute_similarity, inputs=[input1_type, input1_text, input1_image, input2_type, input2_text, input2_image], outputs=output)
+demo.launch()