Spaces:

LiquidAI
/

LFM2-ColBERT

Running

App Files Files Community

mlabonne commited on 16 days ago

Commit

525a58f

verified ·

1 Parent(s): 5bcb7c0

Update app.py

Browse files

Files changed (1) hide show

app.py +11 -16

app.py CHANGED Viewed

@@ -9,7 +9,6 @@ import gradio as gr
 from pylate import indexes, models, retrieve
 from documents import MULTILINGUAL_DOCUMENTS
-# Configure logging
 logging.basicConfig(
     level=logging.INFO,
     format="%(asctime)s - %(name)s - %(levelname)s - %(message)s"
@@ -26,14 +25,13 @@ class CrossLingualRetriever:
         self.model = models.ColBERT(model_name_or_path=model_name)
-        # Set padding token if not present
-        if self.model.tokenizer.pad_token is None and hasattr(self.model.tokenizer, "eos_token"):
-            self.model.tokenizer.pad_token = self.model.tokenizer.eos_token
         # Initialize PLAID index
         self.index = indexes.PLAID(
             index_folder="pylate-index",
-            index_name="cross_lingual_index",
             override=True,
         )
@@ -163,24 +161,22 @@ def search_documents(query: str, top_k: int) -> Tuple[str, str]:
 # Example queries in different languages
 EXAMPLE_QUERIES = [
-    ["What is artificial intelligence?", 5],
-    ["¿Qué es el cambio climático?", 5],
-    ["양자 컴퓨팅이란 무엇인가요?", 5],
     ["ما هي الصحة النفسية؟", 5],
-    ["量子计算是什么？", 5],
 ]
 # Build Gradio interface
-with gr.Blocks(title="Cross-Lingual Retrieval Demo", theme=gr.themes.Soft()) as demo:
     gr.Markdown(
         """
         # 🌍 Cross-Lingual Document Retrieval
         ### Powered by [LiquidAI/LFM2-ColBERT-350M](https://huggingface.co/LiquidAI/LFM2-ColBERT-350M)
-        Search for documents in any language using queries in any language!
-        The model finds semantically similar documents regardless of the language mismatch.
         **Supported Languages:** English, Arabic, Chinese, French, German, Japanese, Korean, and Spanish
         """
@@ -196,7 +192,7 @@ with gr.Blocks(title="Cross-Lingual Retrieval Demo", theme=gr.themes.Soft()) as
             top_k_slider = gr.Slider(
                 minimum=1,
-                maximum=10,
                 value=5,
                 step=1,
                 label="Number of results to retrieve",
@@ -244,7 +240,7 @@ with gr.Blocks(title="Cross-Lingual Retrieval Demo", theme=gr.themes.Soft()) as
     )
     # Examples section
-    gr.Markdown("### 💡 Try these example queries:")
     gr.Examples(
         examples=EXAMPLE_QUERIES,
         inputs=[query_input, top_k_slider],
@@ -255,7 +251,6 @@ with gr.Blocks(title="Cross-Lingual Retrieval Demo", theme=gr.themes.Soft()) as
     gr.Markdown(
         """
-        ---
         **How it works:** This demo uses the LiquidAI LFM2-ColBERT-350M model with late interaction retrieval.
         The model encodes both queries and documents into token-level embeddings, enabling fine-grained matching
         across languages with high speed and accuracy.

 from pylate import indexes, models, retrieve
 from documents import MULTILINGUAL_DOCUMENTS
 logging.basicConfig(
     level=logging.INFO,
     format="%(asctime)s - %(name)s - %(levelname)s - %(message)s"
         self.model = models.ColBERT(model_name_or_path=model_name)
+        # Set padding token
+        self.model.tokenizer.pad_token = self.model.tokenizer.eos_token
         # Initialize PLAID index
         self.index = indexes.PLAID(
             index_folder="pylate-index",
+            index_name="index",
             override=True,
         )
 # Example queries in different languages
 EXAMPLE_QUERIES = [
+    ["What is artificial intelligence?", 8],
+    ["¿Qué es el cambio climático?", 4],
+    ["양자 컴퓨팅이란 무엇인가요?", 6],
     ["ما هي الصحة النفسية؟", 5],
+    ["量子计算是什么？", 8],
 ]
 # Build Gradio interface
+with gr.Blocks(title="Cross-Lingual Retrieval Demo", theme=gr.themes.Soft(primary_hue="purple")) as demo:
     gr.Markdown(
         """
         # 🌍 Cross-Lingual Document Retrieval
         ### Powered by [LiquidAI/LFM2-ColBERT-350M](https://huggingface.co/LiquidAI/LFM2-ColBERT-350M)
+        Find semantically similar documents across different languages.
         **Supported Languages:** English, Arabic, Chinese, French, German, Japanese, Korean, and Spanish
         """
             top_k_slider = gr.Slider(
                 minimum=1,
+                maximum=12,
                 value=5,
                 step=1,
                 label="Number of results to retrieve",
     )
     # Examples section
+    gr.Markdown("### 💡 Example queries:")
     gr.Examples(
         examples=EXAMPLE_QUERIES,
         inputs=[query_input, top_k_slider],
     gr.Markdown(
         """
         **How it works:** This demo uses the LiquidAI LFM2-ColBERT-350M model with late interaction retrieval.
         The model encodes both queries and documents into token-level embeddings, enabling fine-grained matching
         across languages with high speed and accuracy.