vectorsearch-hub-datasets

Sleeping

pszemraj commited on Jan 17

Commit

f860236

verified ·

1 Parent(s): 2ccef2f

improve inference

Files changed (1) hide show

app.py CHANGED Viewed

@@ -11,7 +11,11 @@ global df
 # Load the static embeddings model from HuggingFace hub
 model_name = "sentence-transformers/static-retrieval-mrl-en-v1"
-model = SentenceTransformer(model_name, device="cpu")
 def get_iframe(hub_repo_id):
@@ -58,7 +62,7 @@ def vectorize_dataset(hub_repo_id: str, split: str, column: str):
     gr.Info("Vectorizing dataset...")
     ds = load_dataset(hub_repo_id)
     df = ds[split].to_polars()
-    embeddings = model.encode(df[column].cast(str).to_list(), show_progress_bar=True)
     return embeddings

 # Load the static embeddings model from HuggingFace hub
 model_name = "sentence-transformers/static-retrieval-mrl-en-v1"
+model = SentenceTransformer(
+    model_name,
+    device="cpu",
+    tokenizer_kwargs={"model_max_length": 512},
+)
 def get_iframe(hub_repo_id):
     gr.Info("Vectorizing dataset...")
     ds = load_dataset(hub_repo_id)
     df = ds[split].to_polars()
+    embeddings = model.encode(df[column].cast(str), show_progress_bar=True, batch_size=128)
     return embeddings