Spaces:

fdaudens
/

EmbeddingGemma-Wikipedia

Runtime error

App Files Files Community

fdaudens commited on Sep 6

Commit

df910d2

verified ·

1 Parent(s): aa877c7

Update app.py

Browse files

Files changed (1) hide show

app.py +0 -45

app.py CHANGED Viewed

@@ -99,39 +99,6 @@ def do_similarity(text_a: str, text_b: str, dims: int = DEFAULT_DIMS) -> float:
     b = model.encode_document([text_b], normalize_embeddings=True, convert_to_numpy=True)[0][:dims]
     return float(np.dot(a, b))
-# Extractive summarization using EmbeddingGemma's Summarization prompt
-def _split_sents(text: str):
-    parts = re.split(r"(?<=[\.!?])\s+", text.strip())
-    return [p.strip() for p in parts if p.strip()]
-def summarize_extractive(text: str, n: int, dims: int, lambda_diversity: float = 0.7) -> str:
-    sents = _split_sents(text)
-    if not sents:
-        return ""
-    embs = model.encode(
-        sents,
-        prompt_name="Summarization",
-        normalize_embeddings=True,
-        convert_to_numpy=True,
-        batch_size=128,
-    )[:, :dims]
-    centroid = embs.mean(axis=0)
-    base = embs @ centroid
-    picked = []
-    for _ in range(min(n, len(sents))):
-        if not picked:
-            i = int(np.argmax(base))
-        else:
-            sim_to_sel = np.max(embs[picked] @ embs.T, axis=0)
-            mmr = (1 - lambda_diversity) * base + lambda_diversity * (1 - sim_to_sel)
-            i = int(np.argmax(mmr))
-        picked.append(i)
-        base[i] = -1e9
-    # keep original order
-    ordered = [s for _, s in sorted(zip(picked, [sents[i] for i in picked]))]
-    return " ".join(ordered)
 # ---------- Gradio UI ----------
 with gr.Blocks(title="EmbeddingGemma × Wikipedia (EN corpus)") as demo:
     gr.Markdown(
@@ -144,7 +111,6 @@ with gr.Blocks(title="EmbeddingGemma × Wikipedia (EN corpus)") as demo:
     - **Semantic search** (English queries)
     - **Cross-lingual search** (queries in other languages → English articles)
     - **Sentence similarity** (compare two texts)
-    - **Extractive summarization** (highlight key sentences from long text)
     🔗 Learn more in the [EmbeddingGemma blog post](https://huggingface.co/blog/embeddinggemma).
     """
@@ -182,16 +148,5 @@ with gr.Blocks(title="EmbeddingGemma × Wikipedia (EN corpus)") as demo:
             sim_out = gr.Number(label="Cosine similarity (-1..1)")
             sim_btn.click(lambda x, y, d: do_similarity(x, y, int(d)), [a, b, dims2], sim_out)
-        # 4) Summarization (extractive)
-        with gr.TabItem("Summarization"):
-            gr.Markdown("**Extractive summarization** using EmbeddingGemma's `Summarization` prompt. Paste any long text.")
-            with gr.Row():
-                sum_dims = gr.Dropdown([str(d) for d in MATRYOSHKA_DIMS], value=str(DEFAULT_DIMS), label="Embedding dims")
-                sum_n = gr.Slider(1, 10, value=5, step=1, label="Sentences in summary")
-            sum_text = gr.Textbox(lines=12, label="Text to summarize", value="Paste a Wikipedia article (or any text) here…")
-            sum_btn = gr.Button("Summarize")
-            sum_out = gr.Textbox(lines=10, label="Summary")
-            sum_btn.click(lambda t, n, d: summarize_extractive(t, int(n), int(d)), [sum_text, sum_n, sum_dims], sum_out)
 if __name__ == "__main__":
     demo.launch(server_name="0.0.0.0", server_port=7860)

     b = model.encode_document([text_b], normalize_embeddings=True, convert_to_numpy=True)[0][:dims]
     return float(np.dot(a, b))
 # ---------- Gradio UI ----------
 with gr.Blocks(title="EmbeddingGemma × Wikipedia (EN corpus)") as demo:
     gr.Markdown(
     - **Semantic search** (English queries)
     - **Cross-lingual search** (queries in other languages → English articles)
     - **Sentence similarity** (compare two texts)
     🔗 Learn more in the [EmbeddingGemma blog post](https://huggingface.co/blog/embeddinggemma).
     """
             sim_out = gr.Number(label="Cosine similarity (-1..1)")
             sim_btn.click(lambda x, y, d: do_similarity(x, y, int(d)), [a, b, dims2], sim_out)
 if __name__ == "__main__":
     demo.launch(server_name="0.0.0.0", server_port=7860)