idiom-finder

Sleeping

App Files Files Community

Mel Seto commited on 17 days ago

Commit

73d6bd0

unverified ·

2 Parent(s): 80dc191 f04a87b

Merge pull request #3 from mel-seto/remove-rag

Browse files

Files changed (5) hide show

src/app.py +5 -29
src/retrieval/__init__.py +0 -0
src/retrieval/constants.py +0 -1
src/retrieval/embed_corpus.py +0 -26
src/retrieval/retriever.py +0 -51

src/app.py CHANGED Viewed

@@ -103,30 +103,11 @@ Answer:"""
 # ======================
 # UI Wrapper
 # ======================
-def update_ui(situation, mode):
-    if mode == "RAG":
-        top_idioms = retrieve_idiom(situation, top_k=2)
-        formatted_idioms = []
-        for idiom_entry in top_idioms:
-            # Split "<Chinese>: <English>" format
-            if ": " in idiom_entry:
-                chinese, english = idiom_entry.split(": ", 1)
-            else:
-                chinese, english = idiom_entry, ""
-            pinyin_text = get_pinyin(chinese)
-            formatted_idioms.append(f"<div class='idiom-entry'><b>{chinese}</b><br>{pinyin_text}<br>{english}</div>")
-        # Combine all entries with horizontal separators
-        idiom = "<hr>".join(formatted_idioms)
-        explanation = "Retrieved using embeddings (RAG)."
-    elif mode == "LLM":
-        if USE_MOCK:
-            idiom, explanation = generate_idiom_mock()
-        else:
-            idiom, explanation = generate_idiom(situation)
     else:
-        idiom = "Unknown mode"
-        explanation = ""
     return (
         f"<div class='idiom-output'>{idiom}</div>",
@@ -148,11 +129,6 @@ def launch_app():
                     lines=2,
                     placeholder="e.g., When facing a big challenge",
                 )
-                mode_dropdown = gr.Dropdown(
-                    ["LLM", "RAG"],
-                    label="Mode",
-                    value="RAG",
-                )
                 generate_btn = gr.Button("✨ Find Idiom")
                 # ✅ Example situations
@@ -174,7 +150,7 @@ def launch_app():
         # pylint: disable=no-member
         generate_btn.click(
             fn=update_ui,
-            inputs=[situation, mode_dropdown],
             outputs=[idiom_output, explanation_output],
         )

 # ======================
 # UI Wrapper
 # ======================
+def update_ui(situation):
+    if USE_MOCK:
+        idiom, explanation = generate_idiom_mock()
     else:
+        idiom, explanation = generate_idiom(situation)
     return (
         f"<div class='idiom-output'>{idiom}</div>",
                     lines=2,
                     placeholder="e.g., When facing a big challenge",
                 )
                 generate_btn = gr.Button("✨ Find Idiom")
                 # ✅ Example situations
         # pylint: disable=no-member
         generate_btn.click(
             fn=update_ui,
+            inputs=[situation],
             outputs=[idiom_output, explanation_output],
         )

src/retrieval/__init__.py DELETED Viewed

File without changes

src/retrieval/constants.py DELETED Viewed

	@@ -1 +0,0 @@
1	- EMBEDDING_MODEL = "intfloat/multilingual-e5-small"

src/retrieval/embed_corpus.py DELETED Viewed

@@ -1,26 +0,0 @@
-"""
-This script needs to be re-run each time EMBEDDING_MODEL is updated.
-"""
-import json
-import numpy as np
-from sentence_transformers import SentenceTransformer
-from constants import EMBEDDING_MODEL
-INPUT_FILE = "data/idioms-and-definitions.json"
-EMBED_FILE = "data/idiom_embeddings.npy"
-embedder = SentenceTransformer(EMBEDDING_MODEL)
-# Load idioms
-with open(INPUT_FILE, "r", encoding="utf-8") as f:
-    corpus = json.load(f)
-# Compute embeddings
-embeddings = embedder.encode(corpus, convert_to_tensor=False, show_progress_bar=True)
-# Save to disk
-np.save(EMBED_FILE, embeddings)

src/retrieval/retriever.py DELETED Viewed

@@ -1,51 +0,0 @@
-import json
-import numpy as np
-import requests
-from sentence_transformers import SentenceTransformer
-import os
-from .constants import EMBEDDING_MODEL
-# HF Dataset URL for the embeddings
-EMBED_URL = "https://huggingface.co/datasets/chinese-enthusiasts/idiom-embeddings/resolve/main/idiom_embeddings.npy"
-JSON_URL = "https://huggingface.co/datasets/chinese-enthusiasts/idiom-definitions/resolve/main/idioms-and-definitions.json"
-# Ensure 'data/' exists
-os.makedirs("data", exist_ok=True)
-EMBED_FILE = "data/idiom_embeddings.npy"
-JSON_FILE = "data/idioms-and-definitions.json"
-# Download embeddings if not present
-if not os.path.exists(EMBED_FILE):
-    print("Downloading embeddings...")
-    r = requests.get(EMBED_URL)
-    with open(EMBED_FILE, "wb") as f:
-        f.write(r.content)
-    print("Done.")
-# Download idioms JSON if not present
-if not os.path.exists(JSON_FILE):
-    print("Downloading idioms JSON...")
-    r = requests.get(JSON_URL)
-    with open(JSON_FILE, "wb") as f:
-        f.write(r.content)
-    print("Done.")
-# Load embeddings
-corpus_embeddings = np.load(EMBED_FILE)
-# Load idioms
-with open(JSON_FILE, "r", encoding="utf-8") as f:
-    corpus = json.load(f)
-# Initialize embedder
-embedder = SentenceTransformer(EMBEDDING_MODEL)
-def retrieve_idiom(situation: str, top_k=5):
-    query_emb = embedder.encode([situation], convert_to_tensor=False)
-    similarities = np.dot(corpus_embeddings, query_emb[0]) / (
-        np.linalg.norm(corpus_embeddings, axis=1) * np.linalg.norm(query_emb[0])
-    )
-    top_idx = np.argsort(similarities)[::-1][:top_k]
-    return [corpus[i] for i in top_idx]