Spaces:

RishiRP
/

Talk2TaskDemo1

Sleeping

App Files Files Community

RishiRP commited on Sep 26

Commit

7a1eb70

verified ·

1 Parent(s): ef109ff

Update app.py

Browse files

Files changed (1) hide show

app.py +69 -12

app.py CHANGED Viewed

@@ -25,7 +25,10 @@ from transformers import (
 SPACE_CACHE = Path.home() / ".cache" / "huggingface"
 SPACE_CACHE.mkdir(parents=True, exist_ok=True)
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
 os.environ.setdefault("TOKENIZERS_PARALLELISM", "false")
 GEN_CONFIG = GenerationConfig(
     temperature=0.0,
@@ -247,7 +250,34 @@ def truncate_tokens(tokenizer, text: str, max_tokens: int) -> str:
     return tokenizer.decode(toks[-max_tokens:], skip_special_tokens=True)
 # =========================
-# HF model wrapper (robust: fast→slow tokenizer + load fallbacks)
 # =========================
 class ModelWrapper:
     def __init__(self, repo_id: str, hf_token: Optional[str], load_in_4bit: bool, use_sdpa: bool, force_tok_redownload: bool):
@@ -261,8 +291,13 @@ class ModelWrapper:
         self.load_path = "uninitialized"
     def _load_tokenizer(self):
-        fast_err = None
-        tok = None
         common = dict(
             pretrained_model_name_or_path=self.repo_id,
             token=self.hf_token,
@@ -272,15 +307,36 @@ class ModelWrapper:
             force_download=True if self.force_tok_redownload else False,
             revision=None,
         )
         try:
-            tok = AutoTokenizer.from_pretrained(use_fast=True, **common)
         except Exception as e:
-            fast_err = e
         if tok is None:
-            tok = AutoTokenizer.from_pretrained(use_fast=False, **common)
         if tok.pad_token is None and tok.eos_token:
             tok.pad_token = tok.eos_token
-        return tok, fast_err
     def load(self):
         qcfg = None
@@ -292,7 +348,7 @@ class ModelWrapper:
                 bnb_4bit_use_double_quant=True,
             )
-        tok, fast_err = self._load_tokenizer()
         errors = []
         for desc, kwargs in [
@@ -331,13 +387,12 @@ class ModelWrapper:
                     mdl = mdl.to(torch.device("cuda"))
                 self.tokenizer = tok
                 self.model = mdl
-                self.load_path = desc + (" (fast tok)" if fast_err is None else " (slow tok)")
                 return
             except Exception as e:
                 errors.append(f"{desc}: {e}")
-        extra = f"\nFast tokenizer error: {fast_err}" if fast_err else ""
-        raise RuntimeError("All load attempts failed:\n" + "\n".join(errors) + extra)
     @torch.inference_mode()
     def generate(self, system_prompt: str, user_prompt: str) -> str:
@@ -778,6 +833,7 @@ MODEL_CHOICES = [
     "mistralai/Mistral-7B-Instruct-v0.3",
 ]
 custom_css = """
 :root { --radius: 14px; }
 .gradio-container { font-family: Inter, ui-sans-serif, system-ui; background: #ffffff; color: #111827; }
@@ -847,6 +903,7 @@ with gr.Blocks(theme=gr.themes.Soft(), css=custom_css, fill_height=True) as demo
                 json_out = gr.Code(label="Strict JSON Output", language="json")
                 diag = gr.Textbox(label="Diagnostics", lines=10)
                 raw = gr.Textbox(label="Raw Model Output", lines=8)
                 prompt_preview = gr.Code(label="Prompt preview (user prompt sent)", language="markdown")
                 token_info = gr.Textbox(label="Token counts (transcript / prompt / load path)", lines=2)
                 gr.Markdown("</div>")
@@ -887,7 +944,7 @@ with gr.Blocks(theme=gr.themes.Soft(), css=custom_css, fill_height=True) as demo
                 labels_text, sys_instr_tb, glossary_tb, fallback_tb,
                 repo, use_4bit, use_sdpa, max_tokens, hf_token, force_tok_redownload
             ],
-            outputs=[summary, json_out, diag, raw, context_md, instr_md, gr.Textbox(visible=False), prompt_preview, token_info],
         )
     with gr.Tab("Batch evaluation"):

 SPACE_CACHE = Path.home() / ".cache" / "huggingface"
 SPACE_CACHE.mkdir(parents=True, exist_ok=True)
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
+# Force slow tokenizer path by default; avoids Rust tokenizer.json parsing issues
 os.environ.setdefault("TOKENIZERS_PARALLELISM", "false")
+os.environ.setdefault("TOKENIZERS_PREFER_FAST", "false")
 GEN_CONFIG = GenerationConfig(
     temperature=0.0,
     return tokenizer.decode(toks[-max_tokens:], skip_special_tokens=True)
 # =========================
+# Cache purge for fresh downloads
+# =========================
+def _purge_repo_from_cache(repo_id: str):
+    """Delete cached files of a specific repo to guarantee a fresh download."""
+    try:
+        base = SPACE_CACHE
+        safe = repo_id.replace("/", "--")
+        for p in base.glob(f"models--{safe}*"):
+            try:
+                if p.is_file():
+                    p.unlink()
+                else:
+                    for sub in sorted(p.rglob("*"), reverse=True):
+                        try:
+                            if sub.is_file() or sub.is_symlink():
+                                sub.unlink()
+                            else:
+                                sub.rmdir()
+                        except Exception:
+                            pass
+                    p.rmdir()
+            except Exception:
+                pass
+    except Exception:
+        pass
+# =========================
+# HF model wrapper (robust: slow tokenizer first + load fallbacks)
 # =========================
 class ModelWrapper:
     def __init__(self, repo_id: str, hf_token: Optional[str], load_in_4bit: bool, use_sdpa: bool, force_tok_redownload: bool):
         self.load_path = "uninitialized"
     def _load_tokenizer(self):
+        """
+        Prefer the slow (SentencePiece) tokenizer first to avoid Rust tokenizers JSON parsing.
+        If user asked to force fresh download, purge local cache first.
+        """
+        if self.force_tok_redownload:
+            _purge_repo_from_cache(self.repo_id)
         common = dict(
             pretrained_model_name_or_path=self.repo_id,
             token=self.hf_token,
             force_download=True if self.force_tok_redownload else False,
             revision=None,
         )
+        # 1) SLOW PATH FIRST
+        slow_err = None
+        tok = None
         try:
+            tok = AutoTokenizer.from_pretrained(use_fast=False, **common)
         except Exception as e:
+            slow_err = e
+        # 2) If slow somehow failed, try FAST as a last resort
+        fast_err = None
         if tok is None:
+            try:
+                tok = AutoTokenizer.from_pretrained(use_fast=True, **common)
+            except Exception as e:
+                fast_err = e
+        if tok is None:
+            raise RuntimeError(f"Tokenizer failed (slow: {slow_err}) (fast: {fast_err})")
         if tok.pad_token is None and tok.eos_token:
             tok.pad_token = tok.eos_token
+        # Tag which path we used
+        if slow_err is None:
+            self.load_path = "tok:SLOW"
+        else:
+            self.load_path = "tok:FAST"
+        return tok
     def load(self):
         qcfg = None
                 bnb_4bit_use_double_quant=True,
             )
+        tok = self._load_tokenizer()
         errors = []
         for desc, kwargs in [
                     mdl = mdl.to(torch.device("cuda"))
                 self.tokenizer = tok
                 self.model = mdl
+                self.load_path = f"{self.load_path} | {desc}"
                 return
             except Exception as e:
                 errors.append(f"{desc}: {e}")
+        raise RuntimeError("All load attempts failed:\n" + "\n".join(errors))
     @torch.inference_mode()
     def generate(self, system_prompt: str, user_prompt: str) -> str:
     "mistralai/Mistral-7B-Instruct-v0.3",
 ]
+# White, modern UI (no purple)
 custom_css = """
 :root { --radius: 14px; }
 .gradio-container { font-family: Inter, ui-sans-serif, system-ui; background: #ffffff; color: #111827; }
                 json_out = gr.Code(label="Strict JSON Output", language="json")
                 diag = gr.Textbox(label="Diagnostics", lines=10)
                 raw = gr.Textbox(label="Raw Model Output", lines=8)
+                metrics_tb = gr.Textbox(label="Metrics vs Ground Truth (optional)", lines=6)
                 prompt_preview = gr.Code(label="Prompt preview (user prompt sent)", language="markdown")
                 token_info = gr.Textbox(label="Token counts (transcript / prompt / load path)", lines=2)
                 gr.Markdown("</div>")
                 labels_text, sys_instr_tb, glossary_tb, fallback_tb,
                 repo, use_4bit, use_sdpa, max_tokens, hf_token, force_tok_redownload
             ],
+            outputs=[summary, json_out, diag, raw, context_md, instr_md, metrics_tb, prompt_preview, token_info],
         )
     with gr.Tab("Batch evaluation"):