Spaces:

lapa-llm
/

lapa

Running on Zero

iamthewalrus67 commited on Aug 23

Commit

0e29f16

1 Parent(s): 1bb2b37

Load mode once

Files changed (1) hide show

app.py CHANGED Viewed

@@ -2,7 +2,7 @@ import os
 import subprocess
 import threading
-subprocess.check_call([os.sys.executable, "-m", "pip", "install", "-r", "requirements.txt"])
 import spaces
 import gradio as gr
@@ -22,11 +22,14 @@ def load_model():
     tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
     model = AutoModelForCausalLM.from_pretrained(
         MODEL_ID,
-        torch_dtype=torch.bfloat16 if device == "cuda" else torch.float32,
-        device_map="auto" if device == "cuda" else None,
-    )
     return model, tokenizer, device
 @spaces.GPU
 def respond(
@@ -37,11 +40,10 @@ def respond(
     temperature,
     top_p,
 ):
-    # Load model/tokenizer each request → allows zeroGPU to cold start & then release
-    model, tokenizer, device = load_model()
     # Build conversation
-    messages = [{"role": "system", "content": system_message}] + history + [
         {"role": "user", "content": message}
     ]
@@ -50,7 +52,7 @@ def respond(
         tokenize=False,
         add_generation_prompt=True
     )
-    inputs = tokenizer(input_text, return_tensors="pt").to(device)
     # Streamer setup
     streamer = TextIteratorStreamer(

 import subprocess
 import threading
+# subprocess.check_call([os.sys.executable, "-m", "pip", "install", "-r", "requirements.txt"])
 import spaces
 import gradio as gr
     tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
     model = AutoModelForCausalLM.from_pretrained(
         MODEL_ID,
+        #torch_dtype=torch.bfloat16, #if device == "cuda" else torch.float32,
+        #device_map="auto"# if device == "cuda" else None,
+    ).to("cuda")
+    print(f"Selected device:", device)
     return model, tokenizer, device
+# Load model/tokenizer each request → allows zeroGPU to cold start & then release
+model, tokenizer, device = load_model()
 @spaces.GPU
 def respond(
     temperature,
     top_p,
 ):
+    # [{"role": "system", "content": system_message}] +
     # Build conversation
+    messages =  history + [
         {"role": "user", "content": message}
     ]
         tokenize=False,
         add_generation_prompt=True
     )
+    inputs = tokenizer(input_text, return_tensors="pt").to("cuda")# .to(device)
     # Streamer setup
     streamer = TextIteratorStreamer(