ZeroGPU-LLM-Inference

Running

Luigi commited on Oct 12

Commit

6073cc2

1 Parent(s): d3726c6

Add dynamic duration calculation for ZeroGPU acceleration

Files changed (1) hide show

app.py CHANGED Viewed

@@ -344,7 +344,13 @@ def format_conversation(history, system_prompt, tokenizer):
             prompt += "Assistant: "
         return prompt
-@spaces.GPU(duration=120)
 def chat_response(user_msg, chat_history, system_prompt,
                   enable_search, max_results, max_chars,
                   model_name, max_tokens, temperature,

             prompt += "Assistant: "
         return prompt
+def get_duration(user_msg, chat_history, system_prompt, enable_search, max_results, max_chars, model_name, max_tokens, temperature, top_k, top_p, repeat_penalty, search_timeout):
+    base_duration = 60
+    token_duration = max_tokens * 0.1  # Estimate 0.1 seconds per token
+    search_duration = 30 if enable_search else 0
+    return base_duration + token_duration + search_duration
+@spaces.GPU(duration=get_duration)
 def chat_response(user_msg, chat_history, system_prompt,
                   enable_search, max_results, max_chars,
                   model_name, max_tokens, temperature,