CrispChat

Running

App Files Files Community

cstr commited on Apr 2

Commit

52f55d2

verified ·

1 Parent(s): a9b40ac

Update app.py

Browse files

Files changed (1) hide show

app.py +88 -44

app.py CHANGED Viewed

@@ -312,14 +312,11 @@ COHERE_MODELS = {
     "c4ai-aya-expanse-32b": 131072,
 }
-# TOGETHER MODELS
 TOGETHER_MODELS = {
-    "meta-llama/Llama-3.1-70B-Instruct": 131072,
-    "meta-llama/Llama-3.1-8B-Instruct": 131072,
-    "meta-llama/Llama-3.3-70B-Instruct": 131072,
-    "deepseek-ai/deepseek-r1-distill-llama-70b": 8192,
-    "meta-llama/Llama-3.2-11B-Vision-Instruct": 131072,
-    "meta-llama/Llama-3.2-90B-Vision-Instruct": 131072,
 }
 # OVH MODELS - OVH AI Endpoints (free beta)
@@ -339,8 +336,8 @@ OVH_MODELS = {
 # CEREBRAS MODELS
 CEREBRAS_MODELS = {
-    "cerebras/llama-3.1-8b": 8192,
-    "cerebras/llama-3.3-70b": 8192,
 }
 # GOOGLE AI MODELS
@@ -952,23 +949,47 @@ def call_together_api(payload, api_key_override=None):
         )
         # Extract parameters from payload
-        model = payload.get("model", "meta-llama/Meta-Llama-3-8B-Instruct")
-        # Fix model name format - Together API uses a different format
-        # Check documentation for correct model names: https://api.together.ai/models
-        if "llama-3.1" in model.lower():
-            model = "meta-llama/Meta-Llama-3-8B-Instruct"
-        elif "llama-3.3" in model.lower():
-            model = "meta-llama/Meta-Llama-3.3-70B-Instruct"
         # Create completion
-        response = client.chat.completions.create(
-            model=model,
-            messages=payload.get("messages", []),
-            temperature=payload.get("temperature", 0.7),
-            max_tokens=payload.get("max_tokens", 1000),
-            stream=payload.get("stream", False)
-        )
         return response
     except Exception as e:
@@ -1020,42 +1041,65 @@ def call_cerebras_api(payload, api_key_override=None):
     """Make a call to Cerebras API with error handling"""
     try:
         # Extract parameters from payload
-        model = payload.get("model", "cerebras/llama-3.1-8b")
-        # Strip 'cerebras/' prefix if present
-        if model.startswith("cerebras/"):
-            model = model[9:]
         messages = payload.get("messages", [])
         temperature = payload.get("temperature", 0.7)
         max_tokens = payload.get("max_tokens", 1000)
-        data = {
-            "model": model,
-            "messages": messages,
-            "temperature": temperature,
-            "max_tokens": max_tokens
-        }
-        api_key = api_key_override if api_key_override else os.environ.get("CEREBRAS_API_KEY", "")
-        headers = {
-            "Content-Type": "application/json",
-            "Authorization": f"Bearer {api_key}"
-        }
         try:
             response = requests.post(
                 "https://api.cloud.cerebras.ai/v1/chat/completions",
                 headers=headers,
                 json=data,
-                timeout=10  # Add timeout to avoid hanging
             )
             if response.status_code != 200:
                 raise ValueError(f"Cerebras API returned status code {response.status_code}: {response.text}")
             return response.json()
-        except requests.exceptions.ConnectionError as e:
-            raise ValueError(f"Connection error to Cerebras API. This may be due to network restrictions in the environment: {str(e)}")
     except Exception as e:
         logger.error(f"Cerebras API error: {str(e)}")
         raise e

     "c4ai-aya-expanse-32b": 131072,
 }
+# TOGETHER MODELS in the free tier
 TOGETHER_MODELS = {
+    "deepseek-ai/DeepSeek-R1-Distill-Llama-70B-free": 8192,
+    "meta-llama/Llama-Vision-Free": 8192,
+    "meta-llama/Llama-3.3-70B-Instruct-Turbo-Free": 8192,
 }
 # OVH MODELS - OVH AI Endpoints (free beta)
 # CEREBRAS MODELS
 CEREBRAS_MODELS = {
+    "llama3.1-8b": 8192,
+    "llama-3.3-70b": 8192,
 }
 # GOOGLE AI MODELS
         )
         # Extract parameters from payload
+        requested_model = payload.get("model", "")
+        # Use a safe model that's known to work in the free tier
+        # these models are available without dedicated endpoints
+        free_models = [
+            "deepseek-ai/DeepSeek-R1-Distill-Llama-70B-free",
+            "meta-llama/Llama-Vision-Free",
+            "meta-llama/Llama-3.3-70B-Instruct-Turbo-Free"
+        ]
+        # Default to the first free model
+        model = free_models[0]
+        # Try to match a requested model with a free model if possible
+        if requested_model:
+            for free_model in free_models:
+                if requested_model.lower() in free_model.lower():
+                    model = free_model
+                    break
+        # Create payload with clean messages
+        messages = []
+        for msg in payload.get("messages", []):
+            # Ensure we only include role and content
+            clean_msg = {
+                "role": msg["role"],
+                "content": msg["content"]
+            }
+            messages.append(clean_msg)
+        # Create payload
+        together_payload = {
+            "model": model,
+            "messages": messages,
+            "temperature": payload.get("temperature", 0.7),
+            "max_tokens": payload.get("max_tokens", 1000),
+            "stream": payload.get("stream", False)
+        }
         # Create completion
+        response = client.chat.completions.create(**together_payload)
         return response
     except Exception as e:
     """Make a call to Cerebras API with error handling"""
     try:
         # Extract parameters from payload
+        requested_model = payload.get("model", "")
+        # Map the full model name to the correct Cerebras model ID
+        model_mapping = {
+            "cerebras/llama-3.1-8b": "llama3.1-8b",
+            "cerebras/llama-3.3-70b": "llama-3.3-70b",
+            "llama-3.1-8b": "llama3.1-8b",
+            "llama-3.3-70b": "llama-3.3-70b",
+            "llama3.1-8b": "llama3.1-8b"
+        }
+        # Default to the 8B model
+        model = "llama3.1-8b"
+        # If the requested model matches any of our mappings, use that instead
+        if requested_model in model_mapping:
+            model = model_mapping[requested_model]
+        elif "3.3" in requested_model or "70b" in requested_model.lower():
+            model = "llama-3.3-70b"
         messages = payload.get("messages", [])
         temperature = payload.get("temperature", 0.7)
         max_tokens = payload.get("max_tokens", 1000)
+        # Try-except block for network issues
         try:
+            headers = {
+                "Content-Type": "application/json",
+                "Authorization": f"Bearer {api_key_override or os.environ.get('CEREBRAS_API_KEY', '')}"
+            }
+            data = {
+                "model": model,
+                "messages": messages,
+                "temperature": temperature,
+                "max_tokens": max_tokens
+            }
             response = requests.post(
                 "https://api.cloud.cerebras.ai/v1/chat/completions",
                 headers=headers,
                 json=data,
+                timeout=30  # Increased timeout
             )
             if response.status_code != 200:
                 raise ValueError(f"Cerebras API returned status code {response.status_code}: {response.text}")
             return response.json()
+        except requests.exceptions.RequestException as e:
+            # More specific error handling for network issues
+            if "NameResolution" in str(e):
+                raise ValueError(
+                    "Unable to connect to the Cerebras API. This might be due to network "
+                    "restrictions in your environment. The API requires direct internet access. "
+                    "Please try a different provider or check your network settings."
+                )
+            else:
+                raise ValueError(f"Request to Cerebras API failed: {str(e)}")
     except Exception as e:
         logger.error(f"Cerebras API error: {str(e)}")
         raise e