DataEngEval

Running

uparekh01151 commited on Sep 21

Commit

05dfa56

1 Parent(s): 1b57635

feat: add Groq provider models and show provider info in UI

- Add GPT-OSS-20B, GPT-OSS-120B, and Llama-4-Scout-17B models via Groq provider
- Update models_registry.py to support Groq provider with chat.completions.create
- Add provider information to result dictionary in evaluator.py
- Display provider info in both Evaluate and Global Leaderboard tabs
- Group leaderboard by model_name and provider for accurate comparison
- Enable comparison of same model across different providers

Files changed (4) hide show

app.py +7 -4
config/models.yaml +31 -1
src/evaluator.py +1 -0
src/models_registry.py +1 -1

app.py CHANGED Viewed

@@ -66,8 +66,11 @@ class LeaderboardManager:
         # Group by model and calculate averages
         numeric_columns = ['composite_score', 'correctness_exact', 'result_match_f1', 'exec_success', 'latency_ms']
-        # Calculate averages for numeric columns
-        model_aggregated = self.leaderboard.groupby('model_name')[numeric_columns].mean().reset_index()
         # Sort by composite score (descending) to get proper ranking
         model_aggregated = model_aggregated.sort_values('composite_score', ascending=False).reset_index(drop=True)
@@ -82,7 +85,7 @@ class LeaderboardManager:
         leaderboard_config = config_loader.get_leaderboard_config()
         column_mapping = {
             'Rank': 'rank',
-            'Model': 'model_name',
             'Composite Score': 'composite_score',
             'Correctness': 'correctness_exact',
             'Result F1': 'result_match_f1',
@@ -243,7 +246,7 @@ def run_evaluation(dataset_name: str, dialect: str, case_selection: str,
             # Format for display using config
             results.append([
                 len(results) + 1,  # Rank (1-based)
-                model_name,
                 formatting["composite_score"].format(result['composite_score']),
                 formatting["correctness_exact"].format(result['correctness_exact']),
                 formatting["result_match_f1"].format(result['result_match_f1']),

         # Group by model and calculate averages
         numeric_columns = ['composite_score', 'correctness_exact', 'result_match_f1', 'exec_success', 'latency_ms']
+        # Calculate averages for numeric columns, keeping provider info
+        model_aggregated = self.leaderboard.groupby(['model_name', 'provider'])[numeric_columns].mean().reset_index()
+        # Create combined model name with provider
+        model_aggregated['model_display'] = model_aggregated['model_name'] + ' (' + model_aggregated['provider'] + ')'
         # Sort by composite score (descending) to get proper ranking
         model_aggregated = model_aggregated.sort_values('composite_score', ascending=False).reset_index(drop=True)
         leaderboard_config = config_loader.get_leaderboard_config()
         column_mapping = {
             'Rank': 'rank',
+            'Model': 'model_display',
             'Composite Score': 'composite_score',
             'Correctness': 'correctness_exact',
             'Result F1': 'result_match_f1',
             # Format for display using config
             results.append([
                 len(results) + 1,  # Rank (1-based)
+                f"{model_name} ({result['provider']})",  # Include provider in model name
                 formatting["composite_score"].format(result['composite_score']),
                 formatting["correctness_exact"].format(result['correctness_exact']),
                 formatting["result_match_f1"].format(result['result_match_f1']),

config/models.yaml CHANGED Viewed

@@ -37,4 +37,34 @@ models:
       max_new_tokens: 256
       temperature: 0.1
       top_p: 0.9
-    description: "DeepSeek-R1 - DeepSeek's reasoning model via Together AI"

       max_new_tokens: 256
       temperature: 0.1
       top_p: 0.9
+    description: "DeepSeek-R1 - DeepSeek's reasoning model via Together AI"
+  # GPT-OSS-20B with Groq Provider
+  - name: "GPT-OSS-20B (Groq)"
+    provider: "groq"
+    model_id: "openai/gpt-oss-20b"
+    params:
+      max_new_tokens: 256
+      temperature: 0.1
+      top_p: 0.9
+    description: "GPT-OSS-20B - OpenAI's 20B parameter model via Groq"
+  # GPT-OSS-120B with Groq Provider
+  - name: "GPT-OSS-120B (Groq)"
+    provider: "groq"
+    model_id: "openai/gpt-oss-120b"
+    params:
+      max_new_tokens: 256
+      temperature: 0.1
+      top_p: 0.9
+    description: "GPT-OSS-120B - OpenAI's 120B parameter model via Groq"
+  # Llama-4-Scout-17B with Groq Provider
+  - name: "Llama-4-Scout-17B (Groq)"
+    provider: "groq"
+    model_id: "meta-llama/Llama-4-Scout-17B-16E-Instruct"
+    params:
+      max_new_tokens: 256
+      temperature: 0.1
+      top_p: 0.9
+    description: "Llama-4-Scout-17B - Meta's latest multimodal model via Groq"

src/evaluator.py CHANGED Viewed

@@ -359,6 +359,7 @@ class Evaluator:
         return {
             'model_name': model_name,
             'dataset_name': dataset_name,
             'case_id': case_id,
             'dialect': dialect,

         return {
             'model_name': model_name,
+            'provider': model_config.provider,
             'dataset_name': dataset_name,
             'case_id': case_id,
             'dialect': dialect,

src/models_registry.py CHANGED Viewed

@@ -86,7 +86,7 @@ class HuggingFaceInference:
             )
             # Use different methods based on provider capabilities
-            if provider == "nebius" or provider == "together":
                 # Nebius provider only supports conversational tasks, use chat completion
                 completion = client.chat.completions.create(
                     model=model_id,

             )
             # Use different methods based on provider capabilities
+            if provider == "nebius" or provider == "together" or provider == "groq":
                 # Nebius provider only supports conversational tasks, use chat completion
                 completion = client.chat.completions.create(
                     model=model_id,