H2H-eval-comparator

Sleeping

App Files Files Community

rohansampath commited on Feb 26

Commit

2010e21

verified ·

1 Parent(s): eb7de2f

Update app.py

Browse files

Files changed (1) hide show

app.py +131 -47

app.py CHANGED Viewed

@@ -87,11 +87,16 @@ def run_mmlu_evaluation(all_subjects, num_subjects, num_shots, all_questions, nu
         )
         # Return values that re-enable UI components after completion
-        return (report, results_df,
-                gr.update(interactive=True), gr.update(visible=False),
-                gr.update(interactive=True), gr.update(interactive=True),
-                gr.update(interactive=True), gr.update(interactive=True),
-                gr.update(interactive=True))
     except Exception as e:
         # Handle errors gracefully
@@ -99,11 +104,48 @@ def run_mmlu_evaluation(all_subjects, num_subjects, num_shots, all_questions, nu
         error_message = f"### Error during evaluation\n```\n{error_trace}\n```"
         # Re-enable UI components on error
-        return (error_message, None,
-                gr.update(interactive=True), gr.update(visible=False),
-                gr.update(interactive=True), gr.update(interactive=True),
-                gr.update(interactive=True), gr.update(interactive=True),
-                gr.update(interactive=True))
 # ---------------------------------------------------------------------------
 # 3. Gradio Interface
@@ -115,27 +157,32 @@ with gr.Blocks() as demo:
     """)
     # Dataset Selection Section
-    gr.Markdown("### (A) Select Dataset for evaluation")
     with gr.Row():
         dataset_dropdown = gr.Dropdown(
-            choices=["MMLU-Pro"],
-            value=None,
             label="Dataset",
             info="Select a dataset to evaluate the model on"
         )
-        preview_button = gr.Button("Show Preview", interactive=False)
     # Dataset Preview Container - Initially hidden
-    with gr.Group(visible=False) as dataset_preview_container:
         preview_output = gr.DataFrame(
-            label="Dataset Preview",
-            interactive=False
         )
     # MMLU Config Container - Initially hidden until dataset is selected
-    with gr.Group(visible=False) as mmlu_config_container:
-        gr.Markdown("### MMLU-Pro Evaluation Configuration")
         with gr.Row():
             all_subjects_checkbox = gr.Checkbox(
@@ -191,52 +238,70 @@ with gr.Blocks() as demo:
                 cancel_mmlu_button = gr.Button("Cancel Evaluation", variant="stop", visible=False)
     # Results Section - Initially hidden
-    with gr.Group(visible=False) as results_container:
         results_output = gr.Markdown(label="Evaluation Results")
-        with gr.Row():
-            results_table = gr.DataFrame(interactive=True, label="Detailed Results (Sortable)", visible=True)
-    # Track evaluation state - used to prevent multiple evaluations
     evaluation_state = gr.State({"running": False})
-    # Function to show configuration based on selected dataset
     def update_interface_based_on_dataset(dataset):
         if dataset == "MMLU-Pro":
             return (
                 gr.update(visible=True),  # mmlu_config_container
                 gr.update(visible=True),  # results_container
-                gr.update(interactive=True)  # preview_button
             )
         else:
             return (
                 gr.update(visible=False),  # mmlu_config_container
                 gr.update(visible=False),  # results_container
-                gr.update(interactive=False)  # preview_button
             )
     # Connect dataset dropdown to show/hide appropriate configuration
     dataset_dropdown.change(
         fn=update_interface_based_on_dataset,
         inputs=[dataset_dropdown],
-        outputs=[mmlu_config_container, results_container, preview_button]
     )
-    # Function to show dataset preview
-    def show_dataset_preview(dataset):
-        if dataset == "MMLU-Pro":
             preview_data = mmlupro_dataset_preview()
-            formatted_preview = format_preview_for_display(preview_data)
-            return gr.update(visible=True), formatted_preview
-        else:
             # For other datasets (not implemented yet)
-            return gr.update(visible=False), None
-    # Connect preview button to show dataset information
-    preview_button.click(
-        fn=show_dataset_preview,
-        inputs=[dataset_dropdown],
-        outputs=[dataset_preview_container, preview_output]
     )
     # Update num_subjects_slider interactivity based on all_subjects checkbox
@@ -273,9 +338,10 @@ with gr.Blocks() as demo:
                 gr.update(interactive=False),
                 gr.update(interactive=False),
                 gr.update(interactive=False),
-                gr.update(visible=False),
                 "Evaluation already in progress. Please wait.",
-                None
             ]
         # Update state to running
@@ -291,7 +357,8 @@ with gr.Blocks() as demo:
             gr.update(interactive=False),  # eval_mmlu_button
             gr.update(visible=True),       # cancel_mmlu_button
             "Starting evaluation...",      # results_output
-            None                           # results_table
         ]
     # Function to reset UI after evaluation
@@ -314,7 +381,8 @@ with gr.Blocks() as demo:
             gr.update(interactive=True),  # eval_mmlu_button
             gr.update(visible=False),     # cancel_mmlu_button
             "⚠️ Evaluation canceled by user (note: backend process may continue running)", # results_output
-            None                          # results_table
         ]
     # Connect MMLU evaluation button with state tracking
@@ -331,7 +399,8 @@ with gr.Blocks() as demo:
             eval_mmlu_button,
             cancel_mmlu_button,
             results_output,
-            results_table
         ]
     ).then(
         fn=run_mmlu_evaluation,
@@ -351,7 +420,8 @@ with gr.Blocks() as demo:
             num_subjects_slider,
             num_shots_slider,
             all_questions_checkbox,
-            num_questions_slider
         ]
     ).then(
         fn=finish_evaluation,
@@ -373,8 +443,22 @@ with gr.Blocks() as demo:
             eval_mmlu_button,
             cancel_mmlu_button,
             results_output,
-            results_table
         ]
     )
-demo.launch()

         )
         # Return values that re-enable UI components after completion
+        return (report,
+                results_df,
+                gr.update(interactive=True),
+                gr.update(visible=False),
+                gr.update(interactive=True),
+                gr.update(interactive=True),
+                gr.update(interactive=True),
+                gr.update(interactive=True),
+                gr.update(interactive=True),
+                gr.update(visible=True))
     except Exception as e:
         # Handle errors gracefully
         error_message = f"### Error during evaluation\n```\n{error_trace}\n```"
         # Re-enable UI components on error
+        return (error_message,
+                None,
+                gr.update(interactive=True),
+                gr.update(visible=False),
+                gr.update(interactive=True),
+                gr.update(interactive=True),
+                gr.update(interactive=True),
+                gr.update(interactive=True),
+                gr.update(interactive=True),
+                gr.update(visible=False))
+def format_links_with_bullets(links_text):
+    """Format links with bullet points for better readability"""
+    lines = links_text.split('\n')
+    return "• " + "\n• ".join(lines)
+# Function to format dataset preview for better display
+def enhanced_format_preview_for_display(preview_data):
+    """
+    Format the preview data with improved readability
+    """
+    # Create links with bullet points
+    links_value = (
+        f"Hugging Face: {preview_data['links']['huggingface']}\n"
+        f"GitHub: {preview_data['links']['github']}\n"
+        f"Paper: {preview_data['links']['paper']}"
+    )
+    links_formatted = format_links_with_bullets(links_value)
+    # Create a table format with better column names
+    rows = [
+        {"Dataset Property": "Dataset Name", "Details": preview_data["dataset_name"]},
+        {"Dataset Property": "Evaluation Type", "Details": preview_data["evaluation_type"]},
+        {"Dataset Property": "Description", "Details": preview_data["description"]},
+        {"Dataset Property": "Links", "Details": links_formatted},
+        {"Dataset Property": "Organization", "Details": preview_data["organization"]},
+        {"Dataset Property": "Number of Questions", "Details": preview_data["num_questions"]},
+        {"Dataset Property": "Number of Input Tokens", "Details": preview_data["input_tokens"]},
+        {"Dataset Property": "Estimated Evaluation Time", "Details": f"{preview_data['evaluation_time']['total_time_minutes']} minutes (for 2 models on A100)"}
+    ]
+    return pd.DataFrame(rows)
 # ---------------------------------------------------------------------------
 # 3. Gradio Interface
     """)
     # Dataset Selection Section
+    gr.Markdown("## (A) Select Dataset for evaluation")
     with gr.Row():
         dataset_dropdown = gr.Dropdown(
+            choices=["(Select Dataset)", "MMLU-Pro"],
+            value="(Select Dataset)",
             label="Dataset",
             info="Select a dataset to evaluate the model on"
         )
+        preview_toggle = gr.Button("Show Preview", interactive=False, variant="secondary")
     # Dataset Preview Container - Initially hidden
+    with gr.Column(visible=False) as dataset_preview_container:
+        gr.Markdown("## Dataset Preview", elem_id="preview_header")
         preview_output = gr.DataFrame(
+            interactive=False,
+            wrap=True,
+            elem_id="preview_table"
         )
+        # Add vertical space after the preview
+        gr.Markdown("&nbsp;")
+        gr.Markdown("&nbsp;")
     # MMLU Config Container - Initially hidden until dataset is selected
+    with gr.Column(visible=False) as mmlu_config_container:
+        gr.Markdown("## (B) Select Dataset Configuration Options")
         with gr.Row():
             all_subjects_checkbox = gr.Checkbox(
                 cancel_mmlu_button = gr.Button("Cancel Evaluation", variant="stop", visible=False)
     # Results Section - Initially hidden
+    with gr.Column(visible=False) as results_container:
         results_output = gr.Markdown(label="Evaluation Results")
+        # Results table - Initially hidden until evaluation completes
+        with gr.Column(visible=False) as results_table_container:
+            with gr.Row():
+                results_table = gr.DataFrame(
+                    interactive=True,
+                    label="Detailed Results (Sortable)",
+                    visible=True
+                )
+    # Track evaluation state and preview state
     evaluation_state = gr.State({"running": False})
+    preview_state = gr.State({"visible": False})
+    # Function to show/hide configuration based on selected dataset
     def update_interface_based_on_dataset(dataset):
         if dataset == "MMLU-Pro":
             return (
                 gr.update(visible=True),  # mmlu_config_container
                 gr.update(visible=True),  # results_container
+                gr.update(interactive=True)  # preview_toggle
             )
         else:
             return (
                 gr.update(visible=False),  # mmlu_config_container
                 gr.update(visible=False),  # results_container
+                gr.update(interactive=False)  # preview_toggle
             )
     # Connect dataset dropdown to show/hide appropriate configuration
     dataset_dropdown.change(
         fn=update_interface_based_on_dataset,
         inputs=[dataset_dropdown],
+        outputs=[mmlu_config_container, results_container, preview_toggle]
     )
+    # Function to toggle dataset preview visibility
+    def toggle_preview(state, dataset):
+        # Toggle visibility state
+        new_visible = not state["visible"]
+        state["visible"] = new_visible
+        # If becoming visible, get the preview data
+        if new_visible and dataset == "MMLU-Pro":
             preview_data = mmlupro_dataset_preview()
+            formatted_preview = enhanced_format_preview_for_display(preview_data)
+            button_text = "Hide Preview"
+            return state, gr.update(visible=True), formatted_preview, gr.update(value=button_text)
+        elif new_visible:
             # For other datasets (not implemented yet)
+            button_text = "Hide Preview"
+            return state, gr.update(visible=True), None, gr.update(value=button_text)
+        else:
+            # Hiding the preview
+            button_text = "Show Preview"
+            return state, gr.update(visible=False), None, gr.update(value=button_text)
+    # Connect preview toggle to show/hide dataset information
+    preview_toggle.click(
+        fn=toggle_preview,
+        inputs=[preview_state, dataset_dropdown],
+        outputs=[preview_state, dataset_preview_container, preview_output, preview_toggle]
     )
     # Update num_subjects_slider interactivity based on all_subjects checkbox
                 gr.update(interactive=False),
                 gr.update(interactive=False),
                 gr.update(interactive=False),
+                gr.update(visible=True),
                 "Evaluation already in progress. Please wait.",
+                None,
+                gr.update(visible=False)
             ]
         # Update state to running
             gr.update(interactive=False),  # eval_mmlu_button
             gr.update(visible=True),       # cancel_mmlu_button
             "Starting evaluation...",      # results_output
+            None,                          # results_table
+            gr.update(visible=False)       # results_table_container
         ]
     # Function to reset UI after evaluation
             gr.update(interactive=True),  # eval_mmlu_button
             gr.update(visible=False),     # cancel_mmlu_button
             "⚠️ Evaluation canceled by user (note: backend process may continue running)", # results_output
+            None,                         # results_table
+            gr.update(visible=False)      # results_table_container
         ]
     # Connect MMLU evaluation button with state tracking
             eval_mmlu_button,
             cancel_mmlu_button,
             results_output,
+            results_table,
+            results_table_container
         ]
     ).then(
         fn=run_mmlu_evaluation,
             num_subjects_slider,
             num_shots_slider,
             all_questions_checkbox,
+            num_questions_slider,
+            results_table_container
         ]
     ).then(
         fn=finish_evaluation,
             eval_mmlu_button,
             cancel_mmlu_button,
             results_output,
+            results_table,
+            results_table_container
         ]
     )
+# Add custom CSS for styling
+css = """
+#preview_header {
+    margin-bottom: 10px;
+    margin-top: 5px;
+}
+#preview_table {
+    background-color: #f8f9fa;
+    border-radius: 8px;
+    padding: 10px;
+}
+"""
+demo.launch(css=css)