H2H-eval-comparator

Sleeping

rohansampath commited on Feb 27

Commit

1d13019

verified ·

1 Parent(s): cec8405

Update run_evaluation.py

Files changed (1) hide show

run_evaluation.py CHANGED Viewed

@@ -115,6 +115,23 @@ def run_mmlu_evaluation(subject_selection_mode, num_subjects, selected_subjects,
             'Difference': abs(overall_diff),
             'Winner': overall_winner
         })
         comparison_df = pd.DataFrame(comparison_data)

             'Difference': abs(overall_diff),
             'Winner': overall_winner
         })
+        report = (
+            f"### Head-to-Head Comparison Results\n\n"
+            f"#### Model 1: {model1_config['name']}\n"
+            f"* Overall Accuracy: {model1_overall_acc:.3f}\n"
+            f"* Best Performance: {model1_max_subject} ({model1_max_acc:.3f})\n"
+            f"* Worst Performance: {model1_min_subject} ({model1_min_acc:.3f})\n"
+            f"* Evaluation completed in {model1_elapsed_time:.2f} seconds\n\n"
+            f"#### Model 2: {model2_config['name']}\n"
+            f"* Overall Accuracy: {model2_overall_acc:.3f}\n"
+            f"* Best Performance: {model2_max_subject} ({model2_max_acc:.3f})\n"
+            f"* Worst Performance: {model2_min_subject} ({model2_min_acc:.3f})\n"
+            f"* Evaluation completed in {model2_elapsed_time:.2f} seconds\n\n"
+            f"#### Overall Winner: {overall_winner}\n"
+            f"* Margin: {abs(overall_diff):.3f}\n"
+        )
         comparison_df = pd.DataFrame(comparison_data)