H2H-eval-comparator

Sleeping

App Files Files Community

rohansampath commited on Feb 26

Commit

f64ee28

verified ·

1 Parent(s): a955837

Update dataset_previews.py

Browse files

Files changed (1) hide show

dataset_previews.py +16 -11

dataset_previews.py CHANGED Viewed

@@ -78,14 +78,7 @@ def mmlupro_dataset_preview(regenerate_preview=True) -> Dict[str, Any]:
     try:
         # Calculate dataset statistics
         stats = calculate_dataset_statistics()
-        # Format subject counts as a string, in descending order
-        sorted_subjects = sorted(stats["subject_counts"].items(), key=lambda x: x[1], reverse=True)
-        subject_counts_str = f"Total: {stats['total_questions']}\n"
-        for subject, count in sorted_subjects:
-            subject_counts_str += f"{subject}: {count}\n"
-        subject_counts_str = subject_counts_str.strip()
         # Format options distribution as a string
         options_dist_str = f"Maximum: {stats['max_options']}\nAverage: {stats['avg_options']:.2f}\n"
         sorted_options = sorted(stats["options_distribution"].items(), key=lambda x: x[0], reverse=True)
@@ -104,7 +97,8 @@ def mmlupro_dataset_preview(regenerate_preview=True) -> Dict[str, Any]:
                 "paper": "https://arxiv.org/abs/2406.01574"
             },
             "organization": "Questions are organized into 14 subjects. Each subject has 5 validation questions (for a total of 70). The 5 validation questions serve as 5-shot prompts for each evaluation question.",
-            "num_questions": subject_counts_str,
             "choices_per_question": options_dist_str
         }
@@ -131,12 +125,23 @@ def mmlupro_dataset_preview(regenerate_preview=True) -> Dict[str, Any]:
                 "paper": "https://arxiv.org/abs/2406.01574"
             },
             "organization": "Questions are organized into 14 subjects. Each subject has 5 validation questions (for a total of 70). The 5 validation questions serve as 5-shot prompts for each evaluation question.",
-            "num_questions": f"Total: {num_questions} (Note: Using fallback value)",
             "choices_per_question": "Maximum: 10\nAverage: 10.0\n10-choices: 12032"
         }
     return preview_data
 def format_preview_for_display(preview_data: Dict[str, Any]) -> pd.DataFrame:
     """
     Format the preview data with improved readability for display in Gradio
@@ -162,7 +167,7 @@ def format_preview_for_display(preview_data: Dict[str, Any]) -> pd.DataFrame:
         {"Dataset Property": "Description", "Details": preview_data["description"]},
         {"Dataset Property": "Links", "Details": links_formatted},
         {"Dataset Property": "Organization", "Details": preview_data["organization"]},
-        {"Dataset Property": "Number of Questions", "Details": preview_data["num_questions"]},
         {"Dataset Property": "Choices per Question", "Details": preview_data["choices_per_question"]}
     ]

     try:
         # Calculate dataset statistics
         stats = calculate_dataset_statistics()
         # Format options distribution as a string
         options_dist_str = f"Maximum: {stats['max_options']}\nAverage: {stats['avg_options']:.2f}\n"
         sorted_options = sorted(stats["options_distribution"].items(), key=lambda x: x[0], reverse=True)
                 "paper": "https://arxiv.org/abs/2406.01574"
             },
             "organization": "Questions are organized into 14 subjects. Each subject has 5 validation questions (for a total of 70). The 5 validation questions serve as 5-shot prompts for each evaluation question.",
+            "total_questions": stats["total_questions"],
+            "subject_counts": stats["subject_counts"],
             "choices_per_question": options_dist_str
         }
                 "paper": "https://arxiv.org/abs/2406.01574"
             },
             "organization": "Questions are organized into 14 subjects. Each subject has 5 validation questions (for a total of 70). The 5 validation questions serve as 5-shot prompts for each evaluation question.",
+            "total_questions": 12032
+            "subject_counts": f"Total: 12032 (Note: Using fallback value)",
             "choices_per_question": "Maximum: 10\nAverage: 10.0\n10-choices: 12032"
         }
     return preview_data
+def subject_counts_formatting(subject_counts, total_questions):
+    # Format subject counts as a string, in descending order
+    sorted_subjects = sorted(subject_counts.items(), key=lambda x: x[1], reverse=True)
+    subject_counts_str = f"Total: {total_questions}\n"
+    for subject, count in sorted_subjects:
+        subject_counts_str += f"{subject}: {count}\n"
+    subject_counts_str = subject_counts_str.strip()
 def format_preview_for_display(preview_data: Dict[str, Any]) -> pd.DataFrame:
     """
     Format the preview data with improved readability for display in Gradio
         {"Dataset Property": "Description", "Details": preview_data["description"]},
         {"Dataset Property": "Links", "Details": links_formatted},
         {"Dataset Property": "Organization", "Details": preview_data["organization"]},
+        {"Dataset Property": "Number of Questions", "Details": subject_counts_formatting(preview_data["subject_counts"],preview_data["total_questions"], },
         {"Dataset Property": "Choices per Question", "Details": preview_data["choices_per_question"]}
     ]