Spaces:

qanta-challenge
/

leaderboard

Running

App Files Files Community

Maharshi Gor commited on Jun 3

Commit

4a9e506

1 Parent(s): 85c36d8

Leaderboard UI upgrade and Week deadline update

Browse files

Files changed (5) hide show

app.py +62 -26
src/display/css_html_js.py +4 -0
src/envs.py +4 -0
src/hf_dataset_utils.py +1 -2
src/populate.py +131 -42

app.py CHANGED Viewed

@@ -1,3 +1,6 @@
 import gradio as gr
 import pandas as pd
 from apscheduler.schedulers.background import BackgroundScheduler
@@ -13,6 +16,7 @@ from src.display.css_html_js import custom_css
 from src.envs import (
     API,
     COMPETITION_URL,
     EVAL_RESULTS_PATH,
     EVAL_SPLITS,
     LEADERBOARD_REFRESH_INTERVAL,
@@ -29,6 +33,9 @@ from src.populate import (
     fetch_tossup_leaderboard,
 )
 # Load metrics manual content
 def load_metrics_manual():
@@ -58,75 +65,104 @@ except Exception:
     restart_space()
-def refresh_leaderboard(split: str = "tiny_eval", style: bool = True):
     download_dataset_snapshot(RESULTS_REPO, EVAL_RESULTS_PATH)
-    tossup_df = fetch_tossup_leaderboard(split, style)
-    bonus_df = fetch_bonus_leaderboard(split, style)
-    overall_df = fetch_overall_leaderboard(split, style)
     return tossup_df, bonus_df, overall_df
-def create_leaderboard_interface(app, split: str = "tiny_eval"):
     leaderboard_timer = gr.Timer(LEADERBOARD_REFRESH_INTERVAL)
-    refresh_btn = gr.Button("🔄 Refresh")
-    tossup_df, bonus_df, overall_df = refresh_leaderboard(split, style=False)
-    gr.Markdown("## 🛎️ Tossup Round Leaderboard")
-    logger.info(f"Tossup dataframe columns: {tossup_df.columns}")
-    tossup_leaderboard = Leaderboard(
         value=tossup_df,
-        search_columns=["Submission"],
         datatype=["str", "number", "number", "number", "number"],
         elem_id="tossup-table",
         interactive=False,  # Ensure it's not interactive
     )
-    gr.Markdown("")
-    gr.Markdown("## 🤔 Bonus Round Leaderboard")
     logger.info(f"Bonus dataframe columns: {bonus_df.columns}")
-    bonus_leaderboard = Leaderboard(
         value=bonus_df,
-        search_columns=["Submission"],
         datatype=["str", "number", "number", "number", "number", "number", "number"],
         elem_id="bonus-table",
         interactive=False,  # Ensure it's not interactive
     )
-    gr.Markdown("## 🥇 Overall Leaderboard")
-    overall_leaderboard = Leaderboard(
         value=overall_df,
-        search_columns=["Username", "Tossup Submission", "Bonus Submission"],
         datatype=["str", "str", "str", "number", "number", "number", "number", "number"],
     )
     gr.on(
         triggers=[leaderboard_timer.tick, refresh_btn.click, app.load],
         fn=refresh_leaderboard,
-        inputs=[gr.State(split)],
         outputs=[tossup_leaderboard, bonus_leaderboard, overall_leaderboard],
     )
 with gr.Blocks(css=custom_css) as demo:
     gr.HTML(TITLE)
-    gr.Markdown(
-        f"## 📋 Register [here]({REGISTRATION_URL}) to participate in our [Human-AI Cooperative Trivia Competition]({COMPETITION_URL}).\n"
-        f"## 🎲 Create and submit your quizbowl AI agents at our [submission site]({SUBMISSION_URL}).",
-        elem_classes="welcome-text",
-    )
     with gr.Tabs(elem_classes="tab-buttons") as tabs:
         for i, (name, split) in enumerate(EVAL_SPLITS.items()):
             with gr.TabItem(f"🏅 {name}", elem_id="llm-benchmark-tab-table", id=i):
                 leaderboard_timer = gr.Timer(LEADERBOARD_REFRESH_INTERVAL)
-                create_leaderboard_interface(demo, split)
         # Add the Metrics Guide tab
         with gr.TabItem("📊 Metrics Guide", elem_id="metrics-guide-tab"):
             gr.Markdown(load_metrics_manual())
 # scheduler = BackgroundScheduler()
 # scheduler.add_job(restart_space, "interval", seconds=1800)
 # scheduler.start()

+import sys
+from datetime import datetime
 import gradio as gr
 import pandas as pd
 from apscheduler.schedulers.background import BackgroundScheduler
 from src.envs import (
     API,
     COMPETITION_URL,
+    CUTOFF_DATES,
     EVAL_RESULTS_PATH,
     EVAL_SPLITS,
     LEADERBOARD_REFRESH_INTERVAL,
     fetch_tossup_leaderboard,
 )
+logger.remove()
+logger.add(sys.stderr, level="INFO", backtrace=True, diagnose=False)
 # Load metrics manual content
 def load_metrics_manual():
     restart_space()
+def refresh_leaderboard(
+    split: str = "tiny_eval",
+    style: bool = True,
+    date: datetime.date = None,
+    profile: gr.OAuthProfile = None,
+):
     download_dataset_snapshot(RESULTS_REPO, EVAL_RESULTS_PATH)
+    try:
+        username = profile and profile.username
+    except Exception:
+        # If the user is not logged in, profile will be None
+        username = None
+    tossup_df = fetch_tossup_leaderboard(split, style, date, username)
+    bonus_df = fetch_bonus_leaderboard(split, style, date, username)
+    overall_df = fetch_overall_leaderboard(split, style, date, username)
     return tossup_df, bonus_df, overall_df
+def create_leaderboard_interface(app, refresh_btn, split: str = "tiny_eval", date: datetime.date = None):
     leaderboard_timer = gr.Timer(LEADERBOARD_REFRESH_INTERVAL)
+    tossup_df, bonus_df, overall_df = refresh_leaderboard(split, style=False, date=date)
+    tossup_leaderboard = gr.Dataframe(
         value=tossup_df,
+        show_search=True,
+        label=" 🛎️ Tossup Round Leaderboard",
+        show_label=True,
         datatype=["str", "number", "number", "number", "number"],
         elem_id="tossup-table",
         interactive=False,  # Ensure it's not interactive
     )
     logger.info(f"Bonus dataframe columns: {bonus_df.columns}")
+    bonus_leaderboard = gr.Dataframe(
         value=bonus_df,
+        show_search=True,
+        label=" 🧐 Bonus Round Leaderboard",
+        show_label=True,
         datatype=["str", "number", "number", "number", "number", "number", "number"],
         elem_id="bonus-table",
         interactive=False,  # Ensure it's not interactive
     )
+    overall_leaderboard = gr.Dataframe(
         value=overall_df,
+        show_search=True,
+        label=" 🥇 Overall Leaderboard",
+        show_label=True,
         datatype=["str", "str", "str", "number", "number", "number", "number", "number"],
     )
     gr.on(
         triggers=[leaderboard_timer.tick, refresh_btn.click, app.load],
         fn=refresh_leaderboard,
+        inputs=[gr.State(split), gr.State(True), gr.State(date)],
         outputs=[tossup_leaderboard, bonus_leaderboard, overall_leaderboard],
     )
 with gr.Blocks(css=custom_css) as demo:
     gr.HTML(TITLE)
+    with gr.Row():
+        with gr.Column(scale=5):
+            gr.Markdown(
+                f"## 📋 Register [here]({REGISTRATION_URL}) to participate in our [Human-AI Cooperative Trivia Competition]({COMPETITION_URL}).\n"
+                f"## 🎲 Create and submit your quizbowl AI agents at our [submission site]({SUBMISSION_URL}).",
+                elem_classes="welcome-text",
+            )
+            logged_note = gr.Markdown(
+                "## 👉 **Note:** <span style='background-color: lightblue; padding: 10px; margin:4px'>Rows in blue with **(*)**</span> are your submissions past the cutoff date and are only visible to you.",
+                visible=False,
+            )
+        with gr.Column(scale=2):
+            beautify_date = datetime.strptime(CUTOFF_DATES["Week 2"], "%Y-%m-%d").strftime("%B %d, %Y")
+            gr.Markdown(f"## 📅 Next Cutoff Date: &nbsp;&nbsp; <span style='color:crimson'>{beautify_date}</span>")
+            gr.LoginButton("Login to privately view your scores on past weeks.")
+            refresh_btn = gr.Button("🔄 Refresh")
     with gr.Tabs(elem_classes="tab-buttons") as tabs:
         for i, (name, split) in enumerate(EVAL_SPLITS.items()):
             with gr.TabItem(f"🏅 {name}", elem_id="llm-benchmark-tab-table", id=i):
                 leaderboard_timer = gr.Timer(LEADERBOARD_REFRESH_INTERVAL)
+                cutoff_date = CUTOFF_DATES[name]
+                date = datetime.strptime(cutoff_date, "%Y-%m-%d").date()
+                create_leaderboard_interface(demo, refresh_btn, split, date)
         # Add the Metrics Guide tab
         with gr.TabItem("📊 Metrics Guide", elem_id="metrics-guide-tab"):
             gr.Markdown(load_metrics_manual())
+    def check_user_logged_in(x: gr.OAuthProfile):
+        return gr.update(visible=x is not None)
+    demo.load(check_user_logged_in, outputs=[logged_note])
 # scheduler = BackgroundScheduler()
 # scheduler.add_job(restart_space, "interval", seconds=1800)
 # scheduler.start()

src/display/css_html_js.py CHANGED Viewed

@@ -46,6 +46,10 @@ table th:first-child {
     white-space: nowrap;
 }
 .table td .cell-wrap span {
     white-space: pre;
 }

     white-space: nowrap;
 }
+.header-row .label p {
+    font-size: 20px !important;
+}
 .table td .cell-wrap span {
     white-space: pre;
 }

src/envs.py CHANGED Viewed

@@ -16,7 +16,11 @@ QUEUE_REPO = f"{OWNER}/advcal-requests"
 RESULTS_REPO = f"{OWNER}/advcal-results"
 LLM_CACHE_REPO = f"{OWNER}/advcal-llm-cache"
 USERS_REPO = f"{OWNER}/registered-users"
 EVAL_SPLITS = {"Week 1": "w1_eval", "Week 0": "tiny_eval"}
 # Important Links
 QANTA_WEBSITE_URL = "https://sites.google.com/view/qanta/home"

 RESULTS_REPO = f"{OWNER}/advcal-results"
 LLM_CACHE_REPO = f"{OWNER}/advcal-llm-cache"
 USERS_REPO = f"{OWNER}/registered-users"
+ADMIN_USERS = ["mgor"]
 EVAL_SPLITS = {"Week 1": "w1_eval", "Week 0": "tiny_eval"}
+CUTOFF_DATES = {"Week 1": "2025-05-30", "Week 0": "2025-05-23", "Week 2": "2025-06-07"}
 # Important Links
 QANTA_WEBSITE_URL = "https://sites.google.com/view/qanta/home"

src/hf_dataset_utils.py CHANGED Viewed

@@ -14,8 +14,7 @@ def download_dataset_snapshot(repo_id, local_dir):
             tqdm_class=None,
         )
     except Exception as e:
-        logger.error(f"Error downloading dataset snapshot from {repo_id} to {local_dir}: {e}. Restarting space.")
-        api.restart_space(repo_id=repo_id)
 def remove_files_from_dataset_repo(repo_id: str, path_patterns: list[str], commit_message: str = "Remove files"):

             tqdm_class=None,
         )
     except Exception as e:
+        logger.error(f"Error downloading dataset snapshot from {repo_id} to {local_dir}: {e}")
 def remove_files_from_dataset_repo(repo_id: str, path_patterns: list[str], commit_message: str = "Remove files"):

src/populate.py CHANGED Viewed

@@ -1,13 +1,14 @@
 # This file is kept for reference only and is not used in the enhanced implementation
 # The actual implementation is in enhanced_leaderboard.py
 import json
 import os
 import pandas as pd
 from loguru import logger
-from src.envs import EVAL_RESULTS_PATH
 def fetch_model_results(repo_dir: str, competition_type: str, eval_split: str) -> list[dict]:
@@ -29,7 +30,27 @@ def fetch_model_results(repo_dir: str, competition_type: str, eval_split: str) -
     return model_results
-def get_tossups_leaderboard_df(repo_dir: str, eval_split: str) -> pd.DataFrame:
     model_results = fetch_model_results(repo_dir, "tossup", eval_split)
     eval_results = []
@@ -38,9 +59,14 @@ def get_tossups_leaderboard_df(repo_dir: str, eval_split: str) -> pd.DataFrame:
             metrics = result["metrics"]
             username = result["username"]
             model_name = result["model_name"]
             row = {
-                "Submission": f"{username}/{model_name}",
                 "Expected Score ⬆️": metrics["expected_score"],
                 "Buzz Precision": metrics["buzz_accuracy"],
                 "Buzz Frequency": metrics["buzz_frequency"],
@@ -67,7 +93,9 @@ def get_tossups_leaderboard_df(repo_dir: str, eval_split: str) -> pd.DataFrame:
     return df
-def get_bonuses_leaderboard_df(repo_dir: str, eval_split: str) -> pd.DataFrame:
     model_results = fetch_model_results(repo_dir, "bonus", eval_split)
     eval_results = []
@@ -76,9 +104,14 @@ def get_bonuses_leaderboard_df(repo_dir: str, eval_split: str) -> pd.DataFrame:
             metrics = result["metrics"]
             username = result["username"]
             model_name = result["model_name"]
             row = {
-                "Submission": f"{username}/{model_name}",
                 "Effect ⬆️": metrics["effectiveness"],
                 "Part Acc": metrics["part_accuracy"],
                 "Question Acc": metrics["question_accuracy"],
@@ -94,7 +127,7 @@ def get_bonuses_leaderboard_df(repo_dir: str, eval_split: str) -> pd.DataFrame:
         eval_results,
         columns=["Submission", "Effect ⬆️", "Part Acc", "Question Acc", "Calibration", "Adoption"],
     )
-    df.sort_values(by="Effect ⬆️", ascending=False, inplace=True)
     return df
@@ -105,36 +138,68 @@ def colour_pos_neg(v):
     return "color: green;" if v > 0 else "color: red;"
-def fetch_tossup_leaderboard(split: str = "tiny_eval", style: bool = True):
-    df = get_tossups_leaderboard_df(EVAL_RESULTS_PATH, split)
     # Apply formatting and styling
-    styled_df = df.style.format(
-        {
-            "Expected Score ⬆️": "{:5.2f}",
-            "Buzz Precision": "{:>6.1%}",
-            "Buzz Position": "{:>6.1f}",
-            "Buzz Frequency": "{:>6.1%}",
-            "Win Rate w/ Humans": "{:>6.1%}",
-        }
-    ).map(colour_pos_neg, subset=["Expected Score ⬆️"])
     return styled_df if style else df
-def fetch_bonus_leaderboard(split: str = "tiny_eval", style: bool = True):
-    df = get_bonuses_leaderboard_df(EVAL_RESULTS_PATH, split)
     # Apply formatting and styling
-    styled_df = df.style.format(
-        {
-            "Question Acc": "{:>6.1%}",
-            "Part Acc": "{:>6.1%}",
-            "Effect ⬆️": "{:5.2f}",
-            "Calibration": "{:>6.1%}",
-            "Adoption": "{:>6.1%}",
-        }
-    ).map(colour_pos_neg, subset=["Effect ⬆️"])
     return styled_df if style else df
@@ -143,7 +208,10 @@ def fetch_bonus_leaderboard(split: str = "tiny_eval", style: bool = True):
 def create_overall_leaderboard(tossup_df: pd.DataFrame, bonus_df: pd.DataFrame) -> pd.DataFrame:
     # Helper to extract username from 'Submission' (format: username/model_name)
     def extract_username(submission: str) -> str:
-        return submission.split("/", 1)[0] if "/" in submission else submission
     # Add username columns
     tossup_df = tossup_df.copy()
@@ -189,21 +257,42 @@ def create_overall_leaderboard(tossup_df: pd.DataFrame, bonus_df: pd.DataFrame)
     return leaderboard.reset_index(drop=True)
-def fetch_overall_leaderboard(split: str = "tiny_eval", style: bool = True):
-    bonus_df = fetch_bonus_leaderboard(split, style=False)
-    tossup_df = fetch_tossup_leaderboard(split, style=False)
     overall_df = create_overall_leaderboard(tossup_df, bonus_df)
     # Apply formatting and styling
-    styled_df = overall_df.style.format(
-        {
-            "Overall Score ⬆️": "{:5.2f}",
-            "Expected Score (Tossup) ⬆️": "{:5.2f}",
-            "Effect (Bonus) ⬆️": "{:5.2f}",
-            "Part Acc (Bonus)": "{:>6.1%}",
-            "Adoption (Bonus)": "{:>6.1%}",
-        },
-        na_rep="-",
-    ).map(colour_pos_neg, subset=["Overall Score ⬆️"])
     return styled_df if style else overall_df

 # This file is kept for reference only and is not used in the enhanced implementation
 # The actual implementation is in enhanced_leaderboard.py
+import datetime
 import json
 import os
 import pandas as pd
 from loguru import logger
+from src.envs import ADMIN_USERS, EVAL_RESULTS_PATH
 def fetch_model_results(repo_dir: str, competition_type: str, eval_split: str) -> list[dict]:
     return model_results
+def get_submission_date(result: dict) -> datetime.date:
+    submission_id = result["id"]
+    datetime_str = submission_id.split("__")[-3]
+    # str format is YYYYMMDD_HHMMSS in UTC. Convert to eastern time date
+    datetime_obj = datetime.datetime.strptime(datetime_str, "%Y%m%d_%H%M%S")
+    return datetime_obj.astimezone(datetime.timezone(datetime.timedelta(hours=-5))).date()
+def qualify_for_private_observation(username: str, logged_in_username: str | None) -> bool:
+    if not logged_in_username:
+        return False
+    if logged_in_username in ADMIN_USERS:
+        return True
+    if logged_in_username == username:
+        return True
+    return False
+def get_tossups_leaderboard_df(
+    repo_dir: str, eval_split: str, cutoff_date: datetime.date = None, logged_in_username: str = None
+) -> pd.DataFrame:
     model_results = fetch_model_results(repo_dir, "tossup", eval_split)
     eval_results = []
             metrics = result["metrics"]
             username = result["username"]
             model_name = result["model_name"]
+            submission_name = f"{username}/{model_name}"
+            if cutoff_date and cutoff_date < get_submission_date(result):
+                if not qualify_for_private_observation(username, logged_in_username):
+                    continue
+                submission_name = f"{username}/{model_name} (*)"
             row = {
+                "Submission": submission_name,
                 "Expected Score ⬆️": metrics["expected_score"],
                 "Buzz Precision": metrics["buzz_accuracy"],
                 "Buzz Frequency": metrics["buzz_frequency"],
     return df
+def get_bonuses_leaderboard_df(
+    repo_dir: str, eval_split: str, cutoff_date: datetime.date = None, logged_in_username: str = None
+) -> pd.DataFrame:
     model_results = fetch_model_results(repo_dir, "bonus", eval_split)
     eval_results = []
             metrics = result["metrics"]
             username = result["username"]
             model_name = result["model_name"]
+            submission_name = f"{username}/{model_name}"
+            if cutoff_date and cutoff_date < get_submission_date(result):
+                if not qualify_for_private_observation(username, logged_in_username):
+                    continue
+                submission_name = f"{username}/{model_name} (*)"
             row = {
+                "Submission": submission_name,
                 "Effect ⬆️": metrics["effectiveness"],
                 "Part Acc": metrics["part_accuracy"],
                 "Question Acc": metrics["question_accuracy"],
         eval_results,
         columns=["Submission", "Effect ⬆️", "Part Acc", "Question Acc", "Calibration", "Adoption"],
     )
+    df.sort_values(by=["Effect ⬆️", "Question Acc", "Part Acc"], ascending=False, inplace=True)
     return df
     return "color: green;" if v > 0 else "color: red;"
+# Helper function to bold the highest value in a column
+def bold_max(s):
+    is_max = s == s.max()
+    return ["font-weight: bold" if v else "" for v in is_max]
+def highlight_private_row(row):
+    return ["background-color: lightblue" if row["Submission"].endswith("(*)") else "" for _ in row]
+def fetch_tossup_leaderboard(
+    split: str = "tiny_eval", style: bool = True, date: datetime.date = None, username: str = None
+):
+    df = get_tossups_leaderboard_df(EVAL_RESULTS_PATH, split, date, username)
     # Apply formatting and styling
+    styled_df = (
+        df.style.format(
+            {
+                "Expected Score ⬆️": "{:6.3f}",
+                "Buzz Precision": "{:>6.1%}",
+                "Buzz Position": "{:>6.1f}",
+                "Buzz Frequency": "{:>6.1%}",
+                "Win Rate w/ Humans": "{:>6.1%}",
+            }
+        )
+        .map(colour_pos_neg, subset=["Expected Score ⬆️"])
+        .apply(highlight_private_row, axis=1)
+        .apply(
+            bold_max,
+            subset=["Expected Score ⬆️", "Buzz Precision", "Buzz Position", "Win Rate w/ Humans"],
+            axis=0,
+        )
+    )
     return styled_df if style else df
+def fetch_bonus_leaderboard(
+    split: str = "tiny_eval", style: bool = True, date: datetime.date = None, username: str = None
+):
+    df = get_bonuses_leaderboard_df(EVAL_RESULTS_PATH, split, date, username)
     # Apply formatting and styling
+    styled_df = (
+        df.style.format(
+            {
+                "Question Acc": "{:>6.1%}",
+                "Part Acc": "{:>6.1%}",
+                "Effect ⬆️": "{:6.3f}",
+                "Calibration": "{:>6.1%}",
+                "Adoption": "{:>6.1%}",
+            }
+        )
+        .map(colour_pos_neg, subset=["Effect ⬆️"])
+        .apply(highlight_private_row, axis=1)
+        .apply(
+            bold_max,
+            subset=["Effect ⬆️", "Question Acc", "Part Acc", "Calibration", "Adoption"],
+            axis=0,
+        )
+    )
     return styled_df if style else df
 def create_overall_leaderboard(tossup_df: pd.DataFrame, bonus_df: pd.DataFrame) -> pd.DataFrame:
     # Helper to extract username from 'Submission' (format: username/model_name)
     def extract_username(submission: str) -> str:
+        username = submission.split("/", 1)[0] if "/" in submission else submission
+        if submission.endswith(" (*)"):
+            username = username + " (*)"
+        return username
     # Add username columns
     tossup_df = tossup_df.copy()
     return leaderboard.reset_index(drop=True)
+def highlight_overall_row(row):
+    return ["background-color: lightblue" if row["Username"].endswith("(*)") else "" for _ in row]
+def fetch_overall_leaderboard(
+    split: str = "tiny_eval", style: bool = True, date: datetime.date = None, username: str = None
+):
+    bonus_df = fetch_bonus_leaderboard(split, style=False, date=date, username=username)
+    tossup_df = fetch_tossup_leaderboard(split, style=False, date=date, username=username)
     overall_df = create_overall_leaderboard(tossup_df, bonus_df)
     # Apply formatting and styling
+    styled_df = (
+        overall_df.style.format(
+            {
+                "Overall Score ⬆️": "{:6.3f}",
+                "Expected Score (Tossup) ⬆️": "{:6.3f}",
+                "Effect (Bonus) ⬆️": "{:6.3f}",
+                "Part Acc (Bonus)": "{:>6.1%}",
+                "Adoption (Bonus)": "{:>6.1%}",
+            },
+            na_rep="-",
+        )
+        .map(colour_pos_neg, subset=["Overall Score ⬆️"])
+        .apply(highlight_overall_row, axis=1)
+        .apply(
+            bold_max,
+            subset=[
+                "Overall Score ⬆️",
+                "Expected Score (Tossup) ⬆️",
+                "Effect (Bonus) ⬆️",
+                "Part Acc (Bonus)",
+                "Adoption (Bonus)",
+            ],
+            axis=0,
+        )
+    )
     return styled_df if style else overall_df