IL-TUR-Leaderboard

Running

abhinav-joshi commited on May 29, 2024

Commit

967b0ef

1 Parent(s): 943a9a1

add eval name

Files changed (3) hide show

app.py CHANGED Viewed

@@ -32,7 +32,9 @@ from src.submission.submit import add_new_eval
 def restart_space():
-    API.restart_space(repo_id=REPO_ID)
 try:
@@ -62,7 +64,9 @@ except Exception:
 raw_data, original_df = get_leaderboard_df(EVAL_RESULTS_PATH, EVAL_REQUESTS_PATH, COLS, BENCHMARK_COLS)
 leaderboard_df = original_df.copy()
 (
     finished_eval_queue_df,
@@ -82,8 +86,8 @@ def update_table(
     query: str,
 ):
     filtered_df = filter_models(hidden_df, type_query, size_query, precision_query, show_deleted)
-    # filtered_df = filter_queries(query, filtered_df)
-    df = select_columns(hidden_df, columns)
     return df
@@ -92,13 +96,20 @@ def search_table(df: pd.DataFrame, query: str) -> pd.DataFrame:
 def select_columns(df: pd.DataFrame, columns: list) -> pd.DataFrame:
     always_here_cols = [
         # AutoEvalColumn.model_type_symbol.name,
-        AutoEvalColumn.team.name,
     ]
     # We use COLS to maintain sorting
     filtered_df = df[always_here_cols + [c for c in COLS if c in df.columns and c in columns]]
     # filtered_df = df[[c for c in COLS if c in df.columns and c in columns]]
     return filtered_df

 def restart_space():
+    # breakpoint()
+    # API.restart_space(repo_id=REPO_ID)
+    return
 try:
 raw_data, original_df = get_leaderboard_df(EVAL_RESULTS_PATH, EVAL_REQUESTS_PATH, COLS, BENCHMARK_COLS)
 leaderboard_df = original_df.copy()
+# breakpoint()
 (
     finished_eval_queue_df,
     query: str,
 ):
     filtered_df = filter_models(hidden_df, type_query, size_query, precision_query, show_deleted)
+    filtered_df = filter_queries(query, filtered_df)
+    df = select_columns(filtered_df, columns)
     return df
 def select_columns(df: pd.DataFrame, columns: list) -> pd.DataFrame:
+    # breakpoint()
     always_here_cols = [
         # AutoEvalColumn.model_type_symbol.name,
+        # AutoEvalColumn.model_name.name,
+        "eval_name"
     ]
+    print(
+        "---------------",
+        AutoEvalColumn.model_name.name,
+    )
     # We use COLS to maintain sorting
     filtered_df = df[always_here_cols + [c for c in COLS if c in df.columns and c in columns]]
     # filtered_df = df[[c for c in COLS if c in df.columns and c in columns]]
+    # breakpoint()
     return filtered_df

src/display/utils.py CHANGED Viewed

@@ -26,9 +26,10 @@ class ColumnContent:
 auto_eval_column_dict = []
 # Init
 # auto_eval_column_dict.append(["model_type_symbol", ColumnContent, ColumnContent("T", "str", True, never_hidden=True)])
-auto_eval_column_dict.append(["team", ColumnContent, ColumnContent("Team", "markdown", True, never_hidden=True)])
 # auto_eval_column_dict.append(["team_name", ColumnContent, ColumnContent("team_name", "str", True)])
 # Scores
 auto_eval_column_dict.append(["average", ColumnContent, ColumnContent("Average ⬆️", "number", True)])
 for task in Tasks:
     auto_eval_column_dict.append([task.name, ColumnContent, ColumnContent(task.value.col_name, "number", True)])

 auto_eval_column_dict = []
 # Init
 # auto_eval_column_dict.append(["model_type_symbol", ColumnContent, ColumnContent("T", "str", True, never_hidden=True)])
+# auto_eval_column_dict.append(["team", ColumnContent, ColumnContent("Team", "markdown", True, never_hidden=True)])
 # auto_eval_column_dict.append(["team_name", ColumnContent, ColumnContent("team_name", "str", True)])
 # Scores
+auto_eval_column_dict.append(["eval_name", ColumnContent, ColumnContent("eval_name", "str", True)])
 auto_eval_column_dict.append(["average", ColumnContent, ColumnContent("Average ⬆️", "number", True)])
 for task in Tasks:
     auto_eval_column_dict.append([task.name, ColumnContent, ColumnContent(task.value.col_name, "number", True)])

src/populate.py CHANGED Viewed

@@ -14,11 +14,13 @@ def get_leaderboard_df(results_path: str, requests_path: str, cols: list, benchm
     all_data_json = [v.to_dict() for v in raw_data]
     df = pd.DataFrame.from_records(all_data_json)
     df = df.sort_values(by=[AutoEvalColumn.average.name], ascending=False)
-    df = df[cols].round(decimals=2)
     # filter out if any of the benchmarks have not been produced
     df = df[has_no_nan_values(df, benchmark_cols)]
     return raw_data, df

     all_data_json = [v.to_dict() for v in raw_data]
     df = pd.DataFrame.from_records(all_data_json)
+    # breakpoint()
     df = df.sort_values(by=[AutoEvalColumn.average.name], ascending=False)
+    # df = df[cols].round(decimals=2)
     # filter out if any of the benchmarks have not been produced
     df = df[has_no_nan_values(df, benchmark_cols)]
+    # breakpoint()
     return raw_data, df