Spaces:

open-llm-leaderboard
/

open_llm_leaderboard

Running on CPU Upgrade

App Files Files Community

1147

chriscanal commited on Sep 22, 2023

Commit

1d6adda

1 Parent(s): 319b0b7

Added graphs tab

Browse files

Added graphs tab to show the progress of all models over time against human baselines

Files changed (1) hide show

app.py +22 -2

app.py CHANGED Viewed

@@ -16,6 +16,13 @@ from src.assets.text_content import (
     LLM_BENCHMARKS_TEXT,
     TITLE,
 )
 from src.display_models.get_model_metadata import DO_NOT_SUBMIT_MODELS, ModelType
 from src.display_models.utils import (
     AutoEvalColumn,
@@ -97,6 +104,7 @@ else:
 original_df = get_leaderboard_df(eval_results, eval_results_private, COLS, BENCHMARK_COLS)
 models = original_df["model_name_for_query"].tolist() # needed for model backlinks in their to the leaderboard
 to_be_dumped = f"models = {repr(models)}\n"
@@ -349,7 +357,6 @@ with demo:
                             interactive=True,
                             elem_id="filter-columns-size",
                         )
             leaderboard_table = gr.components.Dataframe(
                 value=leaderboard_df[
                     [AutoEvalColumn.model_type_symbol.name, AutoEvalColumn.model.name]
@@ -466,6 +473,19 @@ with demo:
                 leaderboard_table,
                 queue=True,
             )
         with gr.TabItem("📝 About", elem_id="llm-benchmark-tab-table", id=2):
             gr.Markdown(LLM_BENCHMARKS_TEXT, elem_classes="markdown-text")
@@ -588,4 +608,4 @@ with demo:
 scheduler = BackgroundScheduler()
 scheduler.add_job(restart_space, "interval", seconds=1800)
 scheduler.start()
-demo.queue(concurrency_count=40).launch()

     LLM_BENCHMARKS_TEXT,
     TITLE,
 )
+from src.display_models.plot_results import (
+    create_metric_plot_obj,
+    create_scores_df,
+    create_plot_df,
+    join_model_info_with_results,
+    HUMAN_BASELINES,
+)
 from src.display_models.get_model_metadata import DO_NOT_SUBMIT_MODELS, ModelType
 from src.display_models.utils import (
     AutoEvalColumn,
 original_df = get_leaderboard_df(eval_results, eval_results_private, COLS, BENCHMARK_COLS)
 models = original_df["model_name_for_query"].tolist() # needed for model backlinks in their to the leaderboard
+plot_df = create_plot_df(create_scores_df(join_model_info_with_results(original_df)))
 to_be_dumped = f"models = {repr(models)}\n"
                             interactive=True,
                             elem_id="filter-columns-size",
                         )
             leaderboard_table = gr.components.Dataframe(
                 value=leaderboard_df[
                     [AutoEvalColumn.model_type_symbol.name, AutoEvalColumn.model.name]
                 leaderboard_table,
                 queue=True,
             )
+        with gr.TabItem("📈 Benchmark Graphs", elem_id="llm-benchmark-tab-table", id=4):
+            with gr.Row():
+                with gr.Column():
+                    chart = create_metric_plot_obj(plot_df, ["Average ⬆️"], HUMAN_BASELINES).properties(
+                        title="Average of Top Scores and Human Baseline Over Time"
+                    )
+                    gr.Plot(value=chart, interactive=False, width=500, height=500)
+                with gr.Column():
+                    chart = create_metric_plot_obj(
+                        plot_df, ["ARC", "HellaSwag", "MMLU", "TruthfulQA"], HUMAN_BASELINES
+                    ).properties(title="Top Scores and Human Baseline Over Time")
+                    gr.Plot(value=chart, interactive=False, width=500, height=500)
         with gr.TabItem("📝 About", elem_id="llm-benchmark-tab-table", id=2):
             gr.Markdown(LLM_BENCHMARKS_TEXT, elem_classes="markdown-text")
 scheduler = BackgroundScheduler()
 scheduler.add_job(restart_space, "interval", seconds=1800)
 scheduler.start()
+demo.queue(concurrency_count=40).launch()