Spaces:

fair-forward
/

languagebench

Running

App Files Files Community

David Pomerenke commited on Feb 21

Commit

a65282b

1 Parent(s): d597fe1

Nice tables and plots

Browse files

Files changed (3) hide show

app.py +124 -41
evals.py +3 -3
results.json +302 -92

app.py CHANGED Viewed

@@ -2,12 +2,12 @@ import gradio as gr
 import json
 import pandas as pd
 import plotly.graph_objects as go
-from plotly.subplots import make_subplots
 # Load and process results
 with open("results.json") as f:
     results = json.load(f)
 def create_model_comparison_plot(results):
     # Extract all unique models
     models = set()
@@ -15,96 +15,179 @@ def create_model_comparison_plot(results):
         for score in lang["scores"]:
             models.add(score["model"])
     models = list(models)
     # Create traces for each model
     traces = []
     for model in models:
         x_vals = []  # languages
         y_vals = []  # BLEU scores
         for lang in results:
-            model_score = next((s["bleu"] for s in lang["scores"] if s["model"] == model), None)
             if model_score is not None:
                 x_vals.append(lang["language_name"])
                 y_vals.append(model_score)
-        traces.append(go.Bar(
-            name=model.split('/')[-1],
-            x=x_vals,
-            y=y_vals,
-        ))
     fig = go.Figure(data=traces)
     fig.update_layout(
         title="BLEU Scores by Model and Language",
         xaxis_title="Language",
         yaxis_title="BLEU Score",
-        barmode='group',
-        height=500
     )
     return fig
 def create_scatter_plot(results):
     fig = go.Figure()
     x_vals = [lang["speakers"] / 1_000_000 for lang in results]  # Convert to millions
     y_vals = [lang["bleu"] for lang in results]
     labels = [lang["language_name"] for lang in results]
-    fig.add_trace(go.Scatter(
-        x=x_vals,
-        y=y_vals,
-        mode='markers+text',
-        text=labels,
-        textposition="top center",
-        hovertemplate="<b>%{text}</b><br>" +
-                      "Speakers: %{x:.1f}M<br>" +
-                      "BLEU Score: %{y:.3f}<extra></extra>"
-    ))
     fig.update_layout(
         title="Language Coverage: Speakers vs BLEU Score",
         xaxis_title="Number of Speakers (Millions)",
         yaxis_title="Average BLEU Score",
         height=500,
-        showlegend=False
     )
     # Use log scale for x-axis since speaker numbers vary widely
     fig.update_xaxes(type="log")
     return fig
 def create_results_df(results):
     # Create a list to store flattened data
     flat_data = []
     for lang in results:
         row = {
             "Language": lang["language_name"],
             "Speakers (M)": round(lang["speakers"] / 1_000_000, 1),
-            "Average BLEU": round(lang["bleu"], 3),
         }
-        # Add individual model scores
         for score in lang["scores"]:
-            model_name = score["model"].split('/')[-1]
-            row[f"{model_name} BLEU"] = round(score["bleu"], 3)
-        flat_data.append(row)
-    return pd.DataFrame(flat_data)
 # Create the visualization components
 with gr.Blocks(title="AI Language Translation Benchmark") as demo:
     gr.Markdown("# AI Language Translation Benchmark")
-    gr.Markdown("Comparing translation performance across different AI models and languages")
     df = create_results_df(results)
     bar_plot = create_model_comparison_plot(results)
     scatter_plot = create_scatter_plot(results)
-    gr.DataFrame(value=df, label="Translation Results", show_search="search")
     gr.Plot(value=bar_plot, label="Model Comparison")
     gr.Plot(value=scatter_plot, label="Language Coverage")
-demo.launch()

 import json
 import pandas as pd
 import plotly.graph_objects as go
 # Load and process results
 with open("results.json") as f:
     results = json.load(f)
 def create_model_comparison_plot(results):
     # Extract all unique models
     models = set()
         for score in lang["scores"]:
             models.add(score["model"])
     models = list(models)
     # Create traces for each model
     traces = []
     for model in models:
         x_vals = []  # languages
         y_vals = []  # BLEU scores
         for lang in results:
+            model_score = next(
+                (s["bleu"] for s in lang["scores"] if s["model"] == model), None
+            )
             if model_score is not None:
                 x_vals.append(lang["language_name"])
                 y_vals.append(model_score)
+        traces.append(
+            go.Bar(
+                name=model.split("/")[-1],
+                x=x_vals,
+                y=y_vals,
+            )
+        )
     fig = go.Figure(data=traces)
     fig.update_layout(
         title="BLEU Scores by Model and Language",
         xaxis_title="Language",
         yaxis_title="BLEU Score",
+        barmode="group",
+        height=500,
     )
     return fig
 def create_scatter_plot(results):
     fig = go.Figure()
     x_vals = [lang["speakers"] / 1_000_000 for lang in results]  # Convert to millions
     y_vals = [lang["bleu"] for lang in results]
     labels = [lang["language_name"] for lang in results]
+    fig.add_trace(
+        go.Scatter(
+            x=x_vals,
+            y=y_vals,
+            mode="markers+text",
+            text=labels,
+            textposition="top center",
+            hovertemplate="<b>%{text}</b><br>"
+            + "Speakers: %{x:.1f}M<br>"
+            + "BLEU Score: %{y:.3f}<extra></extra>",
+        )
+    )
     fig.update_layout(
         title="Language Coverage: Speakers vs BLEU Score",
         xaxis_title="Number of Speakers (Millions)",
         yaxis_title="Average BLEU Score",
         height=500,
+        showlegend=False,
     )
     # Use log scale for x-axis since speaker numbers vary widely
     fig.update_xaxes(type="log")
     return fig
 def create_results_df(results):
     # Create a list to store flattened data
     flat_data = []
     for lang in results:
+        # Find the best model and its BLEU score
+        best_score = max(lang["scores"] or [{"bleu": None, "model": None}], key=lambda x: x["bleu"])
         row = {
             "Language": lang["language_name"],
             "Speakers (M)": round(lang["speakers"] / 1_000_000, 1),
+            "Models Tested": len(lang["scores"]),
+            "Average BLEU": round(lang["bleu"], 3) if lang["bleu"] is not None else "N/A",
+            "Best Model": best_score["model"] if best_score["model"] is not None else "N/A",
+            "Best Model BLEU": round(best_score["bleu"], 3) if best_score["bleu"] is not None else "N/A",
         }
+        flat_data.append(row)
+    return pd.DataFrame(flat_data)
+def create_leaderboard_df(results):
+    # Sort languages by average BLEU to determine resource categories
+    langs_with_bleu = [lang for lang in results if lang["bleu"] is not None]
+    sorted_langs = sorted(langs_with_bleu, key=lambda x: x["bleu"], reverse=True)
+    n_langs = len(sorted_langs)
+    high_cutoff = n_langs // 4  # top 25%
+    low_cutoff = n_langs - n_langs // 4  # bottom 25%
+    # Create sets of languages for each category
+    high_resource = {lang["language_name"] for lang in sorted_langs[:high_cutoff]}
+    low_resource = {lang["language_name"] for lang in sorted_langs[low_cutoff:]}
+    # Get all model scores with categorization
+    model_scores = {}
+    for lang in results:
+        category = ("High-Resource" if lang["language_name"] in high_resource else
+                   "Low-Resource" if lang["language_name"] in low_resource else
+                   "Mid-Resource")
         for score in lang["scores"]:
+            model_name = score["model"].split("/")[-1]
+            if model_name not in model_scores:
+                model_scores[model_name] = {
+                    "High-Resource": [],
+                    "Mid-Resource": [],
+                    "Low-Resource": []
+                }
+            model_scores[model_name][category].append(score["bleu"])
+    # Calculate average scores and create DataFrame
+    leaderboard_data = []
+    for model, categories in model_scores.items():
+        # Calculate averages for each category
+        high_avg = round(sum(categories["High-Resource"]) / len(categories["High-Resource"]), 3) if categories["High-Resource"] else 0
+        mid_avg = round(sum(categories["Mid-Resource"]) / len(categories["Mid-Resource"]), 3) if categories["Mid-Resource"] else 0
+        low_avg = round(sum(categories["Low-Resource"]) / len(categories["Low-Resource"]), 3) if categories["Low-Resource"] else 0
+        # Calculate overall average
+        all_scores = (categories["High-Resource"] +
+                     categories["Mid-Resource"] +
+                     categories["Low-Resource"])
+        overall_avg = round(sum(all_scores) / len(all_scores), 3)
+        leaderboard_data.append({
+            "Model": model,
+            "Overall BLEU": overall_avg,
+            "High-Resource BLEU": high_avg,
+            "Mid-Resource BLEU": mid_avg,
+            "Low-Resource BLEU": low_avg,
+            "Languages Tested": len(all_scores),
+        })
+    # Sort by overall BLEU
+    df = pd.DataFrame(leaderboard_data)
+    df = df.sort_values("Overall BLEU", ascending=False)
+    # Add rank and medals
+    df["Rank"] = range(1, len(df) + 1)
+    df["Rank"] = df["Rank"].apply(
+        lambda x: "🥇" if x == 1 else "🥈" if x == 2 else "🥉" if x == 3 else str(x)
+    )
+    # Reorder columns
+    df = df[["Rank", "Model", "Overall BLEU", "High-Resource BLEU",
+             "Mid-Resource BLEU", "Low-Resource BLEU", "Languages Tested"]]
+    return df
 # Create the visualization components
 with gr.Blocks(title="AI Language Translation Benchmark") as demo:
     gr.Markdown("# AI Language Translation Benchmark")
+    gr.Markdown(
+        "Comparing translation performance across different AI models and languages"
+    )
     df = create_results_df(results)
+    leaderboard_df = create_leaderboard_df(results)
     bar_plot = create_model_comparison_plot(results)
     scatter_plot = create_scatter_plot(results)
+    gr.DataFrame(value=leaderboard_df, label="Model Leaderboard", show_search=False)
     gr.Plot(value=bar_plot, label="Model Comparison")
+    gr.DataFrame(value=df, label="Language Results", show_search="search")
     gr.Plot(value=scatter_plot, label="Language Coverage")
+demo.launch()

evals.py CHANGED Viewed

@@ -95,7 +95,7 @@ languages = pd.merge(benchmark_languages, languages, on="language_code", how="ou
 languages = pd.merge(languages, script_names, on="script_code", how="left")
 languages["in_benchmark"] = languages["in_benchmark"].fillna(False)
 languages = languages.sort_values(by="speakers", ascending=False)
-languages = languages.iloc[:20]
 # sample languages to translate to
 target_languages_NEW = languages[languages["in_benchmark"]].sample(
@@ -103,7 +103,7 @@ target_languages_NEW = languages[languages["in_benchmark"]].sample(
 )
 # sample languages to analyze with all models
 detailed_languages = languages[languages["in_benchmark"]].sample(
-    n=5, random_state=42
 )
@@ -214,7 +214,7 @@ async def main():
                 "language_code": language.language_code,
                 "speakers": language.speakers if not pd.isna(language.speakers) else 0,
                 "scores": scores,
-                "bleu": mean([s["bleu"] for s in scores]) or -0.02,
                 # "bert_score": mean([s["bert_score"] for s in scores]),
             }
         )

 languages = pd.merge(languages, script_names, on="script_code", how="left")
 languages["in_benchmark"] = languages["in_benchmark"].fillna(False)
 languages = languages.sort_values(by="speakers", ascending=False)
+languages = languages.iloc[:30]
 # sample languages to translate to
 target_languages_NEW = languages[languages["in_benchmark"]].sample(
 )
 # sample languages to analyze with all models
 detailed_languages = languages[languages["in_benchmark"]].sample(
+    n=10, random_state=42
 )
                 "language_code": language.language_code,
                 "speakers": language.speakers if not pd.isna(language.speakers) else 0,
                 "scores": scores,
+                "bleu": mean([s["bleu"] for s in scores]) if scores else None,
                 # "bert_score": mean([s["bert_score"] for s in scores]),
             }
         )

results.json CHANGED Viewed

@@ -6,62 +6,42 @@
     "scores": [
       {
         "model": "openai/gpt-4o-mini",
-        "bleu": 0.5103385437635193
       },
       {
         "model": "meta-llama/llama-3.3-70b-instruct",
-        "bleu": 0.4845283039311465
       },
       {
         "model": "mistralai/mistral-small-24b-instruct-2501",
-        "bleu": 0.4735424836788773
       },
       {
         "model": "google/gemini-2.0-flash-001",
-        "bleu": 0.5639490578152662
       },
       {
         "model": "deepseek/deepseek-chat",
-        "bleu": 0.5547524505965893
       },
       {
         "model": "microsoft/phi-4",
-        "bleu": 0.48008677312779885
       }
     ],
-    "bleu": 0.5111996021521995
   },
   {
     "language_name": "Mandarin Chinese",
     "language_code": "cmn",
     "speakers": 1074000000.0,
     "scores": [
-      {
-        "model": "openai/gpt-4o-mini",
-        "bleu": 0.38427885971806375
-      },
       {
         "model": "meta-llama/llama-3.3-70b-instruct",
-        "bleu": 0.4309762560114817
-      },
-      {
-        "model": "mistralai/mistral-small-24b-instruct-2501",
-        "bleu": 0.40933363203497697
-      },
-      {
-        "model": "google/gemini-2.0-flash-001",
-        "bleu": 0.4486368724887284
-      },
-      {
-        "model": "deepseek/deepseek-chat",
-        "bleu": 0.4354691779014211
-      },
-      {
-        "model": "microsoft/phi-4",
-        "bleu": 0.3597312915524714
       }
     ],
-    "bleu": 0.41140434828452394
   },
   {
     "language_name": "Spanish",
@@ -70,10 +50,10 @@
     "scores": [
       {
         "model": "meta-llama/llama-3.3-70b-instruct",
-        "bleu": 0.41303609006378467
       }
     ],
-    "bleu": 0.41303609006378467
   },
   {
     "language_name": "Hindi",
@@ -82,10 +62,10 @@
     "scores": [
       {
         "model": "meta-llama/llama-3.3-70b-instruct",
-        "bleu": 0.39051313583666847
       }
     ],
-    "bleu": 0.39051313583666847
   },
   {
     "language_name": "Bengali",
@@ -94,10 +74,10 @@
     "scores": [
       {
         "model": "meta-llama/llama-3.3-70b-instruct",
-        "bleu": 0.3922760582029
       }
     ],
-    "bleu": 0.3922760582029
   },
   {
     "language_name": "Portuguese",
@@ -106,10 +86,10 @@
     "scores": [
       {
         "model": "meta-llama/llama-3.3-70b-instruct",
-        "bleu": 0.3569933404494365
       }
     ],
-    "bleu": 0.3569933404494365
   },
   {
     "language_name": "French",
@@ -118,10 +98,10 @@
     "scores": [
       {
         "model": "meta-llama/llama-3.3-70b-instruct",
-        "bleu": 0.4092873981445945
       }
     ],
-    "bleu": 0.4092873981445945
   },
   {
     "language_name": "Indonesian",
@@ -130,10 +110,10 @@
     "scores": [
       {
         "model": "meta-llama/llama-3.3-70b-instruct",
-        "bleu": 0.3671689105193036
       }
     ],
-    "bleu": 0.3671689105193036
   },
   {
     "language_name": "Russian",
@@ -142,42 +122,62 @@
     "scores": [
       {
         "model": "openai/gpt-4o-mini",
-        "bleu": 0.3821837153890323
       },
       {
         "model": "meta-llama/llama-3.3-70b-instruct",
-        "bleu": 0.3974431757931015
       },
       {
         "model": "mistralai/mistral-small-24b-instruct-2501",
-        "bleu": 0.2541840010941474
       },
       {
         "model": "google/gemini-2.0-flash-001",
-        "bleu": 0.43388586741780116
       },
       {
         "model": "deepseek/deepseek-chat",
-        "bleu": 0.4148930468752925
       },
       {
         "model": "microsoft/phi-4",
-        "bleu": 0.3530948239011605
       }
     ],
-    "bleu": 0.3726141050784226
   },
   {
     "language_name": "Japanese",
     "language_code": "jpn",
     "speakers": 128000000.0,
     "scores": [
       {
         "model": "meta-llama/llama-3.3-70b-instruct",
-        "bleu": 0.294012705268792
       }
     ],
-    "bleu": 0.294012705268792
   },
   {
     "language_name": "Eastern Punjabi",
@@ -186,46 +186,106 @@
     "scores": [
       {
         "model": "meta-llama/llama-3.3-70b-instruct",
-        "bleu": 0.37715805829458243
       }
     ],
-    "bleu": 0.37715805829458243
   },
   {
     "language_name": "Standard German",
     "language_code": "deu",
     "speakers": 105000000.0,
     "scores": [
       {
         "model": "meta-llama/llama-3.3-70b-instruct",
-        "bleu": 0.39190456406769925
       }
     ],
-    "bleu": 0.39190456406769925
   },
   {
     "language_name": "Egyptian Arabic",
     "language_code": "arz",
     "speakers": 100542400.0,
     "scores": [
       {
         "model": "meta-llama/llama-3.3-70b-instruct",
-        "bleu": 0.2769739921069721
       }
     ],
-    "bleu": 0.2769739921069721
   },
   {
     "language_name": "Urdu",
     "language_code": "urd",
     "speakers": 94022900.0,
     "scores": [
       {
         "model": "meta-llama/llama-3.3-70b-instruct",
-        "bleu": 0.30532627541695706
       }
     ],
-    "bleu": 0.30532627541695706
   },
   {
     "language_name": "Filipino",
@@ -234,109 +294,259 @@
     "scores": [
       {
         "model": "meta-llama/llama-3.3-70b-instruct",
-        "bleu": 0.38380780370055084
       }
     ],
-    "bleu": 0.38380780370055084
   },
   {
     "language_name": "Javanese",
     "language_code": "jav",
     "speakers": 84308740.0,
     "scores": [
       {
         "model": "openai/gpt-4o-mini",
-        "bleu": 0.303156768433342
       },
       {
         "model": "meta-llama/llama-3.3-70b-instruct",
-        "bleu": 0.3147001751424492
       },
       {
         "model": "mistralai/mistral-small-24b-instruct-2501",
-        "bleu": 0.1507764424388819
       },
       {
         "model": "google/gemini-2.0-flash-001",
-        "bleu": 0.41409824694226155
       },
       {
         "model": "deepseek/deepseek-chat",
-        "bleu": 0.3240536705195471
       },
       {
         "model": "microsoft/phi-4",
-        "bleu": 0.22770614610795217
       }
     ],
-    "bleu": 0.2890819082640723
   },
   {
-    "language_name": "Marathi",
-    "language_code": "mar",
-    "speakers": 83100000.0,
     "scores": [
       {
         "model": "meta-llama/llama-3.3-70b-instruct",
-        "bleu": 0.3754377211201414
       }
     ],
-    "bleu": 0.3754377211201414
   },
   {
-    "language_name": "Swahili",
-    "language_code": "swh",
-    "speakers": 82300000.0,
     "scores": [
       {
         "model": "openai/gpt-4o-mini",
-        "bleu": 0.3698648558947496
       },
       {
         "model": "meta-llama/llama-3.3-70b-instruct",
-        "bleu": 0.31914577240036923
       },
       {
         "model": "mistralai/mistral-small-24b-instruct-2501",
-        "bleu": 0.16066681130875948
       },
       {
         "model": "google/gemini-2.0-flash-001",
-        "bleu": 0.3934769032884265
       },
       {
         "model": "deepseek/deepseek-chat",
-        "bleu": 0.3605623890073268
       },
       {
         "model": "microsoft/phi-4",
-        "bleu": 0.175030478984087
       }
     ],
-    "bleu": 0.2964578684806198
   },
   {
-    "language_name": "Turkish",
-    "language_code": "tur",
-    "speakers": 82231620.0,
     "scores": [
       {
         "model": "meta-llama/llama-3.3-70b-instruct",
-        "bleu": 0.37080958221553817
       }
     ],
-    "bleu": 0.37080958221553817
   },
   {
-    "language_name": "Telugu",
-    "language_code": "tel",
-    "speakers": 82000000.0,
     "scores": [
       {
         "model": "meta-llama/llama-3.3-70b-instruct",
-        "bleu": 0.35400532981470717
       }
     ],
-    "bleu": 0.35400532981470717
   }
 ]

     "scores": [
       {
         "model": "openai/gpt-4o-mini",
+        "bleu": 0.47104084248165595
       },
       {
         "model": "meta-llama/llama-3.3-70b-instruct",
+        "bleu": 0.4207265890491719
       },
       {
         "model": "mistralai/mistral-small-24b-instruct-2501",
+        "bleu": 0.4642719176436136
       },
       {
         "model": "google/gemini-2.0-flash-001",
+        "bleu": 0.5237470882988915
       },
       {
         "model": "deepseek/deepseek-chat",
+        "bleu": 0.516570670982587
       },
       {
         "model": "microsoft/phi-4",
+        "bleu": 0.44668905281921456
       }
     ],
+    "bleu": 0.47384102687918905
   },
   {
     "language_name": "Mandarin Chinese",
     "language_code": "cmn",
     "speakers": 1074000000.0,
     "scores": [
       {
         "model": "meta-llama/llama-3.3-70b-instruct",
+        "bleu": 0.48254866511762295
       }
     ],
+    "bleu": 0.48254866511762295
   },
   {
     "language_name": "Spanish",
     "scores": [
       {
         "model": "meta-llama/llama-3.3-70b-instruct",
+        "bleu": 0.31606621368361204
       }
     ],
+    "bleu": 0.31606621368361204
   },
   {
     "language_name": "Hindi",
     "scores": [
       {
         "model": "meta-llama/llama-3.3-70b-instruct",
+        "bleu": 0.3273225856613046
       }
     ],
+    "bleu": 0.3273225856613046
   },
   {
     "language_name": "Bengali",
     "scores": [
       {
         "model": "meta-llama/llama-3.3-70b-instruct",
+        "bleu": 0.23110496173302814
       }
     ],
+    "bleu": 0.23110496173302814
   },
   {
     "language_name": "Portuguese",
     "scores": [
       {
         "model": "meta-llama/llama-3.3-70b-instruct",
+        "bleu": 0.35032125995743685
       }
     ],
+    "bleu": 0.35032125995743685
   },
   {
     "language_name": "French",
     "scores": [
       {
         "model": "meta-llama/llama-3.3-70b-instruct",
+        "bleu": 0.31625053573185663
       }
     ],
+    "bleu": 0.31625053573185663
   },
   {
     "language_name": "Indonesian",
     "scores": [
       {
         "model": "meta-llama/llama-3.3-70b-instruct",
+        "bleu": 0.3112185444311794
       }
     ],
+    "bleu": 0.3112185444311794
   },
   {
     "language_name": "Russian",
     "scores": [
       {
         "model": "openai/gpt-4o-mini",
+        "bleu": 0.32615858913589074
       },
       {
         "model": "meta-llama/llama-3.3-70b-instruct",
+        "bleu": 0.3244999119385425
       },
       {
         "model": "mistralai/mistral-small-24b-instruct-2501",
+        "bleu": 0.315801608032821
       },
       {
         "model": "google/gemini-2.0-flash-001",
+        "bleu": 0.3683733679689521
       },
       {
         "model": "deepseek/deepseek-chat",
+        "bleu": 0.35988734604889566
       },
       {
         "model": "microsoft/phi-4",
+        "bleu": 0.31289371159965956
       }
     ],
+    "bleu": 0.3346024224541269
   },
   {
     "language_name": "Japanese",
     "language_code": "jpn",
     "speakers": 128000000.0,
     "scores": [
+      {
+        "model": "openai/gpt-4o-mini",
+        "bleu": 0.28991739992953497
+      },
       {
         "model": "meta-llama/llama-3.3-70b-instruct",
+        "bleu": 0.2675679907215641
+      },
+      {
+        "model": "mistralai/mistral-small-24b-instruct-2501",
+        "bleu": 0.21348802780641032
+      },
+      {
+        "model": "google/gemini-2.0-flash-001",
+        "bleu": 0.3345265427223546
+      },
+      {
+        "model": "deepseek/deepseek-chat",
+        "bleu": 0.3101203037558905
+      },
+      {
+        "model": "microsoft/phi-4",
+        "bleu": 0.2585222780278109
       }
     ],
+    "bleu": 0.2790237571605942
   },
   {
     "language_name": "Eastern Punjabi",
     "scores": [
       {
         "model": "meta-llama/llama-3.3-70b-instruct",
+        "bleu": 0.27325501919134315
       }
     ],
+    "bleu": 0.27325501919134315
   },
   {
     "language_name": "Standard German",
     "language_code": "deu",
     "speakers": 105000000.0,
     "scores": [
+      {
+        "model": "openai/gpt-4o-mini",
+        "bleu": 0.39019323183176663
+      },
       {
         "model": "meta-llama/llama-3.3-70b-instruct",
+        "bleu": 0.37266353070949576
+      },
+      {
+        "model": "mistralai/mistral-small-24b-instruct-2501",
+        "bleu": 0.3647632576435612
+      },
+      {
+        "model": "google/gemini-2.0-flash-001",
+        "bleu": 0.4466723425292597
+      },
+      {
+        "model": "deepseek/deepseek-chat",
+        "bleu": 0.4045496243095387
+      },
+      {
+        "model": "microsoft/phi-4",
+        "bleu": 0.36047992103881465
       }
     ],
+    "bleu": 0.3898869846770727
   },
   {
     "language_name": "Egyptian Arabic",
     "language_code": "arz",
     "speakers": 100542400.0,
     "scores": [
+      {
+        "model": "openai/gpt-4o-mini",
+        "bleu": 0.2339779422333898
+      },
       {
         "model": "meta-llama/llama-3.3-70b-instruct",
+        "bleu": 0.20475486619797384
+      },
+      {
+        "model": "mistralai/mistral-small-24b-instruct-2501",
+        "bleu": 0.20783660453505234
+      },
+      {
+        "model": "google/gemini-2.0-flash-001",
+        "bleu": 0.2840808045687292
+      },
+      {
+        "model": "deepseek/deepseek-chat",
+        "bleu": 0.2786287793608212
+      },
+      {
+        "model": "microsoft/phi-4",
+        "bleu": 0.19969813973959594
       }
     ],
+    "bleu": 0.23482952277259375
   },
   {
     "language_name": "Urdu",
     "language_code": "urd",
     "speakers": 94022900.0,
     "scores": [
+      {
+        "model": "openai/gpt-4o-mini",
+        "bleu": 0.297325653414119
+      },
       {
         "model": "meta-llama/llama-3.3-70b-instruct",
+        "bleu": 0.24593966310665433
+      },
+      {
+        "model": "mistralai/mistral-small-24b-instruct-2501",
+        "bleu": 0.21988755291389567
+      },
+      {
+        "model": "google/gemini-2.0-flash-001",
+        "bleu": 0.31796430998058983
+      },
+      {
+        "model": "deepseek/deepseek-chat",
+        "bleu": 0.3043614136242901
+      },
+      {
+        "model": "microsoft/phi-4",
+        "bleu": 0.2285337340113323
       }
     ],
+    "bleu": 0.2690020545084802
   },
   {
     "language_name": "Filipino",
     "scores": [
       {
         "model": "meta-llama/llama-3.3-70b-instruct",
+        "bleu": 0.33268969497468076
       }
     ],
+    "bleu": 0.33268969497468076
   },
   {
     "language_name": "Javanese",
     "language_code": "jav",
     "speakers": 84308740.0,
+    "scores": [
+      {
+        "model": "meta-llama/llama-3.3-70b-instruct",
+        "bleu": 0.2528746866064681
+      }
+    ],
+    "bleu": 0.2528746866064681
+  },
+  {
+    "language_name": "Marathi",
+    "language_code": "mar",
+    "speakers": 83100000.0,
+    "scores": [
+      {
+        "model": "meta-llama/llama-3.3-70b-instruct",
+        "bleu": 0.24876051941895777
+      }
+    ],
+    "bleu": 0.24876051941895777
+  },
+  {
+    "language_name": "Swahili",
+    "language_code": "swh",
+    "speakers": 82300000.0,
     "scores": [
       {
         "model": "openai/gpt-4o-mini",
+        "bleu": 0.34863560100932933
       },
       {
         "model": "meta-llama/llama-3.3-70b-instruct",
+        "bleu": 0.30524292832054034
       },
       {
         "model": "mistralai/mistral-small-24b-instruct-2501",
+        "bleu": 0.23580256234118713
       },
       {
         "model": "google/gemini-2.0-flash-001",
+        "bleu": 0.3871437234807849
       },
       {
         "model": "deepseek/deepseek-chat",
+        "bleu": 0.3476225063617937
       },
       {
         "model": "microsoft/phi-4",
+        "bleu": 0.21803176063271826
       }
     ],
+    "bleu": 0.3070798470243923
   },
   {
+    "language_name": "Turkish",
+    "language_code": "tur",
+    "speakers": 82231620.0,
     "scores": [
       {
         "model": "meta-llama/llama-3.3-70b-instruct",
+        "bleu": 0.29874140544434125
       }
     ],
+    "bleu": 0.29874140544434125
   },
   {
+    "language_name": "Telugu",
+    "language_code": "tel",
+    "speakers": 82000000.0,
+    "scores": [
+      {
+        "model": "meta-llama/llama-3.3-70b-instruct",
+        "bleu": 0.28869836899054496
+      }
+    ],
+    "bleu": 0.28869836899054496
+  },
+  {
+    "language_name": "Wu Chinese",
+    "language_code": "wuu",
+    "speakers": 81400000.0,
+    "scores": [],
+    "bleu": null
+  },
+  {
+    "language_name": "Korean",
+    "language_code": "kor",
+    "speakers": 77300000.0,
+    "scores": [
+      {
+        "model": "meta-llama/llama-3.3-70b-instruct",
+        "bleu": 0.2566453806044083
+      }
+    ],
+    "bleu": 0.2566453806044083
+  },
+  {
+    "language_name": "Vietnamese",
+    "language_code": "vie",
+    "speakers": 76000000.0,
     "scores": [
       {
         "model": "openai/gpt-4o-mini",
+        "bleu": 0.3104431723374164
       },
       {
         "model": "meta-llama/llama-3.3-70b-instruct",
+        "bleu": 0.3098478561790782
       },
       {
         "model": "mistralai/mistral-small-24b-instruct-2501",
+        "bleu": 0.28074941515909896
       },
       {
         "model": "google/gemini-2.0-flash-001",
+        "bleu": 0.37327273228460267
       },
       {
         "model": "deepseek/deepseek-chat",
+        "bleu": 0.3487726531917602
       },
       {
         "model": "microsoft/phi-4",
+        "bleu": 0.18355331419148843
       }
     ],
+    "bleu": 0.3011065238905742
   },
   {
+    "language_name": "Tamil",
+    "language_code": "tam",
+    "speakers": 75000000.0,
     "scores": [
+      {
+        "model": "openai/gpt-4o-mini",
+        "bleu": 0.24593649157372188
+      },
       {
         "model": "meta-llama/llama-3.3-70b-instruct",
+        "bleu": 0.24009996232522382
+      },
+      {
+        "model": "mistralai/mistral-small-24b-instruct-2501",
+        "bleu": 0.16785828803139252
+      },
+      {
+        "model": "google/gemini-2.0-flash-001",
+        "bleu": 0.3411457686951495
+      },
+      {
+        "model": "deepseek/deepseek-chat",
+        "bleu": 0.2875340171253509
+      },
+      {
+        "model": "microsoft/phi-4",
+        "bleu": 0.12646276530642359
       }
     ],
+    "bleu": 0.23483954884287706
   },
   {
+    "language_name": "Yue Chinese",
+    "language_code": "yue",
+    "speakers": 73100000.0,
+    "scores": [
+      {
+        "model": "meta-llama/llama-3.3-70b-instruct",
+        "bleu": 0.2663995648378034
+      }
+    ],
+    "bleu": 0.2663995648378034
+  },
+  {
+    "language_name": "Italian",
+    "language_code": "ita",
+    "speakers": 64819790.0,
     "scores": [
       {
         "model": "meta-llama/llama-3.3-70b-instruct",
+        "bleu": 0.3190660116366235
       }
     ],
+    "bleu": 0.3190660116366235
+  },
+  {
+    "language_name": "Gujarati",
+    "language_code": "guj",
+    "speakers": 56400000.0,
+    "scores": [
+      {
+        "model": "openai/gpt-4o-mini",
+        "bleu": 0.25754571533357745
+      },
+      {
+        "model": "meta-llama/llama-3.3-70b-instruct",
+        "bleu": 0.24145756515188838
+      },
+      {
+        "model": "mistralai/mistral-small-24b-instruct-2501",
+        "bleu": 0.20092063514315023
+      },
+      {
+        "model": "google/gemini-2.0-flash-001",
+        "bleu": 0.3664134239402827
+      },
+      {
+        "model": "deepseek/deepseek-chat",
+        "bleu": 0.2908883229704476
+      },
+      {
+        "model": "microsoft/phi-4",
+        "bleu": 0.19669824113063106
+      }
+    ],
+    "bleu": 0.2589873172783296
+  },
+  {
+    "language_name": "Iranian Persian",
+    "language_code": "pes",
+    "speakers": 52800000.0,
+    "scores": [
+      {
+        "model": "meta-llama/llama-3.3-70b-instruct",
+        "bleu": 0.28359916806993934
+      }
+    ],
+    "bleu": 0.28359916806993934
+  },
+  {
+    "language_name": "Bhojpuri",
+    "language_code": "bho",
+    "speakers": 52200000.0,
+    "scores": [
+      {
+        "model": "meta-llama/llama-3.3-70b-instruct",
+        "bleu": 0.24311504988281543
+      }
+    ],
+    "bleu": 0.24311504988281543
+  },
+  {
+    "language_name": "Hakka Chinese",
+    "language_code": "hak",
+    "speakers": 48200000.0,
+    "scores": [],
+    "bleu": null
   }
 ]