open_pt_llm_leaderboard

Running on CPU Upgrade

App Files Files Community

eduagarcia commited on Apr 4

Commit

78e9bc6

1 Parent(s): b9392b7

New API models

Browse files

Files changed (4) hide show

README.md +38 -0
external_models_results.json +158 -3
model_list.txt +38 -0
update_models_in_readme.py +6 -2

README.md CHANGED Viewed

@@ -113,6 +113,7 @@ models:
   - EleutherAI/gpt-neo-125m
   - EleutherAI/gpt-neo-2.7B
   - EleutherAI/gpt-neox-20b
   - EleutherAI/pythia-12b
   - EleutherAI/pythia-14m
   - EleutherAI/pythia-160m
@@ -135,8 +136,11 @@ models:
   - EpistemeAI/Fireball-Meta-Llama-3.1-8B-Instruct-Agent-0.003-128K-code-ds-auto
   - EpistemeAI/Polypsyche-Llama-3.1-8B-Instruct-Agent-0.003-128K-code-ds-auto-Logic
   - EpistemeAI2/Fireball-Alpaca-Llama-3.1-8B-Instruct-KTO-beta
   - EpistemeAI2/Fireball-Llama-3.1-8B-Philos-Relection
   - Eurdem/Defne-llama3.1-8B
   - FuseAI/FuseChat-7B-VaRM
   - FuseAI/OpenChat-3.5-7B-Solar
   - GeneZC/MiniChat-1.5-3B
@@ -201,6 +205,7 @@ models:
   - Magpie-Align/Llama-3.1-8B-Magpie-Align-SFT-v0.1
   - Magpie-Align/MagpieLM-8B-Chat-v0.1
   - Magpie-Align/MagpieLM-8B-SFT-v0.1
   - MagusCorp/legislinho
   - MarinaraSpaghetti/NemoReRemix-12B
   - MaziyarPanahi/Calme-4x7B-MoE-v0.1
@@ -212,6 +217,10 @@ models:
   - MaziyarPanahi/Mistral-7B-Instruct-v0.3
   - MaziyarPanahi/Mistral-7B-v0.3
   - MaziyarPanahi/Topxtral-4x7B-v0.1
   - MaziyarPanahi/calme-2.7-qwen2-7b
   - MulaBR/Mula-4x160-v0.1
   - MulaBR/Mula-8x160-v0.1
@@ -221,6 +230,8 @@ models:
   - NTQAI/Nxcode-CQ-7B-orpo
   - Nexusflow/Starling-LM-7B-beta
   - Nos-PT/Carvalho_pt-gl-1.3B
   - NotAiLOL/Yi-1.5-dolphin-9B
   - NousResearch/Hermes-2-Pro-Llama-3-8B
   - NousResearch/Hermes-2-Theta-Llama-3-8B
@@ -293,6 +304,7 @@ models:
   - Qwen/Qwen2.5-1.5B-Instruct
   - Qwen/Qwen2.5-14B
   - Qwen/Qwen2.5-14B-Instruct
   - Qwen/Qwen2.5-32B
   - Qwen/Qwen2.5-32B-Instruct
   - Qwen/Qwen2.5-3B
@@ -307,8 +319,13 @@ models:
   - Qwen/Qwen2.5-Coder-32B-Instruct
   - Qwen/Qwen2.5-Coder-7B
   - Qwen/Qwen2.5-Coder-7B-Instruct
   - RLHFlow/LLaMA3-iterative-DPO-final
   - Ramikan-BR/Qwen2-0.5B-v5
   - Ramikan-BR/TiamaPY-v30
   - Ramikan-BR/TiamaPY-v31
   - Ramikan-BR/tinyllama-coder-py-4bit-v10
@@ -320,7 +337,9 @@ models:
   - RubielLabarta/LogoS-7Bx2-MoE-13B-v0.2
   - Sakalti/Oxyge1-33B
   - SakanaAI/DiscoPOP-zephyr-7b-gemma
   - Sao10K/L3-8B-Niitama-v1
   - Saxo/Linkbricks-Horizon-AI-Avengers-V4-32B
   - Saxo/Linkbricks-Horizon-AI-Avengers-V5-32B
   - SeaLLMs/SeaLLM-7B-v2
@@ -347,6 +366,7 @@ models:
   - TheBloke/wizardLM-7B-HF
   - TheBloke/zephyr-7B-beta-GPTQ
   - TheDrummer/Big-Tiger-Gemma-27B-v1
   - TinyLlama/TinyLlama-1.1B-Chat-v1.0
   - TinyLlama/TinyLlama-1.1B-intermediate-step-1431k-3T
   - TinyLlama/TinyLlama_v1.1
@@ -368,6 +388,7 @@ models:
   - VAGOsolutions/Llama-3.1-SauerkrautLM-8b-Instruct
   - VAGOsolutions/SauerkrautLM-Gemma-7b
   - VAGOsolutions/SauerkrautLM-Nemo-12b-Instruct
   - VAGOsolutions/SauerkrautLM-Qwen-32b
   - ValiantLabs/Llama3.1-8B-Cobalt
   - ValiantLabs/Llama3.1-8B-Fireplace2
@@ -397,9 +418,12 @@ models:
   - Xwin-LM/Xwin-LM-7B-V0.2
   - abacusai/Liberated-Qwen1.5-14B
   - abacusai/Llama-3-Smaug-8B
   - abacusai/Smaug-34B-v0.1
   - abacusai/Smaug-72B-v0.1
   - abacusai/Smaug-Llama-3-70B-Instruct
   - abhishek/autotrain-llama3-orpo-v2
   - adalbertojunior/Llama-3-8B-Dolphin-Portuguese
   - adalbertojunior/Llama-3-8B-Dolphin-Portuguese-v0.2
@@ -445,6 +469,7 @@ models:
   - arcee-ai/Arcee-Spark
   - arcee-ai/Llama-3.1-SuperNova-Lite
   - arcee-ai/SuperNova-Medius
   - arcee-ai/Virtuoso-Small
   - argilla/CapybaraHermes-2.5-Mistral-7B
   - argilla/notus-7b-v1
@@ -472,6 +497,7 @@ models:
   - botbot-ai/CabraLlama3-8b
   - botbot-ai/CabraMistral-v3-7b-32k
   - botbot-ai/CabraMixtral-8x7b
   - byroneverson/Mistral-Small-Instruct-2409-abliterated
   - byroneverson/Yi-1.5-9B-Chat-16K-abliterated
   - byroneverson/Yi-1.5-9B-Chat-abliterated
@@ -489,6 +515,10 @@ models:
   - chujiezheng/Mistral7B-PairRM-SPPO-ExPO
   - chujiezheng/Smaug-34B-v0.1-ExPO
   - cnmoro/Mistral-7B-Portuguese
   - cognitivecomputations/WestLake-7B-v2-laser
   - cognitivecomputations/WizardLM-13B-Uncensored
   - cognitivecomputations/WizardLM-30B-Uncensored
@@ -510,6 +540,7 @@ models:
   - cognitivess/bella-1-8b
   - cosmicvalor/mistral-orthogonalized
   - croissantllm/CroissantLLMBase
   - deepseek-ai/DeepSeek-R1-Distill-Llama-8B
   - deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B
   - deepseek-ai/DeepSeek-R1-Distill-Qwen-14B
@@ -573,6 +604,7 @@ models:
   - freewheelin/free-solar-evo-v0.1
   - freewheelin/free-solar-evo-v0.11
   - freewheelin/free-solar-evo-v0.13
   - ghost-x/ghost-8b-beta
   - ghost-x/ghost-8b-beta-1608
   - google/gemma-1.1-2b-it
@@ -733,6 +765,7 @@ models:
   - microsoft/phi-1_5
   - microsoft/phi-2
   - microsoft/phi-4
   - migtissera/Tess-M-v1.3
   - migtissera/Tess-v2.5-Gemma-2-27B-alpha
   - migtissera/Tess-v2.5-Phi-3-medium-128k-14B
@@ -766,12 +799,14 @@ models:
   - mlabonne/NeuralDaredevil-8B-abliterated
   - mlabonne/NeuralMonarch-7B
   - monilouise/opt125M_portuguese
   - mosaicml/mpt-30b
   - mosaicml/mpt-7b
   - mosaicml/mpt-7b-8k
   - natong19/Mistral-Nemo-Instruct-2407-abliterated
   - natong19/Qwen2-7B-Instruct-abliterated
   - nbeerbower/gemma2-gutenberg-27B
   - nicholasKluge/Aira-2-portuguese-124M
   - nicholasKluge/Aira-2-portuguese-1B7
   - nicholasKluge/Aira-2-portuguese-560M
@@ -855,6 +890,7 @@ models:
   - princeton-nlp/Mistral-7B-Instruct-SimPO
   - princeton-nlp/gemma-2-9b-it-DPO
   - princeton-nlp/gemma-2-9b-it-SimPO
   - prithivMLmods/Qwen2.5-14B-DeepSeek-R1-1M
   - projecte-aina/FLOR-1.3B
   - projecte-aina/FLOR-6.3B
@@ -933,11 +969,13 @@ models:
   - shadowml/BeagSake-7B
   - shadowml/Mixolar-4x7b
   - sometimesanotion/Lamarck-14B-v0.6
   - sometimesanotion/Qwen2.5-14B-Vimarckoso-v3
   - speakleash/Bielik-11B-v2
   - speakleash/Bielik-11B-v2.0-Instruct
   - speakleash/Bielik-11B-v2.1-Instruct
   - speakleash/Bielik-11B-v2.2-Instruct
   - ssmits/Falcon2-5.5B-Portuguese
   - ssmits/Falcon2-5.5B-multilingual
   - stabilityai/stablelm-2-12b

   - EleutherAI/gpt-neo-125m
   - EleutherAI/gpt-neo-2.7B
   - EleutherAI/gpt-neox-20b
+  - EleutherAI/polyglot-ko-12.8b
   - EleutherAI/pythia-12b
   - EleutherAI/pythia-14m
   - EleutherAI/pythia-160m
   - EpistemeAI/Fireball-Meta-Llama-3.1-8B-Instruct-Agent-0.003-128K-code-ds-auto
   - EpistemeAI/Polypsyche-Llama-3.1-8B-Instruct-Agent-0.003-128K-code-ds-auto-Logic
   - EpistemeAI2/Fireball-Alpaca-Llama-3.1-8B-Instruct-KTO-beta
+  - EpistemeAI2/Fireball-Alpaca-Llama3.1.06-8B-Philos
   - EpistemeAI2/Fireball-Llama-3.1-8B-Philos-Relection
   - Eurdem/Defne-llama3.1-8B
+  - FluxiIA/Tucaninho
+  - FluxiIA/Tucaninho_dpo
   - FuseAI/FuseChat-7B-VaRM
   - FuseAI/OpenChat-3.5-7B-Solar
   - GeneZC/MiniChat-1.5-3B
   - Magpie-Align/Llama-3.1-8B-Magpie-Align-SFT-v0.1
   - Magpie-Align/MagpieLM-8B-Chat-v0.1
   - Magpie-Align/MagpieLM-8B-SFT-v0.1
+  - MagusCorp/grpo_lora_enem_llama3_7b
   - MagusCorp/legislinho
   - MarinaraSpaghetti/NemoReRemix-12B
   - MaziyarPanahi/Calme-4x7B-MoE-v0.1
   - MaziyarPanahi/Mistral-7B-Instruct-v0.3
   - MaziyarPanahi/Mistral-7B-v0.3
   - MaziyarPanahi/Topxtral-4x7B-v0.1
+  - MaziyarPanahi/calme-2.1-qwen2-7b
+  - MaziyarPanahi/calme-2.2-qwen2-7b
+  - MaziyarPanahi/calme-2.3-qwen2-7b
+  - MaziyarPanahi/calme-2.4-qwen2-7b
   - MaziyarPanahi/calme-2.7-qwen2-7b
   - MulaBR/Mula-4x160-v0.1
   - MulaBR/Mula-8x160-v0.1
   - NTQAI/Nxcode-CQ-7B-orpo
   - Nexusflow/Starling-LM-7B-beta
   - Nos-PT/Carvalho_pt-gl-1.3B
+  - Nos-PT/Llama-Carvalho-PT
+  - Nos-PT/Llama-Carvalho-PT-GL
   - NotAiLOL/Yi-1.5-dolphin-9B
   - NousResearch/Hermes-2-Pro-Llama-3-8B
   - NousResearch/Hermes-2-Theta-Llama-3-8B
   - Qwen/Qwen2.5-1.5B-Instruct
   - Qwen/Qwen2.5-14B
   - Qwen/Qwen2.5-14B-Instruct
+  - Qwen/Qwen2.5-14B-Instruct-1M
   - Qwen/Qwen2.5-32B
   - Qwen/Qwen2.5-32B-Instruct
   - Qwen/Qwen2.5-3B
   - Qwen/Qwen2.5-Coder-32B-Instruct
   - Qwen/Qwen2.5-Coder-7B
   - Qwen/Qwen2.5-Coder-7B-Instruct
+  - Qwen/Qwen2.5-VL-32B-Instruct
+  - Qwen/Qwen2.5-VL-72B-Instruct
+  - RDson/WomboCombo-R1-Coder-14B-Preview
+  - RLHFlow/ArmoRM-Llama3-8B-v0.1
   - RLHFlow/LLaMA3-iterative-DPO-final
   - Ramikan-BR/Qwen2-0.5B-v5
+  - Ramikan-BR/Qwen2-0.5B-v9
   - Ramikan-BR/TiamaPY-v30
   - Ramikan-BR/TiamaPY-v31
   - Ramikan-BR/tinyllama-coder-py-4bit-v10
   - RubielLabarta/LogoS-7Bx2-MoE-13B-v0.2
   - Sakalti/Oxyge1-33B
   - SakanaAI/DiscoPOP-zephyr-7b-gemma
+  - Salesforce/SFR-Iterative-DPO-LLaMA-3-8B-R
   - Sao10K/L3-8B-Niitama-v1
+  - Sao10K/L3.1-8B-Niitama-v1.1
   - Saxo/Linkbricks-Horizon-AI-Avengers-V4-32B
   - Saxo/Linkbricks-Horizon-AI-Avengers-V5-32B
   - SeaLLMs/SeaLLM-7B-v2
   - TheBloke/wizardLM-7B-HF
   - TheBloke/zephyr-7B-beta-GPTQ
   - TheDrummer/Big-Tiger-Gemma-27B-v1
+  - TheDrummer/Gemmasutra-9B-v1
   - TinyLlama/TinyLlama-1.1B-Chat-v1.0
   - TinyLlama/TinyLlama-1.1B-intermediate-step-1431k-3T
   - TinyLlama/TinyLlama_v1.1
   - VAGOsolutions/Llama-3.1-SauerkrautLM-8b-Instruct
   - VAGOsolutions/SauerkrautLM-Gemma-7b
   - VAGOsolutions/SauerkrautLM-Nemo-12b-Instruct
+  - VAGOsolutions/SauerkrautLM-Phi-3-medium
   - VAGOsolutions/SauerkrautLM-Qwen-32b
   - ValiantLabs/Llama3.1-8B-Cobalt
   - ValiantLabs/Llama3.1-8B-Fireplace2
   - Xwin-LM/Xwin-LM-7B-V0.2
   - abacusai/Liberated-Qwen1.5-14B
   - abacusai/Llama-3-Smaug-8B
+  - abacusai/Slerp-CM-mist-dpo
   - abacusai/Smaug-34B-v0.1
   - abacusai/Smaug-72B-v0.1
   - abacusai/Smaug-Llama-3-70B-Instruct
+  - abacusai/bigstral-12b-32k
+  - abacusai/bigyi-15b
   - abhishek/autotrain-llama3-orpo-v2
   - adalbertojunior/Llama-3-8B-Dolphin-Portuguese
   - adalbertojunior/Llama-3-8B-Dolphin-Portuguese-v0.2
   - arcee-ai/Arcee-Spark
   - arcee-ai/Llama-3.1-SuperNova-Lite
   - arcee-ai/SuperNova-Medius
+  - arcee-ai/Virtuoso-Lite
   - arcee-ai/Virtuoso-Small
   - argilla/CapybaraHermes-2.5-Mistral-7B
   - argilla/notus-7b-v1
   - botbot-ai/CabraLlama3-8b
   - botbot-ai/CabraMistral-v3-7b-32k
   - botbot-ai/CabraMixtral-8x7b
+  - bunnycore/HyperLlama-3.1-8B
   - byroneverson/Mistral-Small-Instruct-2409-abliterated
   - byroneverson/Yi-1.5-9B-Chat-16K-abliterated
   - byroneverson/Yi-1.5-9B-Chat-abliterated
   - chujiezheng/Mistral7B-PairRM-SPPO-ExPO
   - chujiezheng/Smaug-34B-v0.1-ExPO
   - cnmoro/Mistral-7B-Portuguese
+  - cnmoro/Qwen2.5-0.5B-Portuguese-Hybrid-Reasoning
+  - cnmoro/Qwen2.5-0.5B-Portuguese-v1
+  - cnmoro/Qwen2.5-0.5B-Portuguese-v2
+  - cognitivecomputations/Dolphin3.0-R1-Mistral-24B
   - cognitivecomputations/WestLake-7B-v2-laser
   - cognitivecomputations/WizardLM-13B-Uncensored
   - cognitivecomputations/WizardLM-30B-Uncensored
   - cognitivess/bella-1-8b
   - cosmicvalor/mistral-orthogonalized
   - croissantllm/CroissantLLMBase
+  - deepseek-ai/DeepSeek-R1-Distill-Llama-70B
   - deepseek-ai/DeepSeek-R1-Distill-Llama-8B
   - deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B
   - deepseek-ai/DeepSeek-R1-Distill-Qwen-14B
   - freewheelin/free-solar-evo-v0.1
   - freewheelin/free-solar-evo-v0.11
   - freewheelin/free-solar-evo-v0.13
+  - gaverfraxz/Meta-Llama-3.1-8B-Instruct-HalfAbliterated-TIES
   - ghost-x/ghost-8b-beta
   - ghost-x/ghost-8b-beta-1608
   - google/gemma-1.1-2b-it
   - microsoft/phi-1_5
   - microsoft/phi-2
   - microsoft/phi-4
+  - migtissera/Tess-3-Mistral-Nemo-12B
   - migtissera/Tess-M-v1.3
   - migtissera/Tess-v2.5-Gemma-2-27B-alpha
   - migtissera/Tess-v2.5-Phi-3-medium-128k-14B
   - mlabonne/NeuralDaredevil-8B-abliterated
   - mlabonne/NeuralMonarch-7B
   - monilouise/opt125M_portuguese
+  - monsterapi/Llama-3_1-8B-Instruct-orca-ORPO
   - mosaicml/mpt-30b
   - mosaicml/mpt-7b
   - mosaicml/mpt-7b-8k
   - natong19/Mistral-Nemo-Instruct-2407-abliterated
   - natong19/Qwen2-7B-Instruct-abliterated
   - nbeerbower/gemma2-gutenberg-27B
+  - nbeerbower/mistral-nemo-wissenschaft-12B
   - nicholasKluge/Aira-2-portuguese-124M
   - nicholasKluge/Aira-2-portuguese-1B7
   - nicholasKluge/Aira-2-portuguese-560M
   - princeton-nlp/Mistral-7B-Instruct-SimPO
   - princeton-nlp/gemma-2-9b-it-DPO
   - princeton-nlp/gemma-2-9b-it-SimPO
+  - prithivMLmods/Megatron-Opus-14B-Exp
   - prithivMLmods/Qwen2.5-14B-DeepSeek-R1-1M
   - projecte-aina/FLOR-1.3B
   - projecte-aina/FLOR-6.3B
   - shadowml/BeagSake-7B
   - shadowml/Mixolar-4x7b
   - sometimesanotion/Lamarck-14B-v0.6
+  - sometimesanotion/Lamarck-14B-v0.7
   - sometimesanotion/Qwen2.5-14B-Vimarckoso-v3
   - speakleash/Bielik-11B-v2
   - speakleash/Bielik-11B-v2.0-Instruct
   - speakleash/Bielik-11B-v2.1-Instruct
   - speakleash/Bielik-11B-v2.2-Instruct
+  - speakleash/Bielik-11B-v2.3-Instruct
   - ssmits/Falcon2-5.5B-Portuguese
   - ssmits/Falcon2-5.5B-multilingual
   - stabilityai/stablelm-2-12b

external_models_results.json CHANGED Viewed

@@ -176,8 +176,8 @@
         "result_metrics_npm": 0.6834036936130392
     },
     {
-        "model": "gemini-1.5-flash",
-        "name": "Gemini 1.5 Flash",
         "link": "https://cloud.google.com/vertex-ai",
         "date": "2024-08-09",
         "status": "full",
@@ -222,7 +222,7 @@
     {
         "model": "nemotron-4-340b-instruct",
         "name": "nvidia/Nemotron-4-340B-Instruct (Nvidia API)",
-        "link": "https://build.nvidia.com/nvidia/nemotron-4-340b-instruct",
         "date": "2024-06-30",
         "status": "full",
         "main_language": "English",
@@ -333,6 +333,51 @@
         "result_metrics_average": 0.7928134532766066,
         "result_metrics_npm": 0.6915070359785283
     },
     {
         "model": "gemini-2.0-flash-001",
         "name": "Gemini 2.0 Flash (001)",
@@ -376,5 +421,115 @@
         },
         "result_metrics_average": 0.8056048352614735,
         "result_metrics_npm": 0.6986042497176748
     }
 ]

         "result_metrics_npm": 0.6834036936130392
     },
     {
+        "model": "gemini-1.5-flash-001",
+        "name": "Gemini 1.5 Flash (001)",
         "link": "https://cloud.google.com/vertex-ai",
         "date": "2024-08-09",
         "status": "full",
     {
         "model": "nemotron-4-340b-instruct",
         "name": "nvidia/Nemotron-4-340B-Instruct (Nvidia API)",
+        "link": "https://huggingface.co/nvidia/Nemotron-4-340B-Instruct",
         "date": "2024-06-30",
         "status": "full",
         "main_language": "English",
         "result_metrics_average": 0.7928134532766066,
         "result_metrics_npm": 0.6915070359785283
     },
+    {
+        "model": "gemini-1.5-flash-002",
+        "name": "Gemini 1.5 Flash (002)",
+        "link": "https://cloud.google.com/vertex-ai",
+        "date": "2025-04-03",
+        "status": "full",
+        "main_language": "English",
+        "model_type": "proprietary",
+        "result_metrics": {
+            "enem_challenge": 0.8327501749475158,
+            "bluex": 0.760778859527121,
+            "oab_exams": 0.6369020501138952,
+            "assin2_sts": 0.8380176734291938,
+            "assin2_rte": 0.941176117215237,
+            "faquad_nli": 0.8360786822325283,
+            "hatebr_offensive": 0.9046145161133335,
+            "portuguese_hate_speech": 0.7406414313684444,
+            "tweetsentbr": 0.6997509880131249
+        },
+        "result_metrics_average": 0.7989678325511549,
+        "result_metrics_npm": 0.6979777100000177
+    },
+    {
+        "model": "gemini-1.5-flash-8b-001",
+        "name": "Gemini 1.5 Flash 8B (001)",
+        "link": "https://aistudio.google.com",
+        "date": "2025-04-03",
+        "status": "full",
+        "main_language": "English",
+        "model_type": "proprietary",
+        "params": 8.0,
+        "result_metrics": {
+            "enem_challenge": 0.7641707487753674,
+            "bluex": 0.6467315716272601,
+            "oab_exams": 0.5603644646924829,
+            "assin2_sts": 0.7638946799836569,
+            "assin2_rte": 0.9329452628161146,
+            "faquad_nli": 0.7937022965448601,
+            "hatebr_offensive": 0.850497640901663,
+            "portuguese_hate_speech": 0.7391317606010173,
+            "tweetsentbr": 0.7376684798923661
+        },
+        "result_metrics_average": 0.7543452117594209,
+        "result_metrics_npm": 0.6359642422837162
+    },
     {
         "model": "gemini-2.0-flash-001",
         "name": "Gemini 2.0 Flash (001)",
         },
         "result_metrics_average": 0.8056048352614735,
         "result_metrics_npm": 0.6986042497176748
+    },
+    {
+        "model": "gemini-2.5-pro-exp-03-25",
+        "name": "Gemini 2.5 Pro Experimental (0325)",
+        "link": "https://aistudio.google.com",
+        "date": "2025-04-03",
+        "status": "full",
+        "main_language": "English",
+        "model_type": "proprietary",
+        "result_metrics": {
+            "enem_challenge": 0.9769069279216235,
+            "bluex": 0.9499304589707928,
+            "oab_exams": 0.9216400911161731,
+            "assin2_sts": 0.837785744915033,
+            "assin2_rte": 0.9415510158830285,
+            "faquad_nli": 0.8738735797309651,
+            "hatebr_offensive": 0.9248478168290788,
+            "portuguese_hate_speech": 0.7336133105156697,
+            "tweetsentbr": 0.7928002469993594
+        },
+        "result_metrics_average": 0.8836610214313025,
+        "result_metrics_npm": 0.8134610556797854
+    },
+    {
+        "model": "qwen2-5-vl-72b-instruct",
+        "name": "Qwen/Qwen2.5-VL-72B-Instruct (API)",
+        "link": "https://huggingface.co/Qwen/Qwen2.5-VL-72B-Instruct",
+        "date": "2025-04-03",
+        "status": "full",
+        "main_language": "English",
+        "model_type": "chat",
+        "result_metrics": {
+            "enem_challenge": 0.8600419874037789,
+            "bluex": 0.8052851182197497,
+            "oab_exams": 0.6888382687927107,
+            "assin2_sts": 0.7595538567467497,
+            "assin2_rte": 0.9472975104201871,
+            "faquad_nli": 0.8447190882122586,
+            "hatebr_offensive": 0.8810695094657859,
+            "portuguese_hate_speech": 0.769596419318135,
+            "tweetsentbr": 0.5644757075411895
+        },
+        "result_metrics_average": 0.7912086073467273,
+        "result_metrics_npm": 0.6888261361422966
+    },
+    {
+        "model": "qwen2-5-72b-instruct",
+        "name": "Qwen/Qwen2.5-72B-Instruct (API)",
+        "link": "https://huggingface.co/Qwen/Qwen2.5-72B-Instruct",
+        "date": "2025-04-03",
+        "status": "full",
+        "main_language": "English",
+        "model_type": "chat",
+        "result_metrics": {
+            "enem_challenge": 0.8432470258922323,
+            "bluex": 0.780250347705146,
+            "oab_exams": 0.675626423690205,
+            "assin2_sts": 0.8230708844558656,
+            "assin2_rte": 0.9509720145268106,
+            "faquad_nli": 0.8194444444444444,
+            "hatebr_offensive": 0.8810033427242816,
+            "portuguese_hate_speech": 0.7601866578782712,
+            "tweetsentbr": 0.7620172222071487
+        },
+        "result_metrics_average": 0.8106464848360451,
+        "result_metrics_npm": 0.7142994872542282
+    },
+    {
+        "model": "qwen2-5-vl-32b-instruct",
+        "name": "Qwen/Qwen2.5-VL-32B-Instruct (API)",
+        "link": "https://huggingface.co/Qwen/Qwen2.5-VL-32B-Instruct",
+        "date": "2025-04-03",
+        "status": "full",
+        "main_language": "English",
+        "model_type": "chat",
+        "result_metrics": {
+            "enem_challenge": 0.8600419874037789,
+            "bluex": 0.8052851182197497,
+            "oab_exams": 0.6888382687927107,
+            "assin2_sts": 0.7780549055529008,
+            "assin2_rte": 0.9472975104201871,
+            "faquad_nli": 0.8447190882122586,
+            "hatebr_offensive": 0.8810695094657859,
+            "portuguese_hate_speech": 0.769596419318135,
+            "tweetsentbr": 0.7027408707999051
+        },
+        "result_metrics_average": 0.8086270753539346,
+        "result_metrics_npm": 0.7137431116807307
+    },
+    {
+        "model": "qwen-turbo-2024-11-01",
+        "name": "Qwen-Turbo (2024-11-01)",
+        "link": "https://www.alibabacloud.com/en/product/modelstudio",
+        "date": "2025-04-03",
+        "status": "full",
+        "main_language": "English",
+        "model_type": "proprietary",
+        "result_metrics": {
+            "enem_challenge": 0.7795661301609517,
+            "bluex": 0.7079276773296245,
+            "oab_exams": 0.6091116173120729,
+            "assin2_sts": 0.7640477700456898,
+            "assin2_rte": 0.9260451969385788,
+            "faquad_nli": 0.8128063725490196,
+            "hatebr_offensive": 0.8567933277676292,
+            "portuguese_hate_speech": 0.7239183383094245,
+            "tweetsentbr": 0.7038360447972195
+        },
+        "result_metrics_average": 0.7648947194678011,
+        "result_metrics_npm": 0.6490441260447987
     }
 ]

model_list.txt CHANGED Viewed

@@ -84,6 +84,7 @@
   - EleutherAI/gpt-neo-125m
   - EleutherAI/gpt-neo-2.7B
   - EleutherAI/gpt-neox-20b
   - EleutherAI/pythia-12b
   - EleutherAI/pythia-14m
   - EleutherAI/pythia-160m
@@ -106,8 +107,11 @@
   - EpistemeAI/Fireball-Meta-Llama-3.1-8B-Instruct-Agent-0.003-128K-code-ds-auto
   - EpistemeAI/Polypsyche-Llama-3.1-8B-Instruct-Agent-0.003-128K-code-ds-auto-Logic
   - EpistemeAI2/Fireball-Alpaca-Llama-3.1-8B-Instruct-KTO-beta
   - EpistemeAI2/Fireball-Llama-3.1-8B-Philos-Relection
   - Eurdem/Defne-llama3.1-8B
   - FuseAI/FuseChat-7B-VaRM
   - FuseAI/OpenChat-3.5-7B-Solar
   - GeneZC/MiniChat-1.5-3B
@@ -172,6 +176,7 @@
   - Magpie-Align/Llama-3.1-8B-Magpie-Align-SFT-v0.1
   - Magpie-Align/MagpieLM-8B-Chat-v0.1
   - Magpie-Align/MagpieLM-8B-SFT-v0.1
   - MagusCorp/legislinho
   - MarinaraSpaghetti/NemoReRemix-12B
   - MaziyarPanahi/Calme-4x7B-MoE-v0.1
@@ -183,6 +188,10 @@
   - MaziyarPanahi/Mistral-7B-Instruct-v0.3
   - MaziyarPanahi/Mistral-7B-v0.3
   - MaziyarPanahi/Topxtral-4x7B-v0.1
   - MaziyarPanahi/calme-2.7-qwen2-7b
   - MulaBR/Mula-4x160-v0.1
   - MulaBR/Mula-8x160-v0.1
@@ -192,6 +201,8 @@
   - NTQAI/Nxcode-CQ-7B-orpo
   - Nexusflow/Starling-LM-7B-beta
   - Nos-PT/Carvalho_pt-gl-1.3B
   - NotAiLOL/Yi-1.5-dolphin-9B
   - NousResearch/Hermes-2-Pro-Llama-3-8B
   - NousResearch/Hermes-2-Theta-Llama-3-8B
@@ -264,6 +275,7 @@
   - Qwen/Qwen2.5-1.5B-Instruct
   - Qwen/Qwen2.5-14B
   - Qwen/Qwen2.5-14B-Instruct
   - Qwen/Qwen2.5-32B
   - Qwen/Qwen2.5-32B-Instruct
   - Qwen/Qwen2.5-3B
@@ -278,8 +290,13 @@
   - Qwen/Qwen2.5-Coder-32B-Instruct
   - Qwen/Qwen2.5-Coder-7B
   - Qwen/Qwen2.5-Coder-7B-Instruct
   - RLHFlow/LLaMA3-iterative-DPO-final
   - Ramikan-BR/Qwen2-0.5B-v5
   - Ramikan-BR/TiamaPY-v30
   - Ramikan-BR/TiamaPY-v31
   - Ramikan-BR/tinyllama-coder-py-4bit-v10
@@ -291,7 +308,9 @@
   - RubielLabarta/LogoS-7Bx2-MoE-13B-v0.2
   - Sakalti/Oxyge1-33B
   - SakanaAI/DiscoPOP-zephyr-7b-gemma
   - Sao10K/L3-8B-Niitama-v1
   - Saxo/Linkbricks-Horizon-AI-Avengers-V4-32B
   - Saxo/Linkbricks-Horizon-AI-Avengers-V5-32B
   - SeaLLMs/SeaLLM-7B-v2
@@ -318,6 +337,7 @@
   - TheBloke/wizardLM-7B-HF
   - TheBloke/zephyr-7B-beta-GPTQ
   - TheDrummer/Big-Tiger-Gemma-27B-v1
   - TinyLlama/TinyLlama-1.1B-Chat-v1.0
   - TinyLlama/TinyLlama-1.1B-intermediate-step-1431k-3T
   - TinyLlama/TinyLlama_v1.1
@@ -339,6 +359,7 @@
   - VAGOsolutions/Llama-3.1-SauerkrautLM-8b-Instruct
   - VAGOsolutions/SauerkrautLM-Gemma-7b
   - VAGOsolutions/SauerkrautLM-Nemo-12b-Instruct
   - VAGOsolutions/SauerkrautLM-Qwen-32b
   - ValiantLabs/Llama3.1-8B-Cobalt
   - ValiantLabs/Llama3.1-8B-Fireplace2
@@ -368,9 +389,12 @@
   - Xwin-LM/Xwin-LM-7B-V0.2
   - abacusai/Liberated-Qwen1.5-14B
   - abacusai/Llama-3-Smaug-8B
   - abacusai/Smaug-34B-v0.1
   - abacusai/Smaug-72B-v0.1
   - abacusai/Smaug-Llama-3-70B-Instruct
   - abhishek/autotrain-llama3-orpo-v2
   - adalbertojunior/Llama-3-8B-Dolphin-Portuguese
   - adalbertojunior/Llama-3-8B-Dolphin-Portuguese-v0.2
@@ -416,6 +440,7 @@
   - arcee-ai/Arcee-Spark
   - arcee-ai/Llama-3.1-SuperNova-Lite
   - arcee-ai/SuperNova-Medius
   - arcee-ai/Virtuoso-Small
   - argilla/CapybaraHermes-2.5-Mistral-7B
   - argilla/notus-7b-v1
@@ -443,6 +468,7 @@
   - botbot-ai/CabraLlama3-8b
   - botbot-ai/CabraMistral-v3-7b-32k
   - botbot-ai/CabraMixtral-8x7b
   - byroneverson/Mistral-Small-Instruct-2409-abliterated
   - byroneverson/Yi-1.5-9B-Chat-16K-abliterated
   - byroneverson/Yi-1.5-9B-Chat-abliterated
@@ -460,6 +486,10 @@
   - chujiezheng/Mistral7B-PairRM-SPPO-ExPO
   - chujiezheng/Smaug-34B-v0.1-ExPO
   - cnmoro/Mistral-7B-Portuguese
   - cognitivecomputations/WestLake-7B-v2-laser
   - cognitivecomputations/WizardLM-13B-Uncensored
   - cognitivecomputations/WizardLM-30B-Uncensored
@@ -481,6 +511,7 @@
   - cognitivess/bella-1-8b
   - cosmicvalor/mistral-orthogonalized
   - croissantllm/CroissantLLMBase
   - deepseek-ai/DeepSeek-R1-Distill-Llama-8B
   - deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B
   - deepseek-ai/DeepSeek-R1-Distill-Qwen-14B
@@ -544,6 +575,7 @@
   - freewheelin/free-solar-evo-v0.1
   - freewheelin/free-solar-evo-v0.11
   - freewheelin/free-solar-evo-v0.13
   - ghost-x/ghost-8b-beta
   - ghost-x/ghost-8b-beta-1608
   - google/gemma-1.1-2b-it
@@ -704,6 +736,7 @@
   - microsoft/phi-1_5
   - microsoft/phi-2
   - microsoft/phi-4
   - migtissera/Tess-M-v1.3
   - migtissera/Tess-v2.5-Gemma-2-27B-alpha
   - migtissera/Tess-v2.5-Phi-3-medium-128k-14B
@@ -737,12 +770,14 @@
   - mlabonne/NeuralDaredevil-8B-abliterated
   - mlabonne/NeuralMonarch-7B
   - monilouise/opt125M_portuguese
   - mosaicml/mpt-30b
   - mosaicml/mpt-7b
   - mosaicml/mpt-7b-8k
   - natong19/Mistral-Nemo-Instruct-2407-abliterated
   - natong19/Qwen2-7B-Instruct-abliterated
   - nbeerbower/gemma2-gutenberg-27B
   - nicholasKluge/Aira-2-portuguese-124M
   - nicholasKluge/Aira-2-portuguese-1B7
   - nicholasKluge/Aira-2-portuguese-560M
@@ -826,6 +861,7 @@
   - princeton-nlp/Mistral-7B-Instruct-SimPO
   - princeton-nlp/gemma-2-9b-it-DPO
   - princeton-nlp/gemma-2-9b-it-SimPO
   - prithivMLmods/Qwen2.5-14B-DeepSeek-R1-1M
   - projecte-aina/FLOR-1.3B
   - projecte-aina/FLOR-6.3B
@@ -904,11 +940,13 @@
   - shadowml/BeagSake-7B
   - shadowml/Mixolar-4x7b
   - sometimesanotion/Lamarck-14B-v0.6
   - sometimesanotion/Qwen2.5-14B-Vimarckoso-v3
   - speakleash/Bielik-11B-v2
   - speakleash/Bielik-11B-v2.0-Instruct
   - speakleash/Bielik-11B-v2.1-Instruct
   - speakleash/Bielik-11B-v2.2-Instruct
   - ssmits/Falcon2-5.5B-Portuguese
   - ssmits/Falcon2-5.5B-multilingual
   - stabilityai/stablelm-2-12b

   - EleutherAI/gpt-neo-125m
   - EleutherAI/gpt-neo-2.7B
   - EleutherAI/gpt-neox-20b
+  - EleutherAI/polyglot-ko-12.8b
   - EleutherAI/pythia-12b
   - EleutherAI/pythia-14m
   - EleutherAI/pythia-160m
   - EpistemeAI/Fireball-Meta-Llama-3.1-8B-Instruct-Agent-0.003-128K-code-ds-auto
   - EpistemeAI/Polypsyche-Llama-3.1-8B-Instruct-Agent-0.003-128K-code-ds-auto-Logic
   - EpistemeAI2/Fireball-Alpaca-Llama-3.1-8B-Instruct-KTO-beta
+  - EpistemeAI2/Fireball-Alpaca-Llama3.1.06-8B-Philos
   - EpistemeAI2/Fireball-Llama-3.1-8B-Philos-Relection
   - Eurdem/Defne-llama3.1-8B
+  - FluxiIA/Tucaninho
+  - FluxiIA/Tucaninho_dpo
   - FuseAI/FuseChat-7B-VaRM
   - FuseAI/OpenChat-3.5-7B-Solar
   - GeneZC/MiniChat-1.5-3B
   - Magpie-Align/Llama-3.1-8B-Magpie-Align-SFT-v0.1
   - Magpie-Align/MagpieLM-8B-Chat-v0.1
   - Magpie-Align/MagpieLM-8B-SFT-v0.1
+  - MagusCorp/grpo_lora_enem_llama3_7b
   - MagusCorp/legislinho
   - MarinaraSpaghetti/NemoReRemix-12B
   - MaziyarPanahi/Calme-4x7B-MoE-v0.1
   - MaziyarPanahi/Mistral-7B-Instruct-v0.3
   - MaziyarPanahi/Mistral-7B-v0.3
   - MaziyarPanahi/Topxtral-4x7B-v0.1
+  - MaziyarPanahi/calme-2.1-qwen2-7b
+  - MaziyarPanahi/calme-2.2-qwen2-7b
+  - MaziyarPanahi/calme-2.3-qwen2-7b
+  - MaziyarPanahi/calme-2.4-qwen2-7b
   - MaziyarPanahi/calme-2.7-qwen2-7b
   - MulaBR/Mula-4x160-v0.1
   - MulaBR/Mula-8x160-v0.1
   - NTQAI/Nxcode-CQ-7B-orpo
   - Nexusflow/Starling-LM-7B-beta
   - Nos-PT/Carvalho_pt-gl-1.3B
+  - Nos-PT/Llama-Carvalho-PT
+  - Nos-PT/Llama-Carvalho-PT-GL
   - NotAiLOL/Yi-1.5-dolphin-9B
   - NousResearch/Hermes-2-Pro-Llama-3-8B
   - NousResearch/Hermes-2-Theta-Llama-3-8B
   - Qwen/Qwen2.5-1.5B-Instruct
   - Qwen/Qwen2.5-14B
   - Qwen/Qwen2.5-14B-Instruct
+  - Qwen/Qwen2.5-14B-Instruct-1M
   - Qwen/Qwen2.5-32B
   - Qwen/Qwen2.5-32B-Instruct
   - Qwen/Qwen2.5-3B
   - Qwen/Qwen2.5-Coder-32B-Instruct
   - Qwen/Qwen2.5-Coder-7B
   - Qwen/Qwen2.5-Coder-7B-Instruct
+  - Qwen/Qwen2.5-VL-32B-Instruct
+  - Qwen/Qwen2.5-VL-72B-Instruct
+  - RDson/WomboCombo-R1-Coder-14B-Preview
+  - RLHFlow/ArmoRM-Llama3-8B-v0.1
   - RLHFlow/LLaMA3-iterative-DPO-final
   - Ramikan-BR/Qwen2-0.5B-v5
+  - Ramikan-BR/Qwen2-0.5B-v9
   - Ramikan-BR/TiamaPY-v30
   - Ramikan-BR/TiamaPY-v31
   - Ramikan-BR/tinyllama-coder-py-4bit-v10
   - RubielLabarta/LogoS-7Bx2-MoE-13B-v0.2
   - Sakalti/Oxyge1-33B
   - SakanaAI/DiscoPOP-zephyr-7b-gemma
+  - Salesforce/SFR-Iterative-DPO-LLaMA-3-8B-R
   - Sao10K/L3-8B-Niitama-v1
+  - Sao10K/L3.1-8B-Niitama-v1.1
   - Saxo/Linkbricks-Horizon-AI-Avengers-V4-32B
   - Saxo/Linkbricks-Horizon-AI-Avengers-V5-32B
   - SeaLLMs/SeaLLM-7B-v2
   - TheBloke/wizardLM-7B-HF
   - TheBloke/zephyr-7B-beta-GPTQ
   - TheDrummer/Big-Tiger-Gemma-27B-v1
+  - TheDrummer/Gemmasutra-9B-v1
   - TinyLlama/TinyLlama-1.1B-Chat-v1.0
   - TinyLlama/TinyLlama-1.1B-intermediate-step-1431k-3T
   - TinyLlama/TinyLlama_v1.1
   - VAGOsolutions/Llama-3.1-SauerkrautLM-8b-Instruct
   - VAGOsolutions/SauerkrautLM-Gemma-7b
   - VAGOsolutions/SauerkrautLM-Nemo-12b-Instruct
+  - VAGOsolutions/SauerkrautLM-Phi-3-medium
   - VAGOsolutions/SauerkrautLM-Qwen-32b
   - ValiantLabs/Llama3.1-8B-Cobalt
   - ValiantLabs/Llama3.1-8B-Fireplace2
   - Xwin-LM/Xwin-LM-7B-V0.2
   - abacusai/Liberated-Qwen1.5-14B
   - abacusai/Llama-3-Smaug-8B
+  - abacusai/Slerp-CM-mist-dpo
   - abacusai/Smaug-34B-v0.1
   - abacusai/Smaug-72B-v0.1
   - abacusai/Smaug-Llama-3-70B-Instruct
+  - abacusai/bigstral-12b-32k
+  - abacusai/bigyi-15b
   - abhishek/autotrain-llama3-orpo-v2
   - adalbertojunior/Llama-3-8B-Dolphin-Portuguese
   - adalbertojunior/Llama-3-8B-Dolphin-Portuguese-v0.2
   - arcee-ai/Arcee-Spark
   - arcee-ai/Llama-3.1-SuperNova-Lite
   - arcee-ai/SuperNova-Medius
+  - arcee-ai/Virtuoso-Lite
   - arcee-ai/Virtuoso-Small
   - argilla/CapybaraHermes-2.5-Mistral-7B
   - argilla/notus-7b-v1
   - botbot-ai/CabraLlama3-8b
   - botbot-ai/CabraMistral-v3-7b-32k
   - botbot-ai/CabraMixtral-8x7b
+  - bunnycore/HyperLlama-3.1-8B
   - byroneverson/Mistral-Small-Instruct-2409-abliterated
   - byroneverson/Yi-1.5-9B-Chat-16K-abliterated
   - byroneverson/Yi-1.5-9B-Chat-abliterated
   - chujiezheng/Mistral7B-PairRM-SPPO-ExPO
   - chujiezheng/Smaug-34B-v0.1-ExPO
   - cnmoro/Mistral-7B-Portuguese
+  - cnmoro/Qwen2.5-0.5B-Portuguese-Hybrid-Reasoning
+  - cnmoro/Qwen2.5-0.5B-Portuguese-v1
+  - cnmoro/Qwen2.5-0.5B-Portuguese-v2
+  - cognitivecomputations/Dolphin3.0-R1-Mistral-24B
   - cognitivecomputations/WestLake-7B-v2-laser
   - cognitivecomputations/WizardLM-13B-Uncensored
   - cognitivecomputations/WizardLM-30B-Uncensored
   - cognitivess/bella-1-8b
   - cosmicvalor/mistral-orthogonalized
   - croissantllm/CroissantLLMBase
+  - deepseek-ai/DeepSeek-R1-Distill-Llama-70B
   - deepseek-ai/DeepSeek-R1-Distill-Llama-8B
   - deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B
   - deepseek-ai/DeepSeek-R1-Distill-Qwen-14B
   - freewheelin/free-solar-evo-v0.1
   - freewheelin/free-solar-evo-v0.11
   - freewheelin/free-solar-evo-v0.13
+  - gaverfraxz/Meta-Llama-3.1-8B-Instruct-HalfAbliterated-TIES
   - ghost-x/ghost-8b-beta
   - ghost-x/ghost-8b-beta-1608
   - google/gemma-1.1-2b-it
   - microsoft/phi-1_5
   - microsoft/phi-2
   - microsoft/phi-4
+  - migtissera/Tess-3-Mistral-Nemo-12B
   - migtissera/Tess-M-v1.3
   - migtissera/Tess-v2.5-Gemma-2-27B-alpha
   - migtissera/Tess-v2.5-Phi-3-medium-128k-14B
   - mlabonne/NeuralDaredevil-8B-abliterated
   - mlabonne/NeuralMonarch-7B
   - monilouise/opt125M_portuguese
+  - monsterapi/Llama-3_1-8B-Instruct-orca-ORPO
   - mosaicml/mpt-30b
   - mosaicml/mpt-7b
   - mosaicml/mpt-7b-8k
   - natong19/Mistral-Nemo-Instruct-2407-abliterated
   - natong19/Qwen2-7B-Instruct-abliterated
   - nbeerbower/gemma2-gutenberg-27B
+  - nbeerbower/mistral-nemo-wissenschaft-12B
   - nicholasKluge/Aira-2-portuguese-124M
   - nicholasKluge/Aira-2-portuguese-1B7
   - nicholasKluge/Aira-2-portuguese-560M
   - princeton-nlp/Mistral-7B-Instruct-SimPO
   - princeton-nlp/gemma-2-9b-it-DPO
   - princeton-nlp/gemma-2-9b-it-SimPO
+  - prithivMLmods/Megatron-Opus-14B-Exp
   - prithivMLmods/Qwen2.5-14B-DeepSeek-R1-1M
   - projecte-aina/FLOR-1.3B
   - projecte-aina/FLOR-6.3B
   - shadowml/BeagSake-7B
   - shadowml/Mixolar-4x7b
   - sometimesanotion/Lamarck-14B-v0.6
+  - sometimesanotion/Lamarck-14B-v0.7
   - sometimesanotion/Qwen2.5-14B-Vimarckoso-v3
   - speakleash/Bielik-11B-v2
   - speakleash/Bielik-11B-v2.0-Instruct
   - speakleash/Bielik-11B-v2.1-Instruct
   - speakleash/Bielik-11B-v2.2-Instruct
+  - speakleash/Bielik-11B-v2.3-Instruct
   - ssmits/Falcon2-5.5B-Portuguese
   - ssmits/Falcon2-5.5B-multilingual
   - stabilityai/stablelm-2-12b

update_models_in_readme.py CHANGED Viewed

@@ -18,8 +18,12 @@ import json
 snapshot_download(repo_id=QUEUE_REPO, local_dir=EVAL_REQUESTS_PATH, repo_type="dataset", tqdm_class=None, etag_timeout=30)
 all_models = []
-all_models.append('nvidia/Nemotron-4-340B-Instruct')
-all_models.append('meta-llama/Meta-Llama-3.1-405B-Instruct')
 for filepath in glob.glob(os.path.join(EVAL_REQUESTS_PATH, '**/*.json'), recursive=True):
     with open(filepath, 'r') as f:
         model_data = json.load(f)

 snapshot_download(repo_id=QUEUE_REPO, local_dir=EVAL_REQUESTS_PATH, repo_type="dataset", tqdm_class=None, etag_timeout=30)
 all_models = []
+with open('external_models_results.json', 'r') as f:
+    external_models = json.load(f)
+for model in external_models:
+    if 'huggingface.co/' in model['link']:
+        all_models.append(model['link'].split('huggingface.co/')[-1])
 for filepath in glob.glob(os.path.join(EVAL_REQUESTS_PATH, '**/*.json'), recursive=True):
     with open(filepath, 'r') as f:
         model_data = json.load(f)