Spaces:

MERaLiON
/

SeaEval_Leaderboard

Running

App Files Files Community

zhuohan-7 commited on Dec 12, 2024

Commit

e025c3d

verified ·

1 Parent(s): 43c31d2

Upload folder using huggingface_hub

Browse files

Files changed (2) hide show

app/__pycache__/pages.cpython-310.pyc +0 -0
app/pages.py +32 -32

app/__pycache__/pages.cpython-310.pyc CHANGED Viewed

Binary files a/app/__pycache__/pages.cpython-310.pyc and b/app/__pycache__/pages.cpython-310.pyc differ

app/pages.py CHANGED Viewed

@@ -79,11 +79,11 @@ def cross_lingual_consistency():
     filters_levelone = ['Zero Shot', 'Few Shot']
     filters_leveltwo = [
                         'Cross-MMLU',
-                        'Cross-MMLU-No-Prompt',
                         'Cross-XQUAD',
-                        'Cross-XQUAD-No-Prompt',
                         'Cross-LogiQA',
-                        'Cross-LogiQA-No-Prompt',
                         ]
     category_one_dict = {
@@ -92,12 +92,12 @@ def cross_lingual_consistency():
                          }
     category_two_dict = {
-                        'Cross-MMLU'            : 'cross_mmlu',
-                        'Cross-MMLU-No-Prompt'  : 'cross_mmlu_no_prompt',
-                        'Cross-XQUAD'           : 'cross_xquad',
-                        'Cross-XQUAD-No-Prompt' : 'cross_xquad_no_prompt',
-                        'Cross-LogiQA'          : 'cross_logiqa',
-                        'Cross-LogiQA-No-Prompt': 'cross_logiqa_no_prompt',
                          }
     left, center, middle, _, right = st.columns([0.2, 0.2, 0.2, 0.2 ,0.2])
@@ -126,14 +126,14 @@ def cultural_reasoning():
     filters_levelone = ['Zero Shot', 'Few Shot']
     filters_leveltwo = [
-                        'SG EVAL V2 MCQ',
-                        'SG EVAL V2 MCQ No Prompt',
-                        'SG EVAL V2 Open Ended',
-                        'SG EVAL',
-                        'SG EVAL V1 Cleaned',
-                        'CN EVAL',
-                        'PH EVAL',
-                        'US EVAL'
                         ]
     category_one_dict = {'Zero Shot': 'zero_shot',
@@ -141,14 +141,14 @@ def cultural_reasoning():
                          }
     category_two_dict = {
-                         'SG EVAL'                 : 'sg_eval',
-                         'SG EVAL V1 Cleaned'      : 'sg_eval_v1_cleaned',
-                         'SG EVAL V2 MCQ'          : 'sg_eval_v2_mcq',
-                         'SG EVAL V2 MCQ No Prompt': 'sg_eval_v2_mcq_no_prompt',
-                         'SG EVAL V2 Open Ended'   : 'sg_eval_v2_open',
-                         'US EVAL'                 : 'us_eval',
-                         'CN EVAL'                 : 'cn_eval',
-                         'PH EVAL'                 : 'ph_eval'
                          }
     left, center, middle, _, right = st.columns([0.2, 0.2, 0.2, 0.2 ,0.2])
@@ -172,11 +172,11 @@ def general_reasoning():
     filters_levelone = ['Zero Shot', 'Few Shot']
     filters_leveltwo = [
                         'MMLU',
-                        'MMLU-No-Prompt',
                         'CMMLU',
-                        'IndoMMLU',
-                        'IndoMMLU-No-Prompt',
                         'C-Eval',
                         'ZBench',
                         ]
@@ -185,13 +185,13 @@ def general_reasoning():
                          'Few Shot': 'few_shot'}
     category_two_dict = {
-                         'MMLU': 'mmlu',
-                         'MMLU-No-Prompt': 'mmlu_no_prompt',
                          'C-Eval': 'c_eval',
                          'CMMLU': 'cmmlu',
                          'ZBench': 'zbench',
-                         'IndoMMLU': 'indommlu',
-                         'IndoMMLU-No-Prompt': 'indommlu_no_prompt',
                          }
     left, center, middle, _, right = st.columns([0.2, 0.2, 0.2, 0.2 ,0.2])

     filters_levelone = ['Zero Shot', 'Few Shot']
     filters_leveltwo = [
                         'Cross-MMLU',
+                        #'Cross-MMLU-No-Prompt',
                         'Cross-XQUAD',
+                        #'Cross-XQUAD-No-Prompt',
                         'Cross-LogiQA',
+                        #'Cross-LogiQA-No-Prompt',
                         ]
     category_one_dict = {
                          }
     category_two_dict = {
+                        'Cross-MMLU'            : 'cross_mmlu_no_prompt',
+                        #'Cross-MMLU-No-Prompt'  : 'cross_mmlu_no_prompt',
+                        'Cross-XQUAD'           : 'cross_xquad_no_prompt',
+                        #'Cross-XQUAD-No-Prompt' : 'cross_xquad_no_prompt',
+                        'Cross-LogiQA'          : 'cross_logiqa_no_prompt',
+                        #'Cross-LogiQA-No-Prompt': 'cross_logiqa_no_prompt',
                          }
     left, center, middle, _, right = st.columns([0.2, 0.2, 0.2, 0.2 ,0.2])
     filters_levelone = ['Zero Shot', 'Few Shot']
     filters_leveltwo = [
+                        'SG-EVAL-v2-MCQ',
+                        #'SG EVAL V2 MCQ No Prompt',
+                        'SG-EVAL-v2-Open-Ended',
+                        'SG-EVAL-v1-Cleaned',
+                        'SG-EVAL-v1',
+                        'CN-EVAL',
+                        'PH-EVAL',
+                        'US-EVAL'
                         ]
     category_one_dict = {'Zero Shot': 'zero_shot',
                          }
     category_two_dict = {
+                         'SG-EVAL-v2-MCQ'          : 'sg_eval_v2_mcq_no_prompt',
+                         'SG-EVAL-v1'              : 'sg_eval',
+                         'SG-EVAL-v1-Cleaned'      : 'sg_eval_v1_cleaned',
+                         # 'SG EVAL V2 MCQ No Prompt': 'sg_eval_v2_mcq_no_prompt',
+                         'SG-EVAL-v2-Open-Ended'   : 'sg_eval_v2_open',
+                         'US-EVAL'                 : 'us_eval',
+                         'CN-EVAL'                 : 'cn_eval',
+                         'PH-EVAL'                 : 'ph_eval'
                          }
     left, center, middle, _, right = st.columns([0.2, 0.2, 0.2, 0.2 ,0.2])
     filters_levelone = ['Zero Shot', 'Few Shot']
     filters_leveltwo = [
+                        'IndoMMLU',
                         'MMLU',
+                        #'MMLU-No-Prompt',
                         'CMMLU',
+                        #'IndoMMLU-No-Prompt',
                         'C-Eval',
                         'ZBench',
                         ]
                          'Few Shot': 'few_shot'}
     category_two_dict = {
+                         'IndoMMLU': 'indommlu_no_prompt',
+                         'MMLU': 'mmlu_no_prompt',
+                         #'MMLU-No-Prompt': 'mmlu_no_prompt',
                          'C-Eval': 'c_eval',
                          'CMMLU': 'cmmlu',
                          'ZBench': 'zbench',
+                         #'IndoMMLU-No-Prompt': 'indommlu_no_prompt',
                          }
     left, center, middle, _, right = st.columns([0.2, 0.2, 0.2, 0.2 ,0.2])