IL-TUR-Leaderboard

Running

shounakpaul95 commited on Jul 8, 2024

Commit

9f0fcf1

verified ·

1 Parent(s): 63a8691

Update eval_utils.py

Files changed (1) hide show

eval_utils.py CHANGED Viewed

@@ -253,11 +253,13 @@ def evaluate_summ(gold_data, pred_data):
             gold_summaries.append(gold_summary)
             pred_summaries.append(pred_summary)
     rl_evaluator = rouge.Rouge(metrics=['rouge-n','rouge-l'], max_n=2, limit_length=False, apply_avg=True)
     rl_scores = rl_evaluator.get_scores(pred_summaries, gold_summaries)
     _, _, bs = bert_score.score(pred_summaries, gold_summaries, lang="en", verbose=True, device='cuda')
-    print("Rouge:", {k:v['f'] for k,v in rl_scores.items()}, "BERTSCORE:", bs.mean().item())
     return {'ROUGE': rl_scores['rouge-l']['f'], 'BERTSCORE': bs.mean().item()}
@@ -420,7 +422,6 @@ def get_evaluation_scores(gold_data, submission_data):
     evaluation_results = {}
     for task in submission_data.keys():
-        if task != 'summ': continue
         print(f"Task: {task}")
         if task == "bail":

             gold_summaries.append(gold_summary)
             pred_summaries.append(pred_summary)
     rl_evaluator = rouge.Rouge(metrics=['rouge-n','rouge-l'], max_n=2, limit_length=False, apply_avg=True)
     rl_scores = rl_evaluator.get_scores(pred_summaries, gold_summaries)
+    print("Rouge:", {k:v['f'] for k,v in rl_scores.items()}, flush=True)
     _, _, bs = bert_score.score(pred_summaries, gold_summaries, lang="en", verbose=True, device='cuda')
+    print("BERTSCORE:", bs.mean().item())
     return {'ROUGE': rl_scores['rouge-l']['f'], 'BERTSCORE': bs.mean().item()}
     evaluation_results = {}
     for task in submission_data.keys():
         print(f"Task: {task}")
         if task == "bail":