Spaces:

Exploration-Lab
/

IL-TUR-Leaderboard

Running

App Files Files Community

shounakpaul95 commited on Jul 9

Commit

8390a54

•

1 Parent(s): 7980958

Update eval_utils.py

Browse files

Files changed (1) hide show

eval_utils.py +12 -15

eval_utils.py CHANGED Viewed

@@ -7,7 +7,6 @@ import nltk
 import numpy as np
 from nervaluate import Evaluator
-# from rouge_score import rouge_scorer
 from sacrebleu.metrics import BLEU, CHRF
 from sklearn.metrics import f1_score
 from tqdm import tqdm
@@ -37,7 +36,7 @@ def evaluate_bail(gold_data, pred_data):
     f1 = f1_score(gold_labels, pred_labels, average="macro")
     print("Macro-F1 on HLDC-all-districts test set:", f1)
-    return {"mF1": f1}
 def get_BLEU_score(ref_text_all, machine_text_all):
     sc_all = []
@@ -90,7 +89,7 @@ def evaluate_cjpe(gold_data, pred_data):
     }
     print("Explanability for ILDC Expert:", explanation_result)
     #return {**prediction_result, **explanation_result}
-    return {"mF1": f1, "ROUGE-L": rouge_score, "BLEU": bleu_score}
 def span2bio(txt, roles):
     roles = sorted(roles, key = lambda x:x['start'])
@@ -162,7 +161,7 @@ def evaluate_lner(gold_data, pred_data, text_data):
         results_per_fold[f"fold_{fold}"] = avg_f1
     print("Strict macro-F1 on L-NER Dataset:", results_per_fold)
-    return {"strict mF1": sum(results_per_fold.values())/len(results_per_fold)}
 def evaluate_rr(gold_data, pred_data):
@@ -188,7 +187,7 @@ def evaluate_rr(gold_data, pred_data):
     f1 = f1_score(all_gold_labels, all_pred_labels, average="macro")
     print(f"Macro-F1 on combined test set:", f1)
-    return {"mF1": f1}
 def evaluate_lsi(gold_data, pred_data):
@@ -211,7 +210,7 @@ def evaluate_lsi(gold_data, pred_data):
     f1 = f1_score(gold_matrix, pred_matrix, average="macro")
     print("Macro-F1 on ILSI test set:", f1)
-    return {"mF1": f1}
 def evaluate_pcr(gold_data, pred_data):
@@ -241,7 +240,7 @@ def evaluate_pcr(gold_data, pred_data):
     max_f1 = max(f1_scores)
     index_max = f1_scores.index(max_f1) + 1
-    return {"muF1@K": f"{max_f1:.2f}@{index_max}"}
 def evaluate_summ(gold_data, pred_data):
@@ -257,15 +256,13 @@ def evaluate_summ(gold_data, pred_data):
             pred_summaries.append(pred_summary)
-    # rl_evaluator = rouge.Rouge(metrics=['rouge-n','rouge-l'], max_n=2, limit_length=False, apply_avg=True)
-    # rl_scores = rl_evaluator.get_scores(pred_summaries, gold_summaries)
-    # print("Rouge:", {k:v['f'] for k,v in rl_scores.items()}, flush=True)
     _, _, bs = bert_score.score(pred_summaries, gold_summaries, lang="en", verbose=True)
     print("BERTSCORE:", bs.mean().item())
-    # return {'ROUGE-L': rl_scores['rouge-l']['f'], 'BERTSCORE': bs.mean().item()}
-    return {'ROUGE-L': '-', 'BERTSCORE': bs.mean().item()}
 def evaluate_lmt(gold_data, pred_data):
     tokenizer = AutoTokenizer.from_pretrained("ai4bharat/indic-bert", use_fast=False)
@@ -308,14 +305,14 @@ def evaluate_lmt(gold_data, pred_data):
     return {
         "BLEU": sum(bleu_scores) / len(bleu_scores),
-        "GLEU": sum(gleu_scores) / len(gleu_scores),
         "chrF++": sum(chrfpp_scores) / len(chrfpp_scores),
     }
 def create_output_json(evaluation_results):
     output = {
-        "Method": "Dummy Ideal Only Summ",
         "Submitted By": "IL-TUR",
         "Github Link": "dummy submission",
         "L-NER": {"strict mF1": evaluation_results["lner"]["strict mF1"]},

 import numpy as np
 from nervaluate import Evaluator
 from sacrebleu.metrics import BLEU, CHRF
 from sklearn.metrics import f1_score
 from tqdm import tqdm
     f1 = f1_score(gold_labels, pred_labels, average="macro")
     print("Macro-F1 on HLDC-all-districts test set:", f1)
+    return {"mF1": f1*100}
 def get_BLEU_score(ref_text_all, machine_text_all):
     sc_all = []
     }
     print("Explanability for ILDC Expert:", explanation_result)
     #return {**prediction_result, **explanation_result}
+    return {"mF1": f1*100, "ROUGE-L": rouge_score*100, "BLEU": bleu_score*100}
 def span2bio(txt, roles):
     roles = sorted(roles, key = lambda x:x['start'])
         results_per_fold[f"fold_{fold}"] = avg_f1
     print("Strict macro-F1 on L-NER Dataset:", results_per_fold)
+    return {"strict mF1": sum(results_per_fold.values())/len(results_per_fold)*100}
 def evaluate_rr(gold_data, pred_data):
     f1 = f1_score(all_gold_labels, all_pred_labels, average="macro")
     print(f"Macro-F1 on combined test set:", f1)
+    return {"mF1": f1*100}
 def evaluate_lsi(gold_data, pred_data):
     f1 = f1_score(gold_matrix, pred_matrix, average="macro")
     print("Macro-F1 on ILSI test set:", f1)
+    return {"mF1": f1*100}
 def evaluate_pcr(gold_data, pred_data):
     max_f1 = max(f1_scores)
     index_max = f1_scores.index(max_f1) + 1
+    return {"muF1@K": f"{max_f1*100:.2f}@{index_max}"}
 def evaluate_summ(gold_data, pred_data):
             pred_summaries.append(pred_summary)
+    rl_evaluator = rouge.Rouge(metrics=['rouge-n','rouge-l'], max_n=2, limit_length=False, apply_avg=True)
+    rl_scores = rl_evaluator.get_scores(pred_summaries, gold_summaries)
+    print("Rouge:", {k:v['f'] for k,v in rl_scores.items()}, flush=True)
     _, _, bs = bert_score.score(pred_summaries, gold_summaries, lang="en", verbose=True)
     print("BERTSCORE:", bs.mean().item())
+    return {'ROUGE-L': rl_scores['rouge-l']['f'] * 100, 'BERTSCORE': bs.mean().item() * 100}
 def evaluate_lmt(gold_data, pred_data):
     tokenizer = AutoTokenizer.from_pretrained("ai4bharat/indic-bert", use_fast=False)
     return {
         "BLEU": sum(bleu_scores) / len(bleu_scores),
+        "GLEU": sum(gleu_scores) / len(gleu_scores) * 100,
         "chrF++": sum(chrfpp_scores) / len(chrfpp_scores),
     }
 def create_output_json(evaluation_results):
     output = {
+        "Method": "Dummy Ideal Only Summ 2",
         "Submitted By": "IL-TUR",
         "Github Link": "dummy submission",
         "L-NER": {"strict mF1": evaluation_results["lner"]["strict mF1"]},