Spaces:

antoinelouis
/

decouvrir

Running

App Files Files Community

antoinelouis commited on Jun 1, 2024

Commit

ad1a271

verified ·

1 Parent(s): 0bfb4f6

Update app.py

Browse files

Files changed (1) hide show

app.py +41 -77

app.py CHANGED Viewed

@@ -7,7 +7,7 @@ DATASETS = [
     "mMARCO-fr",
     "BSARD",
 ]
-DENSE_SINGLE_BIENCODERS = [
     "antoinelouis/biencoder-camemberta-base-mmarcoFR",
     "antoinelouis/biencoder-camembert-base-mmarcoFR",
     "antoinelouis/biencoder-distilcamembert-mmarcoFR",
@@ -22,15 +22,15 @@ DENSE_SINGLE_BIENCODERS = [
     "OrdalieTech/Solon-embeddings-large-0.1",
     "OrdalieTech/Solon-embeddings-base-0.1",
 ]
-DENSE_MULTI_BIENCODERS = [
     "antoinelouis/colbertv1-camembert-base-mmarcoFR",
     "antoinelouis/colbertv2-camembert-L4-mmarcoFR",
     "antoinelouis/colbert-xm",
 ]
-SPARSE_SINGLE_BIENCODERS = [
     "antoinelouis/spladev2-camembert-base-mmarcoFR",
 ]
-CROSS_ENCODERS = [
     "antoinelouis/crossencoder-camemberta-L2-mmarcoFR",
     "antoinelouis/crossencoder-camemberta-L4-mmarcoFR",
     "antoinelouis/crossencoder-camemberta-L6-mmarcoFR",
@@ -57,7 +57,6 @@ CROSS_ENCODERS = [
     "antoinelouis/crossencoder-mMiniLMv2-L12-mmarcoFR",
     "antoinelouis/crossencoder-mMiniLMv2-L6-mmarcoFR",
 ]
-LLMS = []
 COLUMNS = {
     "Model": "html",
     "#Params (M)": "number",
@@ -81,7 +80,7 @@ def get_model_info(model_id: str, model_type: str) -> pd.DataFrame:
         if result.dataset_name in DATASETS and result.dataset_name not in data:
             data[result.dataset_name] = {key: None for key in COLUMNS.keys()}
             data[result.dataset_name]["Model"] = f'<a href="https://huggingface.co/{model_id}" target="_blank" style="color: blue; text-decoration: none;">{model_id}</a>'
-            data[result.dataset_name]["#Params (M)"] = round(model_info.safetensors.total/1e6) if model_info.safetensors else None
             data[result.dataset_name]["Type"] = model_type
             data[result.dataset_name]["Dataset"] = result.dataset_name
@@ -91,17 +90,24 @@ def get_model_info(model_id: str, model_type: str) -> pd.DataFrame:
     return pd.DataFrame(list(data.values()))
 def load_all_results() -> pd.DataFrame:
-    df = pd.DataFrame()
-    for model_id in DENSE_SINGLE_BIENCODERS:
-        df = pd.concat([df, get_model_info(model_id, model_type="DSVBE")])
-    for model_id in DENSE_MULTI_BIENCODERS:
-        df = pd.concat([df, get_model_info(model_id, model_type="DMVBE")])
-    for model_id in SPARSE_SINGLE_BIENCODERS:
-        df = pd.concat([df, get_model_info(model_id, model_type="SSVBE")])
-    for model_id in CROSS_ENCODERS:
-        df = pd.concat([df, get_model_info(model_id, model_type="CE")])
-    for model_id in LLMS:
-        df = pd.concat([df, get_model_info(model_id, model_type="LLM")])
     return df
 def filter_dataf_by_dataset(dataf: pd.DataFrame, dataset_name: str, sort_by: str) -> pd.DataFrame:
@@ -111,35 +117,24 @@ def filter_dataf_by_dataset(dataf: pd.DataFrame, dataset_name: str, sort_by: str
         .sort_values(by=sort_by, ascending=False)
     )
 def update_table(dataf: pd.DataFrame, query: str, selected_types: list, selected_sizes: list) -> pd.DataFrame:
     filtered_df = dataf.copy()
-    conditions = []
-    for val in selected_types:
-        if val == 'Dense single-vector bi-encoder (DSVBE)':
-            conditions.append((filtered_df['Type'] == 'DSVBE'))
-        elif val == 'Dense multi-vector bi-encoder (DMVBE)':
-            conditions.append((filtered_df['Type'] == 'DMVBE'))
-        elif val == 'Sparse single-vector bi-encoder (SSVBE)':
-            conditions.append((filtered_df['Type'] == 'SSVBE'))
-        elif val == 'Cross-encoder (CE)':
-            conditions.append((filtered_df['Type'] == 'CE'))
-        elif val == 'LLM':
-            conditions.append((filtered_df['Type'] == 'LLM'))
     for val in selected_sizes:
         if val == 'Small (< 100M)':
-            conditions.append((filtered_df['#Params (M)'] < 100))
         elif val == 'Base (100M-300M)':
-            conditions.append((filtered_df['#Params (M)'] >= 100) & (filtered_df['#Params (M)'] <= 300))
         elif val == 'Large (300M-500M)':
-            conditions.append((filtered_df['#Params (M)'] >= 300) & (filtered_df['#Params (M)'] <= 500))
         elif val == 'Extra-large (500M+)':
-            conditions.append((filtered_df['#Params (M)'] > 500))
-    if conditions:
-        filtered_df = filtered_df[pd.concat(conditions, axis=1).any(axis=1)]
     if query:
         filtered_df = filtered_df[filtered_df['Model'].str.contains(query, case=False)]
@@ -171,11 +166,10 @@ with gr.Blocks() as demo:
             filter_type = gr.CheckboxGroup(
                 label="Model type",
                 choices=[
-                    'Dense single-vector bi-encoder (DSVBE)',
-                    'Dense multi-vector bi-encoder (DMVBE)',
-                    'Sparse single-vector bi-encoder (SSVBE)',
-                    'Cross-encoder (CE)',
-                    'LLM',
                 ],
                 value=[],
                 interactive=True,
@@ -220,41 +214,11 @@ with gr.Blocks() as demo:
             #     elem_classes="text-sm",
             # )
-    # Update tables on search.
-    search_bar.change(
-        fn=lambda x: update_table(dataf=mmarco_df, query=x, selected_types=filter_type.value, selected_sizes=filter_size.value),
-        inputs=[search_bar],
-        outputs=mmarco_table,
-    )
-    # search_bar.change(
-    #     fn=lambda x: update_table(dataf=bsard_df, query=x, selected_types=filter_type.value, selected_sizes=filter_size.value),
-    #     inputs=[search_bar],
-    #     outputs=bsard_table,
-    # )
-    # Update tables on model type filter.
-    filter_type.change(
-        fn=lambda selected_types: update_table(mmarco_df, search_bar.value, selected_types, filter_size.value),
-        inputs=[filter_type],
-        outputs=mmarco_table,
-    )
-    # filter_type.change(
-    #     fn=lambda selected_types: update_table(bsard_df, search_bar.value, selected_types, filter_size.value),
-    #     inputs=[filter_type],
-    #     outputs=bsard_table,
-    # )
-    # Update tables on model size filter.
-    filter_size.change(
-        fn=lambda selected_sizes: update_table(mmarco_df, search_bar.value, filter_type.value, selected_sizes),
-        inputs=[filter_size],
-        outputs=mmarco_table,
-    )
-    # filter_size.change(
-    #     fn=lambda selected_sizes: update_table(bsard_df, search_bar.value, filter_type.value, selected_sizes),
-    #     inputs=[filter_size],
-    #     outputs=bsard_table,
-    # )
     # Citation
     with gr.Column():

     "mMARCO-fr",
     "BSARD",
 ]
+SINGLE_VECTOR_MODELS = [
     "antoinelouis/biencoder-camemberta-base-mmarcoFR",
     "antoinelouis/biencoder-camembert-base-mmarcoFR",
     "antoinelouis/biencoder-distilcamembert-mmarcoFR",
     "OrdalieTech/Solon-embeddings-large-0.1",
     "OrdalieTech/Solon-embeddings-base-0.1",
 ]
+MULTI_VECTOR_MODELS = [
     "antoinelouis/colbertv1-camembert-base-mmarcoFR",
     "antoinelouis/colbertv2-camembert-L4-mmarcoFR",
     "antoinelouis/colbert-xm",
 ]
+SPARSE_LEXICAL_MODELS = [
     "antoinelouis/spladev2-camembert-base-mmarcoFR",
 ]
+CROSS_ENCODER_MODELS = [
     "antoinelouis/crossencoder-camemberta-L2-mmarcoFR",
     "antoinelouis/crossencoder-camemberta-L4-mmarcoFR",
     "antoinelouis/crossencoder-camemberta-L6-mmarcoFR",
     "antoinelouis/crossencoder-mMiniLMv2-L12-mmarcoFR",
     "antoinelouis/crossencoder-mMiniLMv2-L6-mmarcoFR",
 ]
 COLUMNS = {
     "Model": "html",
     "#Params (M)": "number",
         if result.dataset_name in DATASETS and result.dataset_name not in data:
             data[result.dataset_name] = {key: None for key in COLUMNS.keys()}
             data[result.dataset_name]["Model"] = f'<a href="https://huggingface.co/{model_id}" target="_blank" style="color: blue; text-decoration: none;">{model_id}</a>'
+            data[result.dataset_name]["#Params (M)"] = round(model_info.safetensors.total/1e6, 0) if model_info.safetensors else None
             data[result.dataset_name]["Type"] = model_type
             data[result.dataset_name]["Dataset"] = result.dataset_name
     return pd.DataFrame(list(data.values()))
 def load_all_results() -> pd.DataFrame:
+    # Load results from external baseline models.
+    df = pd.read_csv('./baselines.csv')
+    # Load results from own Hugging Face models.
+    for model_id in SINGLE_VECTOR_MODELS:
+        df = pd.concat([df, get_model_info(model_id, model_type="SINGLE")])
+    for model_id in MULTI_VECTOR_MODELS:
+        df = pd.concat([df, get_model_info(model_id, model_type="MULTI")])
+    for model_id in SPARSE_LEXICAL_MODELS:
+        df = pd.concat([df, get_model_info(model_id, model_type="SPARSE")])
+    for model_id in CROSS_ENCODER_MODELS:
+        df = pd.concat([df, get_model_info(model_id, model_type="CROSS")])
+    # Round all metrics to 1 decimal.
+    for col in df.columns:
+        if "Recall" in col or "MRR" in col or "nDCG" in col or "MAP" in col:
+            df[col] = df[col].round(1)
     return df
 def filter_dataf_by_dataset(dataf: pd.DataFrame, dataset_name: str, sort_by: str) -> pd.DataFrame:
         .sort_values(by=sort_by, ascending=False)
     )
 def update_table(dataf: pd.DataFrame, query: str, selected_types: list, selected_sizes: list) -> pd.DataFrame:
     filtered_df = dataf.copy()
+    if selected_types:
+        filtered_df = filtered_df[filtered_df['Type'].isin([t.split()[-1][1:-1] for t in selected_types])]
+    size_conditions = []
     for val in selected_sizes:
         if val == 'Small (< 100M)':
+            size_conditions.append(filtered_df['#Params (M)'] < 100)
         elif val == 'Base (100M-300M)':
+            size_conditions.append((filtered_df['#Params (M)'] >= 100) & (filtered_df['#Params (M)'] <= 300))
         elif val == 'Large (300M-500M)':
+            size_conditions.append((filtered_df['#Params (M)'] >= 300) & (filtered_df['#Params (M)'] <= 500))
         elif val == 'Extra-large (500M+)':
+            size_conditions.append(filtered_df['#Params (M)'] > 500)
+    if size_conditions:
+        filtered_df = filtered_df[pd.concat(size_conditions, axis=1).any(axis=1)]
     if query:
         filtered_df = filtered_df[filtered_df['Model'].str.contains(query, case=False)]
             filter_type = gr.CheckboxGroup(
                 label="Model type",
                 choices=[
+                    'Single-vector dense bi-encoder (SINGLE)',
+                    'Multi-vector dense bi-encoder (MULTI)',
+                    'Sparse lexical model (SPARSE)',
+                    'Cross-encoder (CROSS)',
                 ],
                 value=[],
                 interactive=True,
             #     elem_classes="text-sm",
             # )
+    # Update tables on filter widgets change.
+    widgets = [search_bar, filter_type, filter_size]
+    for w in widgets:
+        w.change(fn=lambda q, t, s: update_table(dataf=mmarco_df, query=q, selected_types=t, selected_sizes=s), inputs=widgets, outputs=[mmarco_table])
+        #w.change(fn=lambda q, t, s: update_table(dataf=bsard_df, query=q, selected_types=t, selected_sizes=s), inputs=widgets, outputs=[bsard_table])
     # Citation
     with gr.Column():