Spaces:

atlasia
/

darija-tokenizers-leaderboard

Running

nouamanetazi HF Staff commited on Dec 25, 2024

Commit

5ad2e6e

verified ·

1 Parent(s): 6f9f426

Upload app.py with huggingface_hub

Files changed (1) hide show

app.py ADDED Viewed

+import streamlit as st
+from tabs import comparison, leaderboard, about
+import pandas as pd
+dataframe_path = "darija_tokenizers_leaderboard.jsonl"
+try:
+    df = pd.read_json(dataframe_path, lines=True)
+    assert all(col in df.columns for col in ["Tokenizer", "Vocabulary Size", "Token Count", "Tokens/Character Ratio", "Latin Support", "Tokenizer Class"]), "Invalid columns in leaderboard"
+except:
+    df = pd.DataFrame(
+        columns=[
+            "Tokenizer",
+            "Vocabulary Size",
+            "Token Count",
+            "Tokens/Character Ratio",
+            "Latin Support",
+            "Tokenizer Class"
+        ]
+    )
+def main():
+    st.title("Darija Tokenizer Explorer 🧭")
+    tab1, tab2, tab3 = st.tabs(["Leaderboard", "Comparison", "About"])
+    with tab1:
+        leaderboard.leaderboard_tab(df)
+    with tab2:
+        comparison.comparison_tab(df)
+    with tab3:
+        about.about_tab()
+if __name__ == "__main__":
+    main()