Spaces:

bigscience-data
/

roots-search

Runtime error

App Files Files Community

ola13 commited on Mar 27, 2023

Commit

61841be

1 Parent(s): cd7903c

maintenance message

Browse files

Files changed (1) hide show

app.py +17 -43

app.py CHANGED Viewed

@@ -10,9 +10,7 @@ from huggingface_hub import HfApi
 hf_api = HfApi()
 roots_datasets = {
     dset.id.split("/")[-1]: dset
-    for dset in hf_api.list_datasets(
-        author="bigscience-data", use_auth_token=os.environ.get("bigscience_data_token")
-    )
 }
@@ -64,9 +62,7 @@ def process_pii(text):
     for tag in PII_TAGS:
         text = text.replace(
             PII_PREFIX + tag,
-            """<b><mark style="background: Fuchsia; color: Lime;">REDACTED {}</mark></b>""".format(
-                tag
-            ),
         )
     return text
@@ -133,9 +129,7 @@ def format_result(result, highlight_terms, exact_search, datasets_filter=None):
     return "<p>" + result_html + "</p>"
-def format_result_page(
-    language, results, highlight_terms, num_results, exact_search, datasets_filter=None
-) -> gr.HTML:
     filtered_num_results = 0
     header_html = ""
@@ -160,9 +154,7 @@ def format_result_page(
             continue
         results_for_lang_html = ""
         for result in results_for_lang:
-            result_html = format_result(
-                result, highlight_terms, exact_search, datasets_filter
-            )
             if result_html != "":
                 filtered_num_results += 1
             results_for_lang_html += result_html
@@ -204,9 +196,7 @@ def extract_results_from_payload(query, language, payload, exact_search):
             text = result["text"]
             url = (
                 result["meta"]["url"]
-                if "meta" in result
-                and result["meta"] is not None
-                and "url" in result["meta"]
                 else None
             )
             docid = result["docid"]
@@ -244,11 +234,7 @@ def request_payload(query, language, exact_search, num_results=10, received_resu
     post_data = {"query": query, "k": num_results, "received_results": received_results}
     if language != "detect_language":
         post_data["lang"] = language
-    address = (
-        os.environ.get("address_exact_search")
-        if exact_search
-        else os.environ.get("address")
-    )
     output = requests.post(
         address,
         headers={"Content-type": "application/json"},
@@ -259,10 +245,12 @@ def request_payload(query, language, exact_search, num_results=10, received_resu
     return payload
-title = (
-    """<p style="text-align: center; font-size:28px"> 🌸 🔎 ROOTS search tool 🔍 🌸 </p>"""
-)
 description = """
 The ROOTS corpus was developed during the [BigScience workshop](https://bigscience.huggingface.co/) for the purpose
 of training the Multilingual Large Language Model [BLOOM](https://huggingface.co/bigscience/bloom). The ROOTS Search
 Tool allows you to search through the ROOTS corpus. We serve a BM25 index for each language or group of languages
@@ -379,9 +367,7 @@ if __name__ == "__main__":
                 payload,
                 exact_search,
             )
-            result_page = format_result_page(
-                lang, processed_results, highlight_terms, num_results, exact_search
-            )
             return (
                 processed_results,
                 highlight_terms,
@@ -402,19 +388,13 @@ if __name__ == "__main__":
                 datasets,
             ) = run_query(query, lang, k, dropdown_input, 0)
             has_more_results = exact_search and (num_results > k)
-            current_results = (
-                len(next(iter(processed_results.values())))
-                if len(processed_results) > 0
-                else 0
-            )
             return [
                 processed_results,
                 highlight_terms,
                 num_results,
                 exact_search,
-                gr.update(visible=True)
-                if current_results > 0
-                else gr.update(visible=False),
                 gr.Dropdown.update(choices=datasets, value=datasets),
                 gr.update(visible=has_more_results),
                 current_results,
@@ -437,12 +417,8 @@ if __name__ == "__main__":
                 result_page,
                 datasets,
             ) = run_query(query, lang, k, dropdown_input, received_results)
-            current_results = sum(
-                len(results) for results in processed_results.values()
-            )
-            has_more_results = exact_search and (
-                received_results + current_results < num_results
-            )
             print("received_results", received_results)
             print("current_results", current_results)
             print("has_more_results", has_more_results)
@@ -451,9 +427,7 @@ if __name__ == "__main__":
                 highlight_terms,
                 num_results,
                 exact_search,
-                gr.update(visible=True)
-                if current_results > 0
-                else gr.update(visible=False),
                 gr.Dropdown.update(choices=datasets, value=datasets),
                 gr.update(visible=current_results >= k and has_more_results),
                 received_results + current_results,

 hf_api = HfApi()
 roots_datasets = {
     dset.id.split("/")[-1]: dset
+    for dset in hf_api.list_datasets(author="bigscience-data", use_auth_token=os.environ.get("bigscience_data_token"))
 }
     for tag in PII_TAGS:
         text = text.replace(
             PII_PREFIX + tag,
+            """<b><mark style="background: Fuchsia; color: Lime;">REDACTED {}</mark></b>""".format(tag),
         )
     return text
     return "<p>" + result_html + "</p>"
+def format_result_page(language, results, highlight_terms, num_results, exact_search, datasets_filter=None) -> gr.HTML:
     filtered_num_results = 0
     header_html = ""
             continue
         results_for_lang_html = ""
         for result in results_for_lang:
+            result_html = format_result(result, highlight_terms, exact_search, datasets_filter)
             if result_html != "":
                 filtered_num_results += 1
             results_for_lang_html += result_html
             text = result["text"]
             url = (
                 result["meta"]["url"]
+                if "meta" in result and result["meta"] is not None and "url" in result["meta"]
                 else None
             )
             docid = result["docid"]
     post_data = {"query": query, "k": num_results, "received_results": received_results}
     if language != "detect_language":
         post_data["lang"] = language
+    address = os.environ.get("address_exact_search") if exact_search else os.environ.get("address")
     output = requests.post(
         address,
         headers={"Content-type": "application/json"},
     return payload
+title = """<p style="text-align: center; font-size:28px"> 🌸 🔎 ROOTS search tool 🔍 🌸 </p>"""
 description = """
+# We're running maintenance works on the exact search index, so it may not work properly until the end of the day,
+Monday 27th of March.
 The ROOTS corpus was developed during the [BigScience workshop](https://bigscience.huggingface.co/) for the purpose
 of training the Multilingual Large Language Model [BLOOM](https://huggingface.co/bigscience/bloom). The ROOTS Search
 Tool allows you to search through the ROOTS corpus. We serve a BM25 index for each language or group of languages
                 payload,
                 exact_search,
             )
+            result_page = format_result_page(lang, processed_results, highlight_terms, num_results, exact_search)
             return (
                 processed_results,
                 highlight_terms,
                 datasets,
             ) = run_query(query, lang, k, dropdown_input, 0)
             has_more_results = exact_search and (num_results > k)
+            current_results = len(next(iter(processed_results.values()))) if len(processed_results) > 0 else 0
             return [
                 processed_results,
                 highlight_terms,
                 num_results,
                 exact_search,
+                gr.update(visible=True) if current_results > 0 else gr.update(visible=False),
                 gr.Dropdown.update(choices=datasets, value=datasets),
                 gr.update(visible=has_more_results),
                 current_results,
                 result_page,
                 datasets,
             ) = run_query(query, lang, k, dropdown_input, received_results)
+            current_results = sum(len(results) for results in processed_results.values())
+            has_more_results = exact_search and (received_results + current_results < num_results)
             print("received_results", received_results)
             print("current_results", current_results)
             print("has_more_results", has_more_results)
                 highlight_terms,
                 num_results,
                 exact_search,
+                gr.update(visible=True) if current_results > 0 else gr.update(visible=False),
                 gr.Dropdown.update(choices=datasets, value=datasets),
                 gr.update(visible=current_results >= k and has_more_results),
                 received_results + current_results,