Spaces:

bigscience-data
/

roots-search

Runtime error

ola13 commited on Apr 3, 2023

Commit

ca93234

1 Parent(s): 7e70097

capitalization variants

Files changed (1) hide show

app.py CHANGED Viewed

@@ -103,11 +103,40 @@ def format_result(result, highlight_terms, exact_search, datasets_filter=None):
             return ""
     if exact_search:
-        query_start = text.find(highlight_terms)
-        query_end = query_start + len(highlight_terms)
-        tokens_html = text[0:query_start]
-        tokens_html += "<b>{}</b>".format(text[query_start:query_end])
-        tokens_html += text[query_end:]
     else:
         tokens = text.split()
         tokens_html = []

             return ""
     if exact_search:
+        query_variants = [highlight_terms]
+        # lower
+        query_variant = highlight_terms.lower()
+        if query_variant not in query_variants:
+            query_variants.append(query_variant)
+        # upper
+        query_variant = highlight_terms.upper()
+        if query_variant not in query_variants:
+            query_variants.append(query_variant)
+        # first capital
+        query_variant = highlight_terms.lower()
+        query_variant = query_variant[0].upper() + query_variant[1:].lower()
+        if query_variant not in query_variants:
+            query_variants.append(query_variant)
+        # camel case
+        query_tokens = highlight_terms.split()
+        query_variant = " ".join(
+            [token[0].upper() + token[1:].lower() for token in query_tokens]
+        )
+        if query_variant not in query_variants:
+            query_variants.append(query_variant)
+        for query_variant in query_variants:
+            query_start = text.find(query_variant)
+            if query_start >= 0:
+                query_end = query_start + len(query_variant)
+                tokens_html = text[0:query_start]
+                tokens_html += "<b>{}</b>".format(text[query_start:query_end])
+                tokens_html += text[query_end:]
+                break
     else:
         tokens = text.split()
         tokens_html = []