Spaces:

mantisnlp
/

SearchMesh

Sleeping

Nick Sorros commited on Jun 23, 2022

Commit

fd5a1b3

1 Parent(s): 4709571

Update tagged grants

Files changed (2) hide show

tag.py CHANGED Viewed

@@ -1,6 +1,7 @@
 import json
 from transformers import AutoModel, AutoTokenizer
 import srsly
 import typer
@@ -22,11 +23,14 @@ def tag(data_path, tagged_data_path, sample_size: int = 10):
     )
     texts = [grant["title_and_description"] for grant in data]
-    inputs = tokenizer(texts, padding="max_length")
-    labels = model(**inputs, return_labels=True)
-    for i, tags in enumerate(labels):
-        data[i]["tags"] = tags
     srsly.write_jsonl(tagged_data_path, data)

 import json
 from transformers import AutoModel, AutoTokenizer
+from tqdm import tqdm
 import srsly
 import typer
     )
     texts = [grant["title_and_description"] for grant in data]
+    for batch_index in tqdm(range(0, len(texts), 10)):
+        batch_texts = texts[batch_index:batch_index+10]
+        inputs = tokenizer(batch_texts, padding="max_length")
+        labels = model(**inputs, return_labels=True)
+        for i, tags in enumerate(labels):
+            data[i]["tags"] = tags
     srsly.write_jsonl(tagged_data_path, data)

tagged_grants.jsonl CHANGED Viewed

The diff for this file is too large to render. See raw diff