Spaces:

alirezamsh
/

small100

Running

alirezamsh commited on Jul 23, 2024

Commit

a0e1063

verified ·

1 Parent(s): b9fa279

Update tokenization_small100.py

Files changed (1) hide show

tokenization_small100.py CHANGED Viewed

@@ -145,19 +145,6 @@ class SMALL100Tokenizer(PreTrainedTokenizer):
             if self.get_lang_token(lang_code) not in kwargs["additional_special_tokens"]
         ]
-        super().__init__(
-            tgt_lang=tgt_lang,
-            bos_token=bos_token,
-            eos_token=eos_token,
-            sep_token=sep_token,
-            unk_token=unk_token,
-            pad_token=pad_token,
-            language_codes=language_codes,
-            sp_model_kwargs=self.sp_model_kwargs,
-            num_madeup_words=num_madeup_words,
-            **kwargs,
-        )
         self.vocab_file = vocab_file
         self.encoder = load_json(vocab_file)
         self.decoder = {v: k for k, v in self.encoder.items()}
@@ -174,9 +161,23 @@ class SMALL100Tokenizer(PreTrainedTokenizer):
         self._tgt_lang = tgt_lang if tgt_lang is not None else "en"
         self.cur_lang_id = self.get_lang_id(self._tgt_lang)
         self.set_lang_special_tokens(self._tgt_lang)
-        self.num_madeup_words = num_madeup_words
     @property
     def vocab_size(self) -> int:
@@ -361,4 +362,4 @@ def load_json(path: str) -> Union[Dict, List]:
 def save_json(data, path: str) -> None:
     with open(path, "w") as f:
-        json.dump(data, f, indent=2)

             if self.get_lang_token(lang_code) not in kwargs["additional_special_tokens"]
         ]
         self.vocab_file = vocab_file
         self.encoder = load_json(vocab_file)
         self.decoder = {v: k for k, v in self.encoder.items()}
         self._tgt_lang = tgt_lang if tgt_lang is not None else "en"
         self.cur_lang_id = self.get_lang_id(self._tgt_lang)
+        self.num_madeup_words = num_madeup_words
+        super().__init__(
+            tgt_lang=tgt_lang,
+            bos_token=bos_token,
+            eos_token=eos_token,
+            sep_token=sep_token,
+            unk_token=unk_token,
+            pad_token=pad_token,
+            language_codes=language_codes,
+            sp_model_kwargs=self.sp_model_kwargs,
+            num_madeup_words=num_madeup_words,
+            **kwargs,
+        )
         self.set_lang_special_tokens(self._tgt_lang)
     @property
     def vocab_size(self) -> int:
 def save_json(data, path: str) -> None:
     with open(path, "w") as f:
+        json.dump(data, f, indent=2)