Spaces:

Dovakiins
/

qwerrwe

Build error

Nanobit commited on Oct 5, 2023

Commit

e0b7eea

unverified ·

1 Parent(s): 43856c0

Fix(tokenizer): Set rstrip,lstrip,norm to False (#678)

Files changed (1) hide show

src/axolotl/utils/models.py CHANGED Viewed

@@ -11,6 +11,7 @@ from optimum.bettertransformer import BetterTransformer
 from peft import PeftConfig, prepare_model_for_kbit_training
 from peft.tuners.lora import QuantLinear
 from transformers import (  # noqa: F401
     AutoConfig,
     AutoModelForCausalLM,
     AutoTokenizer,
@@ -82,9 +83,16 @@ def load_tokenizer(cfg):
     if cfg.special_tokens:
         for k, val in cfg.special_tokens.items():
-            tokenizer.add_special_tokens({k: val})
     if cfg.tokens:
-        tokenizer.add_tokens(list(cfg.tokens))
     return tokenizer

 from peft import PeftConfig, prepare_model_for_kbit_training
 from peft.tuners.lora import QuantLinear
 from transformers import (  # noqa: F401
+    AddedToken,
     AutoConfig,
     AutoModelForCausalLM,
     AutoTokenizer,
     if cfg.special_tokens:
         for k, val in cfg.special_tokens.items():
+            tokenizer.add_special_tokens(
+                {k: AddedToken(val, rstrip=False, lstrip=False, normalized=False)}
+            )
     if cfg.tokens:
+        tokenizer.add_tokens(
+            [
+                AddedToken(token, rstrip=False, lstrip=False, normalized=False)
+                for token in cfg.tokens
+            ]
+        )
     return tokenizer