Upload tokenizer

Browse files

Files changed (3) hide show

special_tokens_map.json +21 -3
tokenizer.json +60 -3
tokenizer_config.json +0 -0

special_tokens_map.json CHANGED Viewed

@@ -101,7 +101,25 @@
     "<extra_id_98>",
     "<extra_id_99>"
   ],
-  "eos_token": "</s>",
-  "pad_token": "<pad>",
-  "unk_token": "<unk>"
 }

     "<extra_id_98>",
     "<extra_id_99>"
   ],
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
 }

tokenizer.json CHANGED Viewed

@@ -35,6 +35,24 @@
       "normalized": false,
       "special": true
     },
     {
       "id": 32000,
       "content": "<extra_id_99>",
@@ -5776,6 +5794,42 @@
       "rstrip": false,
       "normalized": true,
       "special": false
     }
   ],
   "normalizer": {
@@ -5791,7 +5845,8 @@
       {
         "type": "Metaspace",
         "replacement": "▁",
-        "add_prefix_space": true
       }
     ]
   },
@@ -5852,7 +5907,8 @@
   "decoder": {
     "type": "Metaspace",
     "replacement": "▁",
-    "add_prefix_space": true
   },
   "model": {
     "type": "Unigram",
@@ -134258,6 +134314,7 @@
         "<extra_id_0>",
         0.0
       ]
-    ]
   }
 }

       "normalized": false,
       "special": true
     },
+    {
+      "id": 834,
+      "content": "_",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": true,
+      "special": false
+    },
+    {
+      "id": 3229,
+      "content": "$",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": true,
+      "special": false
+    },
     {
       "id": 32000,
       "content": "<extra_id_99>",
       "rstrip": false,
       "normalized": true,
       "special": false
+    },
+    {
+      "id": 32638,
+      "content": "\\",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": true,
+      "special": false
+    },
+    {
+      "id": 32639,
+      "content": "^",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": true,
+      "special": false
+    },
+    {
+      "id": 32640,
+      "content": "{",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": true,
+      "special": false
+    },
+    {
+      "id": 32641,
+      "content": "}",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": true,
+      "special": false
     }
   ],
   "normalizer": {
       {
         "type": "Metaspace",
         "replacement": "▁",
+        "prepend_scheme": "always",
+        "split": true
       }
     ]
   },
   "decoder": {
     "type": "Metaspace",
     "replacement": "▁",
+    "prepend_scheme": "always",
+    "split": true
   },
   "model": {
     "type": "Unigram",
         "<extra_id_0>",
         0.0
       ]
+    ],
+    "byte_fallback": false
   }
 }

tokenizer_config.json CHANGED Viewed

The diff for this file is too large to render. See raw diff