Spaces:

tymbos
/

GPT2-PBE

Sleeping

App Files Files Community

tymbos commited on Apr 1

Commit

96d5cf9

verified ·

1 Parent(s): c398762

Update train_tokenizer.py

Browse files

Files changed (1) hide show

train_tokenizer.py +39 -31

train_tokenizer.py CHANGED Viewed

@@ -1,34 +1,42 @@
 # -*- coding: utf-8 -*-
-from tokenizers import Tokenizer, decoders, models, normalizers, pre_tokenizers, trainers
 import os
-def train_tokenizer(iterator, vocab_size=50000, min_frequency=3, output_dir="tokenizer_model", num_threads=4):
-    """Εκπαιδεύει έναν BPE tokenizer και τον αποθηκεύει."""
-    print("🔄 Ξεκινάει η εκπαίδευση του tokenizer...")
-    try:
-        tokenizer = Tokenizer(models.BPE(unk_token="<unk>"))
-        tokenizer.normalizer = normalizers.NFC()  # Υποστήριξη Unicode UTF-8 για ελληνικούς τόνους
-        tokenizer.pre_tokenizer = pre_tokenizers.Sequence([
-            pre_tokenizers.WhitespaceSplit(),
-            pre_tokenizers.Punctuation(),
-            pre_tokenizers.Digits(individual_digits=True)
-        ])
-        trainer = trainers.BpeTrainer(
-            vocab_size=vocab_size,
-            min_frequency=min_frequency,
-            special_tokens=["<|endoftext|>", "<pad>", "<unk>", "<mask>", "[CITATION]", "[CODE_START]", "[CODE_END]"],
-            continuing_subword_prefix=""
-        )
-        print(f"📏 Μέγεθος λεξιλογίου: {vocab_size}, Ελάχιστη συχνότητα: {min_frequency}")
-        tokenizer.train_from_iterator(iterator, trainer=trainer, num_threads=num_threads)
-        tokenizer.decoder = decoders.ByteLevel()
-        if not os.path.exists(output_dir):
-            os.makedirs(output_dir)
-            print(f"📂 Δημιουργήθηκε φάκελος: {output_dir}")
-        tokenizer.save(os.path.join(output_dir, "tokenizer.json"))
-        tokenizer.model.save(output_dir)
-        print(f"✅ Ο tokenizer αποθηκεύτηκε στον φάκελο '{output_dir}'!")
-        return tokenizer
-    except Exception as e:
-        print(f"❌ Σφάλμα κατά την αποθήκευση: {e}")
-        raise

 # -*- coding: utf-8 -*-
 import os
+from tokenizers import Tokenizer, models, pre_tokenizers, decoders, trainers
+def train_tokenizer(texts, vocab_size, min_freq, output_dir, num_workers):
+    """
+    Εκπαίδευση ενός custom BPE tokenizer για το GPT-2.
+    Args:
+        texts (list): Λίστα με κείμενα για εκπαίδευση.
+        vocab_size (int): Μέγεθος λεξιλογίου.
+        min_freq (int): Ελάχιστη συχνότητα εμφάνισης για να συμπεριληφθεί token.
+        output_dir (str): Φάκελος όπου θα αποθηκευτεί ο tokenizer.
+        num_workers (int): Αριθμός εργαζομένων για παράλληλη επεξεργασία (σε αυτή την υλοποίηση δεν χρησιμοποιείται απευθείας).
+    Returns:
+        Tokenizer: Ο εκπαιδευμένος tokenizer.
+    """
+    # Αρχικοποίηση tokenizer με μοντέλο BPE και καθορισμό token για άγνωστα
+    tokenizer = Tokenizer(models.BPE(unk_token="<unk>"))
+    # Ορισμός του pre-tokenizer για byte-level επεξεργασία (όπως στο GPT-2)
+    tokenizer.pre_tokenizer = pre_tokenizers.ByteLevel()
+    tokenizer.decoder = decoders.ByteLevel()
+    # Ορισμός του trainer για BPE
+    trainer = trainers.BpeTrainer(
+        vocab_size=vocab_size,
+        min_frequency=min_freq,
+        special_tokens=["<s>", "<pad>", "</s>", "<unk>", "<mask>"]
+    )
+    # Εκπαίδευση του tokenizer με τα παρεχόμενα κείμενα
+    tokenizer.train_from_iterator(texts, trainer=trainer, length=len(texts))
+    # Δημιουργία φακέλου αποθήκευσης αν δεν υπάρχει
+    if not os.path.exists(output_dir):
+        os.makedirs(output_dir)
+    # Αποθήκευση του tokenizer σε αρχείο JSON
+    tokenizer.save(os.path.join(output_dir, "tokenizer.json"))
+    return tokenizer