Spaces:

tymbos
/

GPT2-PBE

Sleeping

App Files Files Community

tymbos commited on Mar 30

Commit

7c5aa99

verified ·

1 Parent(s): 687e74d

Update app.py

Browse files

Files changed (1) hide show

app.py +32 -11

app.py CHANGED Viewed

@@ -1,3 +1,4 @@
 import gradio as gr
 import requests
 import json
@@ -32,7 +33,7 @@ def fetch_splits(dataset_name):
             "viewer_template": f"https://huggingface.co/datasets/{dataset_name}/embed/viewer/{{config}}/{{split}}"
         }
     except Exception as e:
-        raise gr.Error(f"Σφάλμα κατάττην ανάκτηση splits: {str(e)}")
 def update_components(dataset_name):
     if not dataset_name:
@@ -42,7 +43,6 @@ def update_components(dataset_name):
         splits_data = fetch_splits(dataset_name)
         config_choices = list(splits_data['splits'].keys())
-        # Δημιουργία iframe preview για το πρώτο config
         first_config = config_choices[0] if config_choices else None
         iframe_html = f"""
         <iframe
@@ -84,26 +84,42 @@ def create_iterator(dataset_name, config, split):
     except Exception as e:
         raise gr.Error(f"Σφάλμα φόρτωσης dataset: {str(e)}")
-def train_and_test(dataset_name, config, split, vocab_size, min_freq, test_text):
-    # Εκπαίδευση και validation logic
     try:
-        iterator = create_iterator(dataset_name, config, split)
         with gr.Progress() as progress:
             progress(0.2, desc="Δημιουργία tokenizer...")
-            tokenizer = train_tokenizer(iterator, vocab_size, min_freq)
-        # Αποθήκευση και φόρτωση tokenizer
         with tempfile.NamedTemporaryFile(delete=False, suffix=".json") as f:
             tokenizer.save(f.name)
             trained_tokenizer = Tokenizer.from_file(f.name)
         os.unlink(f.name)
-        # Validation
         encoded = trained_tokenizer.encode(test_text)
         decoded = trained_tokenizer.decode(encoded.ids)
-        # Δημιουργία γραφήματος
         token_lengths = [len(t) for t in encoded.tokens]
         fig = plt.figure()
         plt.hist(token_lengths, bins=20)
@@ -135,7 +151,7 @@ with gr.Blocks(theme=gr.themes.Soft()) as demo:
                 placeholder="π.χ. 'wikimedia/wikipedia'"
             )
             config = gr.Dropdown(
-                label="Config",
                 choices=[],
                 interactive=True
             )
@@ -150,6 +166,11 @@ with gr.Blocks(theme=gr.themes.Soft()) as demo:
                 value='Η Ακρόπολη είναι σύμβολο της αρχαίας ελληνικής πολιτισμικής κληρονομιάς.',
                 label="Test Text"
             )
             train_btn = gr.Button("Εκπαίδευση", variant="primary")
         with gr.Column():
@@ -172,7 +193,7 @@ with gr.Blocks(theme=gr.themes.Soft()) as demo:
     train_btn.click(
         fn=train_and_test,
-        inputs=[dataset_name, config, split, vocab_size, min_freq, test_text],
         outputs=[results_json, results_plot]
     )

+# -*- coding: utf-8 -*-
 import gradio as gr
 import requests
 import json
             "viewer_template": f"https://huggingface.co/datasets/{dataset_name}/embed/viewer/{{config}}/{{split}}"
         }
     except Exception as e:
+        raise gr.Error(f"Σφάλμα κατά την ανάκτηση των splits: {str(e)}")
 def update_components(dataset_name):
     if not dataset_name:
         splits_data = fetch_splits(dataset_name)
         config_choices = list(splits_data['splits'].keys())
         first_config = config_choices[0] if config_choices else None
         iframe_html = f"""
         <iframe
     except Exception as e:
         raise gr.Error(f"Σφάλμα φόρτωσης dataset: {str(e)}")
+def train_and_test(dataset_name, config, split, vocab_size, min_freq, test_text, custom_files):
     try:
+        dataset_iterator = create_iterator(dataset_name, config, split)
+        # Συνδυασμός iterator από το streaming dataset και των custom αρχείων
+        def combined_iterator():
+            # Δεδομένα από το streaming dataset
+            for text in dataset_iterator:
+                if text:
+                    yield text
+            # Δεδομένα από τα custom αρχεία (αναμένεται λίστα με file paths)
+            if custom_files:
+                for file_path in custom_files:
+                    try:
+                        with open(file_path, 'r', encoding='utf-8') as f:
+                            content = f.read()
+                            if content:
+                                yield content
+                    except Exception as file_error:
+                        print(f"Σφάλμα ανάγνωσης αρχείου {file_path}: {file_error}")
         with gr.Progress() as progress:
             progress(0.2, desc="Δημιουργία tokenizer...")
+            tokenizer = train_tokenizer(combined_iterator(), vocab_size, min_freq)
+        # Αποθήκευση και φόρτωση του εκπαιδευμένου tokenizer
         with tempfile.NamedTemporaryFile(delete=False, suffix=".json") as f:
             tokenizer.save(f.name)
             trained_tokenizer = Tokenizer.from_file(f.name)
         os.unlink(f.name)
+        # Validation: κωδικοποίηση και αποκωδικοποίηση του test κειμένου
         encoded = trained_tokenizer.encode(test_text)
         decoded = trained_tokenizer.decode(encoded.ids)
+        # Δημιουργία γραφήματος για την κατανομή των μηκών των tokens
         token_lengths = [len(t) for t in encoded.tokens]
         fig = plt.figure()
         plt.hist(token_lengths, bins=20)
                 placeholder="π.χ. 'wikimedia/wikipedia'"
             )
             config = gr.Dropdown(
+                label="Config (π.χ. '20231101.el' για ελληνικά ή '20231101.en' για αγγλικά)",
                 choices=[],
                 interactive=True
             )
                 value='Η Ακρόπολη είναι σύμβολο της αρχαίας ελληνικής πολιτισμικής κληρονομιάς.',
                 label="Test Text"
             )
+            custom_files = gr.File(
+                label="Προσαρμοσμένα Ελληνικά Κείμενα",
+                file_count="multiple",
+                type="file"
+            )
             train_btn = gr.Button("Εκπαίδευση", variant="primary")
         with gr.Column():
     train_btn.click(
         fn=train_and_test,
+        inputs=[dataset_name, config, split, vocab_size, min_freq, test_text, custom_files],
         outputs=[results_json, results_plot]
     )