Multi-language_Text-to-Speech

Running

App Files Files Community

Fabrice-TIERCELIN commited on Nov 17, 2024

Commit

ba53663

verified ·

1 Parent(s): dcb8a32

Get results earlier

Browse files

Files changed (1) hide show

app.py +80 -18

app.py CHANGED Viewed

@@ -43,6 +43,21 @@ def update_output(output_number):
         gr.update(visible = (5 <= output_number))
     ]
 def predict(
     prompt,
     language,
@@ -50,12 +65,18 @@ def predict(
     audio_file_pth,
     mic_file_path,
     use_mic,
     generation_number,
     temperature,
     is_randomize_seed,
     seed,
     progress = gr.Progress()
 ):
     start = time.time()
     progress(0, desc = "Preparing data...")
@@ -64,14 +85,12 @@ def predict(
         return (
                 None,
                 None,
-                None,
             )
     if 50000 < len(prompt):
         gr.Warning("Text length limited to 50,000 characters for this demo, please try shorter text")
         return (
             None,
             None,
-            None,
         )
     if use_mic:
@@ -80,7 +99,6 @@ def predict(
             return (
                 None,
                 None,
-                None,
             )
         else:
             speaker_wav = mic_file_path
@@ -93,7 +111,7 @@ def predict(
         else:
             speaker_wav = "./examples/female.wav"
-    output_filename = []
     try:
         if language == "fr":
@@ -102,12 +120,7 @@ def predict(
         if m.find("/fr/") != -1:
             language = None
-        for i in range(5):
-            if i < generation_number:
-                output_filename.append(f"{i}_{re.sub('[^a-zA-Z0-9]', '_', language)}_{re.sub('[^a-zA-Z0-9]', '_', prompt)}"[:250] + ".wav")
-                predict_on_gpu(i, prompt, speaker_wav, language, output_filename[i], temperature, is_randomize_seed, seed, progress)
-            else:
-                output_filename.append(None)
     except RuntimeError as e :
         if "device-assert" in str(e):
             # cannot do anything on cuda device side error, need to restart
@@ -126,17 +139,14 @@ def predict(
     information = ("Start again to get a different result. " if is_randomize_seed else "") + "The sound has been generated in " + ((str(hours) + " h, ") if hours != 0 else "") + ((str(minutes) + " min, ") if hours != 0 or minutes != 0 else "") + str(secondes) + " sec."
     return (
-        output_filename[0],
-        output_filename[1],
-        output_filename[2],
-        output_filename[3],
-        output_filename[4],
         information,
     )
 @spaces.GPU(duration=60)
 def predict_on_gpu(
     i,
     prompt,
     speaker_wav,
     language,
@@ -146,7 +156,7 @@ def predict_on_gpu(
     seed,
     progress
 ):
-    progress((i + 1) / 5, desc = "Generating the audio #" + str(i + 1) + "...")
     if is_randomize_seed:
         seed = random.randint(0, max_64_bit_int)
@@ -175,7 +185,7 @@ This is the same model that powers our creator application <a href="https://coqu
 <br/>
 Leave a star on the Github <a href="https://github.com/coqui-ai/TTS">TTS</a>, where our open-source inference and training code lives.
 <br/>
-<p>For faster inference without waiting in the queue, you should duplicate this space and upgrade to GPU via the settings.
 <br/>
 <a href="https://huggingface.co/spaces/Fabrice-TIERCELIN/Multi-language_Text-to-Speech?duplicate=true">
 <img style="margin-top: 0em; margin-bottom: 0em" src="https://bit.ly/3gLdBN6" alt="Duplicate Space"></a>
@@ -320,7 +330,7 @@ Leave a star on the Github <a href="https://github.com/coqui-ai/TTS">TTS</a>, wh
         synthesised_audio_3,
         synthesised_audio_4,
         synthesised_audio_5
-    ], queue = False, show_progress = False).success(predict, inputs = [
         prompt,
         language,
         gender,
@@ -333,9 +343,61 @@ Leave a star on the Github <a href="https://github.com/coqui-ai/TTS">TTS</a>, wh
         seed
     ], outputs = [
         synthesised_audio_1,
         synthesised_audio_2,
         synthesised_audio_3,
         synthesised_audio_4,
         synthesised_audio_5,
         information
     ], scroll_to_output = True)

         gr.update(visible = (5 <= output_number))
     ]
+def predict0(prompt, language, gender, audio_file_pth, mic_file_path, use_mic, generation_number, temperature, is_randomize_seed, seed, progress = gr.Progress()):
+    return predict(prompt, language, gender, audio_file_pth, mic_file_path, use_mic, 0, generation_number, temperature, is_randomize_seed, seed, progress)
+def predict1(prompt, language, gender, audio_file_pth, mic_file_path, use_mic, generation_number, temperature, is_randomize_seed, seed, progress = gr.Progress()):
+    return predict(prompt, language, gender, audio_file_pth, mic_file_path, use_mic, 1, generation_number, temperature, is_randomize_seed, seed, progress)
+def predict2(prompt, language, gender, audio_file_pth, mic_file_path, use_mic, generation_number, temperature, is_randomize_seed, seed, progress = gr.Progress()):
+    return predict(prompt, language, gender, audio_file_pth, mic_file_path, use_mic, 2, generation_number, temperature, is_randomize_seed, seed, progress)
+def predict3(prompt, language, gender, audio_file_pth, mic_file_path, use_mic, generation_number, temperature, is_randomize_seed, seed, progress = gr.Progress()):
+    return predict(prompt, language, gender, audio_file_pth, mic_file_path, use_mic, 3, generation_number, temperature, is_randomize_seed, seed, progress)
+def predict4(prompt, language, gender, audio_file_pth, mic_file_path, use_mic, generation_number, temperature, is_randomize_seed, seed, progress = gr.Progress()):
+    return predict(prompt, language, gender, audio_file_pth, mic_file_path, use_mic, 4, generation_number, temperature, is_randomize_seed, seed, progress)
 def predict(
     prompt,
     language,
     audio_file_pth,
     mic_file_path,
     use_mic,
+    i,
     generation_number,
     temperature,
     is_randomize_seed,
     seed,
     progress = gr.Progress()
 ):
+    if generation_number <= i:
+        return (
+                None,
+                None,
+            )
     start = time.time()
     progress(0, desc = "Preparing data...")
         return (
                 None,
                 None,
             )
     if 50000 < len(prompt):
         gr.Warning("Text length limited to 50,000 characters for this demo, please try shorter text")
         return (
             None,
             None,
         )
     if use_mic:
             return (
                 None,
                 None,
             )
         else:
             speaker_wav = mic_file_path
         else:
             speaker_wav = "./examples/female.wav"
+    output_filename = f"{i}_{re.sub('[^a-zA-Z0-9]', '_', language)}_{re.sub('[^a-zA-Z0-9]', '_', prompt)}"[:250] + ".wav"
     try:
         if language == "fr":
         if m.find("/fr/") != -1:
             language = None
+        predict_on_gpu(i, generation_number, prompt, speaker_wav, language, output_filename, temperature, is_randomize_seed, seed, progress)
     except RuntimeError as e :
         if "device-assert" in str(e):
             # cannot do anything on cuda device side error, need to restart
     information = ("Start again to get a different result. " if is_randomize_seed else "") + "The sound has been generated in " + ((str(hours) + " h, ") if hours != 0 else "") + ((str(minutes) + " min, ") if hours != 0 or minutes != 0 else "") + str(secondes) + " sec."
     return (
+        output_filename,
         information,
     )
 @spaces.GPU(duration=60)
 def predict_on_gpu(
     i,
+    generation_number,
     prompt,
     speaker_wav,
     language,
     seed,
     progress
 ):
+    progress((i + .5) / generation_number, desc = "Generating the audio #" + str(i + 1) + "...")
     if is_randomize_seed:
         seed = random.randint(0, max_64_bit_int)
 <br/>
 Leave a star on the Github <a href="https://github.com/coqui-ai/TTS">TTS</a>, where our open-source inference and training code lives.
 <br/>
+<p>To avoid the queue, you can duplicate this space on CPU, GPU or ZERO space GPU:
 <br/>
 <a href="https://huggingface.co/spaces/Fabrice-TIERCELIN/Multi-language_Text-to-Speech?duplicate=true">
 <img style="margin-top: 0em; margin-bottom: 0em" src="https://bit.ly/3gLdBN6" alt="Duplicate Space"></a>
         synthesised_audio_3,
         synthesised_audio_4,
         synthesised_audio_5
+    ], queue = False, show_progress = False).success(predict0, inputs = [
         prompt,
         language,
         gender,
         seed
     ], outputs = [
         synthesised_audio_1,
+        information
+    ], scroll_to_output = True).success(predict1, inputs = [
+        prompt,
+        language,
+        gender,
+        audio_file_pth,
+        mic_file_path,
+        use_mic,
+        generation_number,
+        temperature,
+        randomize_seed,
+        seed
+    ], outputs = [
         synthesised_audio_2,
+        information
+    ], scroll_to_output = True).success(predict2, inputs = [
+        prompt,
+        language,
+        gender,
+        audio_file_pth,
+        mic_file_path,
+        use_mic,
+        generation_number,
+        temperature,
+        randomize_seed,
+        seed
+    ], outputs = [
         synthesised_audio_3,
+        information
+    ], scroll_to_output = True).success(predict3, inputs = [
+        prompt,
+        language,
+        gender,
+        audio_file_pth,
+        mic_file_path,
+        use_mic,
+        generation_number,
+        temperature,
+        randomize_seed,
+        seed
+    ], outputs = [
         synthesised_audio_4,
+        information
+    ], scroll_to_output = True).success(predict4, inputs = [
+        prompt,
+        language,
+        gender,
+        audio_file_pth,
+        mic_file_path,
+        use_mic,
+        generation_number,
+        temperature,
+        randomize_seed,
+        seed
+    ], outputs = [
         synthesised_audio_5,
         information
     ], scroll_to_output = True)