Spaces:

SohomToom
/

TextToVoiceUsingOpenVoice

Running

App Files Files Community

SohomToom commited on May 9

Commit

cbb34e3

verified ·

1 Parent(s): 878264e

Update app.py

Browse files

Files changed (1) hide show

app.py +29 -68

app.py CHANGED Viewed

@@ -39,41 +39,9 @@ tone_color_converter = ToneColorConverter(ckpt_converter)
 # Device setting
 device = "cuda" if torch.cuda.is_available() else "cpu"
-# def clone_and_speak(text, speaker_wav):
-#     if not speaker_wav:
-#         return "Please upload a reference .wav file."
-#     base_name = f"output_{int(time.time())}_{uuid.uuid4().hex[:6]}"
-#     tmp_melo_path = f"{output_dir}/{base_name}_tmp.wav"
-#     final_output_path = f"{output_dir}/{base_name}_converted.wav"
-#     # Use English speaker model
-#     model = TTS(language="EN", device=device)
-#     speaker_ids = model.hps.data.spk2id
-#     default_speaker_id = next(iter(speaker_ids.values()))
-#     # Generate base TTS voice
-#     speed = 1.0
-#     model.tts_to_file(text, default_speaker_id, tmp_melo_path,speed=speed)
-#     # Use speaker_wav as reference to extract style embedding
-#     from openvoice import se_extractor
-#     ref_se, _ = se_extractor.get_se(speaker_wav, tone_color_converter, vad=True)
-#     # Run the tone conversion
-#     tone_color_converter.convert(
-#         audio_src_path=tmp_melo_path,
-#         src_se=ref_se,
-#         tgt_se=ref_se,
-#         output_path=final_output_path,
-#         message="@HuggingFace",
-#     )
-#     return final_output_path
-def clone_and_speak(text, selected_speaker_key):
-    if not text or not selected_speaker_key:
-        return "Please enter text and select a speaker."
     base_name = f"output_{int(time.time())}_{uuid.uuid4().hex[:6]}"
     tmp_melo_path = f"{output_dir}/{base_name}_tmp.wav"
@@ -82,34 +50,25 @@ def clone_and_speak(text, selected_speaker_key):
     # Use English speaker model
     model = TTS(language="EN", device=device)
     speaker_ids = model.hps.data.spk2id
-    # Map speaker_key to speaker_id (model-specific)
-    if selected_speaker_key not in speaker_ids:
-        return f"Speaker '{selected_speaker_key}' not found in model."
-    speaker_id = speaker_ids[selected_speaker_key]
     # Generate base TTS voice
-    speed = 1.0
-    model.tts_to_file(text, speaker_id, tmp_melo_path, speed=speed)
-    # Load pre-saved speaker embedding
-    normalized_key = selected_speaker_key.lower().replace("_", "-")
-    se_path = f'checkpoints_v2/base_speakers/ses/{normalized_key}.pth'
-    if not os.path.isfile(se_path):
-        return f"SE file not found for speaker '{normalized_key}'."
-    ref_se = torch.load(se_path, map_location=device)
-    # Disable MPS if present but device is CPU
-    if torch.backends.mps.is_available() and device == 'cpu':
-        torch.backends.mps.is_available = lambda: False
     # Run the tone conversion
-    tone_color_converter.convert(
         audio_src_path=tmp_melo_path,
-        src_se=ref_se,
         tgt_se=ref_se,
         output_path=final_output_path,
         message="@HuggingFace",
@@ -118,18 +77,20 @@ def clone_and_speak(text, selected_speaker_key):
     return final_output_path
-# Gradio interface
-# gr.Interface(
-#     fn=clone_and_speak,
-#     inputs=[
-#         gr.Textbox(label="Enter Text"),
-#         gr.Audio(type="filepath", label="Upload a Reference Voice (.wav)")
-#     ],
-#     outputs=gr.Audio(label="Synthesized Output"),
-#     flagging_dir="/tmp/flagged",
-#     title="Text to Voice using Melo TTS + OpenVoice",
-#     description="Use Melo TTS for base synthesis and OpenVoice to apply a reference speaker's tone.",
-# ).launch()
 iface = gr.Interface(
     fn=clone_with_base_speaker,

 # Device setting
 device = "cuda" if torch.cuda.is_available() else "cpu"
+def clone_and_speak(text, speaker_wav):
+    if not speaker_wav:
+        return "Please upload a reference .wav file."
     base_name = f"output_{int(time.time())}_{uuid.uuid4().hex[:6]}"
     tmp_melo_path = f"{output_dir}/{base_name}_tmp.wav"
     # Use English speaker model
     model = TTS(language="EN", device=device)
     speaker_ids = model.hps.data.spk2id
+    #default_speaker_id = next(iter(speaker_ids.values()))
+    for speaker_key in speaker_ids.keys():
+        speaker_id = speaker_ids[speaker_key]
+        speaker_key = speaker_key.lower().replace('_', '-')
     # Generate base TTS voice
+        speed = 1.0
+        source_se = torch.load(f'checkpoints_v2/base_speakers/ses/{speaker_key}.pth', map_location=device)
+        model.tts_to_file(text, speaker_id, tmp_melo_path,speed=speed)
+    # Use speaker_wav as reference to extract style embedding
+        from openvoice import se_extractor
+        ref_se, _ = se_extractor.get_se(speaker_wav, tone_color_converter, vad=True)
     # Run the tone conversion
+        tone_color_converter.convert(
         audio_src_path=tmp_melo_path,
+        src_se=source_se,
         tgt_se=ref_se,
         output_path=final_output_path,
         message="@HuggingFace",
     return final_output_path
+Gradio interface
+gr.Interface(
+    fn=clone_and_speak,
+    inputs=[
+        gr.Textbox(label="Enter Text"),
+        gr.Audio(type="filepath", label="Upload a Reference Voice (.wav)")
+    ],
+    outputs=gr.Audio(label="Synthesized Output"),
+    flagging_dir="/tmp/flagged",
+    title="Text to Voice using Melo TTS + OpenVoice",
+    description="Use Melo TTS for base synthesis and OpenVoice to apply a reference speaker's tone.",
+).launch()
 iface = gr.Interface(
     fn=clone_with_base_speaker,