Spaces:

SohomToom
/

TextToVoiceUsingOpenVoice

Running

App Files Files Community

SohomToom commited on May 8

Commit

a59b93c

verified ·

1 Parent(s): 251c251

Update app.py

Browse files

Files changed (1) hide show

app.py +12 -18

app.py CHANGED Viewed

@@ -1,34 +1,31 @@
 import os
-# Fixes for HF Hub
 os.environ["HF_HOME"] = "/tmp/huggingface"
 os.environ["HF_HUB_CACHE"] = "/tmp/huggingface"
 os.environ["TRANSFORMERS_CACHE"] = "/tmp/huggingface"
-# Fixes for matplotlib and fontconfig
 os.environ["MPLCONFIGDIR"] = "/tmp"
 os.environ["XDG_CACHE_HOME"] = "/tmp"
 os.environ["XDG_CONFIG_HOME"] = "/tmp"
 os.environ["NUMBA_DISABLE_CACHE"] = "1"
 os.makedirs("/tmp/huggingface", exist_ok=True)
 os.makedirs("/tmp/flagged", exist_ok=True)
-import gradio as gr
-from openvoice.api import ToneColorConverter
-from openvoice import se_extractor
-import torch
-import time
-import uuid
 # Set model paths
 ckpt_converter = "checkpoints/converter/config.json"
 output_dir = "/tmp/outputs"
 os.makedirs(output_dir, exist_ok=True)
-# Initialize converter
 tone_color_converter = ToneColorConverter(ckpt_converter)
-# Load base speaker embedding for style transfer
 ref_speaker_embed = None
 def clone_and_speak(text, speaker_wav):
@@ -44,7 +41,7 @@ def clone_and_speak(text, speaker_wav):
     global ref_speaker_embed
     ref_speaker_embed = se_extractor.get_se(speaker_wav, tone_color_converter)
-    # Generate speech using base model (internal prompt and sampling)
     tone_color_converter.infer(
         text=text,
         speaker_id="openvoice",
@@ -58,7 +55,7 @@ def clone_and_speak(text, speaker_wav):
     return output_wav
 demo = gr.Interface(
     fn=clone_and_speak,
     inputs=[
@@ -66,10 +63,7 @@ demo = gr.Interface(
         gr.Audio(type="filepath", label="Upload a Reference Voice (.wav)")
     ],
     outputs=gr.Audio(label="Synthesized Output"),
-    flagging_dir = "/tmp/flagged",
     title="Text to Voice using OpenVoice",
     description="Clone any voice (English) and generate speech using OpenVoice on CPU.",
 )
-if __name__ == "__main__":
-    demo.launch(share=True)

 import os
+import gradio as gr
+from openvoice.api import ToneColorConverter
+from openvoice import se_extractor
+import torch
+import time
+import uuid
+# Environment fixes for HF Spaces
 os.environ["HF_HOME"] = "/tmp/huggingface"
 os.environ["HF_HUB_CACHE"] = "/tmp/huggingface"
 os.environ["TRANSFORMERS_CACHE"] = "/tmp/huggingface"
 os.environ["MPLCONFIGDIR"] = "/tmp"
 os.environ["XDG_CACHE_HOME"] = "/tmp"
 os.environ["XDG_CONFIG_HOME"] = "/tmp"
 os.environ["NUMBA_DISABLE_CACHE"] = "1"
 os.makedirs("/tmp/huggingface", exist_ok=True)
 os.makedirs("/tmp/flagged", exist_ok=True)
 # Set model paths
 ckpt_converter = "checkpoints/converter/config.json"
 output_dir = "/tmp/outputs"
 os.makedirs(output_dir, exist_ok=True)
+# Initialize OpenVoice converter
 tone_color_converter = ToneColorConverter(ckpt_converter)
+# Speaker embedding cache
 ref_speaker_embed = None
 def clone_and_speak(text, speaker_wav):
     global ref_speaker_embed
     ref_speaker_embed = se_extractor.get_se(speaker_wav, tone_color_converter)
+    # Generate speech using base model
     tone_color_converter.infer(
         text=text,
         speaker_id="openvoice",
     return output_wav
+# Gradio interface (exposed as global `demo` for HF Spaces)
 demo = gr.Interface(
     fn=clone_and_speak,
     inputs=[
         gr.Audio(type="filepath", label="Upload a Reference Voice (.wav)")
     ],
     outputs=gr.Audio(label="Synthesized Output"),
+    flagging_dir="/tmp/flagged",  # safe temporary dir
     title="Text to Voice using OpenVoice",
     description="Clone any voice (English) and generate speech using OpenVoice on CPU.",
 )