multimodal-video-audio

Runtime error

App Files Files Community

dmsouza commited on Sep 6

Commit

d24f9f4

verified ·

1 Parent(s): 411a0e4

app.py

Browse files

[05:44, 06/09/2025] Daniel: import gradio as gr
from transformers import pipeline

# Função que gera áudio a partir do texto
def gerar_audio(texto):
# Carrega o modelo de TTS do Hugging Face
tts = pipeline("text-to-speech", model="espnet/kan-bayashi_ljspeech_tts_train_conformer_fastspeech2")

# Gera o áudio
audio = tts(texto)

# Retorna o áudio para Gradio
return audio["audio"]

# Interface Gradio
demo = gr.Interface(
fn=gerar_audio,
inputs=gr.Textbox(lines=2, placeholder="Digite o texto aqui..."),
outputs=gr.Audio(label="Áudio Gerado"),
title="Gerador de Áudio AI",
description="Digite um texto e o modelo transforma em fala (áudio)."
)

# Lança a interface
demo.launch()
[05:46, 06/09/2025] Daniel: # app.py
import gradio as gr
from transformers import pipeline
from moviepy.editor import VideoFileClip, AudioFileClip, CompositeVideoClip

# --- Inicializa os modelos ---
tts_model = pipeline(
"text-to-speech",
model="espnet/kan-bayashi_ljspeech_tts_train_conformer_fastspeech2"
)
video_model = pipeline(
"text-to-video",
model="Wan-AI/Wan2.2-T2V-A14B"
)

# --- Função principal ---
def gerar_video_audio(prompt):
# 1. Gera áudio
audio_out = tts_model(prompt)
audio_path = "audio.wav"
with open(audio_path, "wb") as f:
f.write(audio_out["audio"])

# 2. Gera vídeo
video_out = video_model(prompt, max_length=60)
video_path = "video.mp4"
video_out[0].save(video_path) # salva o vídeo gerado

# 3. Combina áudio e vídeo
video_clip = VideoFileClip(video_path)
audio_clip = AudioFileClip(audio_path)
final_clip = video_clip.set_audio(audio_clip)
final_path = "final_video.mp4"
final_clip.write_videofile(final_path, codec="libx264", audio_codec="aac")

return final_path

# --- Interface Gradio ---
demo = gr.Interface(
fn=gerar_video_audio,
inputs=gr.Textbox(lines=2, placeholder="Digite o texto para gerar vídeo e áudio..."),
outputs=gr.Video(label="Vídeo com Áudio"),
title="Gerador Multimodal de Vídeo + Áudio",
description="Digite um texto e receba um vídeo com a voz gerada pelo modelo TTS."
)

demo.launch()

Files changed (1) hide show

app.py +72 -0

app.py ADDED Viewed

	@@ -0,0 +1,72 @@

+[05:44, 06/09/2025] Daniel: import gradio as gr
+from transformers import pipeline
+# Função que gera áudio a partir do texto
+def gerar_audio(texto):
+    # Carrega o modelo de TTS do Hugging Face
+    tts = pipeline("text-to-speech", model="espnet/kan-bayashi_ljspeech_tts_train_conformer_fastspeech2")
+    # Gera o áudio
+    audio = tts(texto)
+    # Retorna o áudio para Gradio
+    return audio["audio"]
+# Interface Gradio
+demo = gr.Interface(
+    fn=gerar_audio,
+    inputs=gr.Textbox(lines=2, placeholder="Digite o texto aqui..."),
+    outputs=gr.Audio(label="Áudio Gerado"),
+    title="Gerador de Áudio AI",
+    description="Digite um texto e o modelo transforma em fala (áudio)."
+)
+# Lança a interface
+demo.launch()
+[05:46, 06/09/2025] Daniel: # app.py
+import gradio as gr
+from transformers import pipeline
+from moviepy.editor import VideoFileClip, AudioFileClip, CompositeVideoClip
+# --- Inicializa os modelos ---
+tts_model = pipeline(
+    "text-to-speech",
+    model="espnet/kan-bayashi_ljspeech_tts_train_conformer_fastspeech2"
+)
+video_model = pipeline(
+    "text-to-video",
+    model="Wan-AI/Wan2.2-T2V-A14B"
+)
+# --- Função principal ---
+def gerar_video_audio(prompt):
+    # 1. Gera áudio
+    audio_out = tts_model(prompt)
+    audio_path = "audio.wav"
+    with open(audio_path, "wb") as f:
+        f.write(audio_out["audio"])
+    # 2. Gera vídeo
+    video_out = video_model(prompt, max_length=60)
+    video_path = "video.mp4"
+    video_out[0].save(video_path)  # salva o vídeo gerado
+    # 3. Combina áudio e vídeo
+    video_clip = VideoFileClip(video_path)
+    audio_clip = AudioFileClip(audio_path)
+    final_clip = video_clip.set_audio(audio_clip)
+    final_path = "final_video.mp4"
+    final_clip.write_videofile(final_path, codec="libx264", audio_codec="aac")
+    return final_path
+# --- Interface Gradio ---
+demo = gr.Interface(
+    fn=gerar_video_audio,
+    inputs=gr.Textbox(lines=2, placeholder="Digite o texto para gerar vídeo e áudio..."),
+    outputs=gr.Video(label="Vídeo com Áudio"),
+    title="Gerador Multimodal de Vídeo + Áudio",
+    description="Digite um texto e receba um vídeo com a voz gerada pelo modelo TTS."
+)
+demo.launch()