multimodal-video-audio

Runtime error

App Files Files Community

dmsouza commited on Sep 6

Commit

f493431

verified ·

1 Parent(s): 1550b24

Update app.py

Browse files

# app_multimodal.py
import gradio as gr
from transformers import pipeline
from moviepy.editor import VideoFileClip, AudioFileClip

# --- Inicializa os modelos ---
tts_model = pipeline(
"text-to-speech",
model="espnet/kan-bayashi_ljspeech_tts_train_conformer_fastspeech2"
)

video_model = pipeline(
"text-to-video",
model="Wan-AI/Wan2.2-T2V-A14B"
)

# --- Função principal ---
def gerar_video_audio(prompt):
# 1. Gera áudio
audio_out = tts_model(prompt)
audio_path = "audio.wav"
with open(audio_path, "wb") as f:
f.write(audio_out["audio"])

# 2. Gera vídeo
video_out = video_model(prompt, max_length=60) # gera até 60 segundos
video_path = "video.mp4"
video_out[0].save(video_path) # salva o vídeo gerado

# 3. Combina áudio e vídeo
video_clip = VideoFileClip(video_path)
audio_clip = AudioFileClip(audio_path)
final_clip = video_clip.set_audio(audio_clip)
final_path = "video_final.mp4"
final_clip.write_videofile(final_path, codec="libx264", audio_codec="aac")

return final_path

# --- Interface Gradio ---
demo = gr.Interface(
fn=gerar_video_audio,
inputs=gr.Textbox(lines=2, placeholder="Digite o texto para gerar vídeo e áudio..."),
outputs=gr.Video(label="Vídeo com Áudio"),
title="Gerador Multimodal de Vídeo + Áudio",
description="Digite um texto e receba um vídeo com a voz gerada pelo modelo TTS."
)

# Lançar a interface
demo.launch()

Files changed (1) hide show

app.py +10 -33

app.py CHANGED Viewed

@@ -1,38 +1,14 @@
 import gradio as gr
 from transformers import pipeline
-# Função que gera áudio a partir do texto
-def gerar_audio(texto):
-    # Carrega o modelo de TTS do Hugging Face
-    tts = pipeline("text-to-speech", model="espnet/kan-bayashi_ljspeech_tts_train_conformer_fastspeech2")
-    # Gera o áudio
-    audio = tts(texto)
-    # Retorna o áudio para Gradio
-    return audio["audio"]
-# Interface Gradio
-demo = gr.Interface(
-    fn=gerar_audio,
-    inputs=gr.Textbox(lines=2, placeholder="Digite o texto aqui..."),
-    outputs=gr.Audio(label="Áudio Gerado"),
-    title="Gerador de Áudio AI",
-    description="Digite um texto e o modelo transforma em fala (áudio)."
-)
-# Lança a interface
-demo.launch()
-# app.py
-import gradio as gr
-from transformers import pipeline
-from moviepy.editor import VideoFileClip, AudioFileClip, CompositeVideoClip
 # --- Inicializa os modelos ---
 tts_model = pipeline(
     "text-to-speech",
     model="espnet/kan-bayashi_ljspeech_tts_train_conformer_fastspeech2"
 )
 video_model = pipeline(
     "text-to-video",
     model="Wan-AI/Wan2.2-T2V-A14B"
@@ -45,19 +21,19 @@ def gerar_video_audio(prompt):
     audio_path = "audio.wav"
     with open(audio_path, "wb") as f:
         f.write(audio_out["audio"])
     # 2. Gera vídeo
-    video_out = video_model(prompt, max_length=60)
     video_path = "video.mp4"
     video_out[0].save(video_path)  # salva o vídeo gerado
     # 3. Combina áudio e vídeo
     video_clip = VideoFileClip(video_path)
     audio_clip = AudioFileClip(audio_path)
     final_clip = video_clip.set_audio(audio_clip)
-    final_path = "final_video.mp4"
     final_clip.write_videofile(final_path, codec="libx264", audio_codec="aac")
     return final_path
 # --- Interface Gradio ---
@@ -69,4 +45,5 @@ demo = gr.Interface(
     description="Digite um texto e receba um vídeo com a voz gerada pelo modelo TTS."
 )
-demo.launch()

+# app_multimodal.py
 import gradio as gr
 from transformers import pipeline
+from moviepy.editor import VideoFileClip, AudioFileClip
 # --- Inicializa os modelos ---
 tts_model = pipeline(
     "text-to-speech",
     model="espnet/kan-bayashi_ljspeech_tts_train_conformer_fastspeech2"
 )
 video_model = pipeline(
     "text-to-video",
     model="Wan-AI/Wan2.2-T2V-A14B"
     audio_path = "audio.wav"
     with open(audio_path, "wb") as f:
         f.write(audio_out["audio"])
     # 2. Gera vídeo
+    video_out = video_model(prompt, max_length=60)  # gera até 60 segundos
     video_path = "video.mp4"
     video_out[0].save(video_path)  # salva o vídeo gerado
     # 3. Combina áudio e vídeo
     video_clip = VideoFileClip(video_path)
     audio_clip = AudioFileClip(audio_path)
     final_clip = video_clip.set_audio(audio_clip)
+    final_path = "video_final.mp4"
     final_clip.write_videofile(final_path, codec="libx264", audio_codec="aac")
     return final_path
 # --- Interface Gradio ---
     description="Digite um texto e receba um vídeo com a voz gerada pelo modelo TTS."
 )
+# Lançar a interface
+demo.launch()