multimodal-video-audio

Runtime error

App Files Files Community

dmsouza commited on Sep 6

Commit

71eea98

verified ·

1 Parent(s): 607468d

Update app.py

Browse files

from transformers import pipeline
import soundfile as sf
from moviepy.editor import ImageClip, AudioFileClip, concatenate_videoclips
from PIL import Image, ImageDraw, ImageFont
import numpy as np

# ===== 1️⃣ Criar TTS =====
tts_model = pipeline(
"text-to-speech",
model="espnet/kan-bayashi_ljspeech_tts_train_tacotron2"
)

texto = "Olá! Este é um teste de geração de áudio e vídeo."

# ===== 2️⃣ Gerar áudio =====
output = tts_model(texto)
sf.write("saida.wav", output["array"], samplerate=output["sampling_rate"])

# ===== 3️⃣ Criar imagem de fundo =====
largura, altura = 1280, 720
img = Image.new('RGB', (largura, altura), color=(30, 30, 30))
draw = ImageDraw.Draw(img)
font = ImageFont.load_default()
draw.text((50, altura//2 - 10), texto, fill=(255, 255, 255), font=font)
img.save("background.png")

# ===== 4️⃣ Criar clipe de vídeo =====
audio_clip = AudioFileClip("saida.wav")
image_clip = ImageClip("background.png").set_duration(audio_clip.duration)
video_clip = image_clip.set_audio(audio_clip)

# ===== 5️⃣ Salvar vídeo =====
video_clip.write_videofile("saida.mp4", fps=24)

print("Vídeo gerado com sucesso! Verifique o arquivo 'saida.mp4'.")

Files changed (1) hide show

app.py +24 -33

app.py CHANGED Viewed

@@ -1,44 +1,35 @@
-# app_hf_space.py
-import gradio as gr
 from transformers import pipeline
-# --- Inicializa os modelos ---
-# Pipeline de TTS (opcional, caso queira gerar áudio separado)
 tts_model = pipeline(
     "text-to-speech",
-    model="espnet/kan-bayashi_ljspeech_tts_train_conformer_fastspeech2"
 )
-# Pipeline de vídeo
-video_model = pipeline(
-    "text-to-video",
-    model="Wan-AI/Wan2.2-T2V-A14B"
-)
-# --- Função principal ---
-def gerar_video(prompt):
-    """
-    Gera vídeo a partir do texto usando o modelo Wan2.2.
-    O pipeline retorna vídeo final, pronto para Gradio.
-    """
-    # Gera vídeo (até 60 segundos)
-    video_out = video_model(prompt, max_length=60)
-    # Retorna o vídeo em memória
-    return video_out[0]  # Hugging Face Spaces aceita vídeo binário diretamente
-# --- Interface Gradio ---
-demo = gr.Interface(
-    fn=gerar_video,
-    inputs=gr.Textbox(
-        lines=2,
-        placeholder="Digite o texto para gerar vídeo..."
-    ),
-    outputs=gr.Video(label="Vídeo Gerado"),
-    title="Gerador Multimodal de Vídeo AI",
-    description="Digite um texto e receba um vídeo gerado diretamente pelo modelo AI."
-)
-# Lançar a interface
-demo.launch()

 from transformers import pipeline
+import soundfile as sf
+from moviepy.editor import ImageClip, AudioFileClip, concatenate_videoclips
+from PIL import Image, ImageDraw, ImageFont
+import numpy as np
+# ===== 1️⃣ Criar TTS =====
 tts_model = pipeline(
     "text-to-speech",
+    model="espnet/kan-bayashi_ljspeech_tts_train_tacotron2"
 )
+texto = "Olá! Este é um teste de geração de áudio e vídeo."
+# ===== 2️⃣ Gerar áudio =====
+output = tts_model(texto)
+sf.write("saida.wav", output["array"], samplerate=output["sampling_rate"])
+# ===== 3️⃣ Criar imagem de fundo =====
+largura, altura = 1280, 720
+img = Image.new('RGB', (largura, altura), color=(30, 30, 30))
+draw = ImageDraw.Draw(img)
+font = ImageFont.load_default()
+draw.text((50, altura//2 - 10), texto, fill=(255, 255, 255), font=font)
+img.save("background.png")
+# ===== 4️⃣ Criar clipe de vídeo =====
+audio_clip = AudioFileClip("saida.wav")
+image_clip = ImageClip("background.png").set_duration(audio_clip.duration)
+video_clip = image_clip.set_audio(audio_clip)
+# ===== 5️⃣ Salvar vídeo =====
+video_clip.write_videofile("saida.mp4", fps=24)
+print("Vídeo gerado com sucesso! Verifique o arquivo 'saida.mp4'.")