Spaces:

alexnasa
/

HuMo_local

Running on Zero

App Files Files Community

alexnasa commited on Oct 16

Commit

f7bddbb

verified ·

1 Parent(s): 09d2b03

Update app.py

Browse files

Files changed (1) hide show

app.py +29 -5

app.py CHANGED Viewed

@@ -224,6 +224,7 @@ def run_pipeline(prompt_text, steps, image_paths, audio_file_path, max_duration
     if not audio_file_path:
         inference_mode = "TI"
         audio_path = None
     else:
         audio_path = audio_file_path if isinstance(audio_file_path, str) else getattr(audio_file_path, "name", str(audio_file_path))
@@ -233,11 +234,34 @@ def run_pipeline(prompt_text, steps, image_paths, audio_file_path, max_duration
     else:
         img_paths = [image_data[0] for image_data in image_paths]
-    # Prepare output
     output_dir = os.path.join(os.environ["PROCESSED_RESULTS"], session_id)
     os.makedirs(output_dir, exist_ok=True)
     # Random filename
     filename = f"gen_{uuid.uuid4().hex[:10]}"
     width, height = 832, 480
@@ -247,7 +271,7 @@ def run_pipeline(prompt_text, steps, image_paths, audio_file_path, max_duration
     runner.inference_loop(
         prompt_text,
         img_paths,
-        audio_path,
         output_dir,
         filename,
         inference_mode,
@@ -332,7 +356,7 @@ with gr.Blocks(css=css) as demo:
         gr.Markdown("**SETTINGS**")
         default_steps = 10
-        default_max_duration = 45
         max_duration = gr.Slider(minimum=20, maximum=95, value=default_max_duration, step=25, label="Frames")
         steps_input = gr.Slider(minimum=10, maximum=50, value=default_steps, step=5, label="Diffusion Steps")
@@ -392,7 +416,7 @@ with gr.Blocks(css=css) as demo:
                     10,
                     ["./examples/art.png"],
                     "./examples/art.wav",
-                    45,
                 ],
                 [
@@ -408,7 +432,7 @@ with gr.Blocks(css=css) as demo:
                     40,
                     ["./examples/amber.png", "./examples/jacket.png"],
                     "./examples/fictional.wav",
-                    70,
                 ],
             ],

     if not audio_file_path:
         inference_mode = "TI"
         audio_path = None
+        tmp_audio_path = None
     else:
         audio_path = audio_file_path if isinstance(audio_file_path, str) else getattr(audio_file_path, "name", str(audio_file_path))
     else:
         img_paths = [image_data[0] for image_data in image_paths]
+    print(f'{session_id} is using inference_mode:{inference_mode} with steps:{steps} with {max_duration} frames')
     output_dir = os.path.join(os.environ["PROCESSED_RESULTS"], session_id)
     os.makedirs(output_dir, exist_ok=True)
+    if audio_path:
+        def add_silence_to_audio_ffmpeg(audio_path, tmp_audio_path, silence_duration_s=0.5):
+            command = [
+                'ffmpeg',
+                '-i', audio_path,
+                '-f', 'lavfi',
+                '-t', str(silence_duration_s),
+                '-i', 'anullsrc=r=16000:cl=stereo',
+                '-filter_complex', '[1][0]concat=n=2:v=0:a=1[out]',
+                '-map', '[out]',
+                '-y', tmp_audio_path,
+                '-loglevel', 'quiet'
+            ]
+            subprocess.run(command, check=True)
+        tmp_audio_path = os.path.join(output_dir, "tmp_audio.wav")
+        add_silence_to_audio_ffmpeg(audio_path, tmp_audio_path)
     # Random filename
     filename = f"gen_{uuid.uuid4().hex[:10]}"
     width, height = 832, 480
     runner.inference_loop(
         prompt_text,
         img_paths,
+        tmp_audio_path,
         output_dir,
         filename,
         inference_mode,
         gr.Markdown("**SETTINGS**")
         default_steps = 10
+        default_max_duration = 20
         max_duration = gr.Slider(minimum=20, maximum=95, value=default_max_duration, step=25, label="Frames")
         steps_input = gr.Slider(minimum=10, maximum=50, value=default_steps, step=5, label="Diffusion Steps")
                     10,
                     ["./examples/art.png"],
                     "./examples/art.wav",
+                    70,
                 ],
                 [
                     40,
                     ["./examples/amber.png", "./examples/jacket.png"],
                     "./examples/fictional.wav",
+                    70,
                 ],
             ],