Gradio-WhisperSpeech

Paused

App Files Files Community

Tonic commited on Jan 25, 2024

Commit

50e659a

verified ·

1 Parent(s): 67dbfa2

Update app.py

Browse files

Files changed (1) hide show

app.py +20 -20

app.py CHANGED Viewed

@@ -50,28 +50,28 @@ def generate_segment_audio(text, lang, speaker_url, pipe):
 # Function to append and concatenate audio segments with padding
 def concatenate_audio_segments(segments):
-    # Determine the length of the longest segment
-    max_length = max(seg.shape[0] for seg in segments)
-    print("Max length of segments:", max_length)  # Debug statement
-    # Pad each segment to the length of the longest segment and stack them
-    padded_segments = []
-    for seg in segments:
-        # Check if the segment is stereo; if not, convert it to stereo
-        if seg.ndim == 1 or seg.shape[1] == 1:
-            stereo_segment = np.stack((seg, seg), axis=-1)
-        else:
-            stereo_segment = seg
         # Pad the segment to the max length
-        padding_length = max_length - stereo_segment.shape[0]
-        padded_segment = np.pad(stereo_segment, ((0, padding_length), (0, 0)), 'constant')
-        print("Padded segment shape:", padded_segment.shape)  # Debug statement
-        padded_segments.append(padded_segment)
-    concatenated_audio = np.vstack(padded_segments)
     print("Concatenated audio shape:", concatenated_audio.shape)  # Debug statement
-    concatenated_audio = concatenated_audio / np.max(np.abs(concatenated_audio))
     return concatenated_audio
 # The rest of the code in app.py remains the same
@@ -93,11 +93,11 @@ def whisper_speech_demo(multilingual_text, speaker_audio):
         audio_segments.append(audio_np)
     concatenated_audio = concatenate_audio_segments(audio_segments)
     print("Final concatenated audio shape:", concatenated_audio.shape)  # Debug statement
-    audio_stereo = np.stack((concatenated_audio, concatenated_audio), axis=-1)
-    audio_stereo = audio_stereo.reshape(-1, 2)
     with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as tmp_file:
-        sf.write(tmp_file.name, audio_stereo, 24000, format='WAV', subtype='PCM_16')
         return tmp_file.name
 with gr.Blocks() as demo:

 # Function to append and concatenate audio segments with padding
 def concatenate_audio_segments(segments):
+#   # Determine the length of the longest segment
+#   max_length = max(seg.shape[0] for seg in segments)
+#   print("Max length of segments:", max_length)  # Debug statement
+#   # Pad each segment to the length of the longest segment and stack them
+#   padded_segments = []
+#   for seg in segments:
+#       # Check if the segment is stereo; if not, convert it to stereo
+#       if seg.ndim == 1 or seg.shape[1] == 1:
+#           stereo_segment = np.stack((seg, seg), axis=-1)
+#       else:
+#           stereo_segment = seg
         # Pad the segment to the max length
+ #      padding_length = max_length - stereo_segment.shape[0]
+ #      padded_segment = np.pad(stereo_segment, ((0, padding_length), (0, 0)), 'constant')
+ #      print("Padded segment shape:", padded_segment.shape)  # Debug statement
+ #      padded_segments.append(padded_segment)
+    concatenated_audio = np.concatenate(segments , axis=1)
     print("Concatenated audio shape:", concatenated_audio.shape)  # Debug statement
+    # concatenated_audio = concatenated_audio / np.max(np.abs(concatenated_audio))
     return concatenated_audio
 # The rest of the code in app.py remains the same
         audio_segments.append(audio_np)
     concatenated_audio = concatenate_audio_segments(audio_segments)
     print("Final concatenated audio shape:", concatenated_audio.shape)  # Debug statement
+#   audio_stereo = np.stack((concatenated_audio, concatenated_audio), axis=-1)
+#   audio_stereo = audio_stereo.reshape(-1, 2)
     with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as tmp_file:
+        sf.write(tmp_file.name, concatenated_audio, 24000, format='WAV', subtype='PCM_16')
         return tmp_file.name
 with gr.Blocks() as demo: