KaniTTS_Voice_Cloning_dev

Running on Zero

Den Pavloff commited on Sep 18

Commit

52c0d1f

1 Parent(s): e9bcb5a

time report

Files changed (2) hide show

app.py CHANGED Viewed

@@ -103,16 +103,16 @@ def generate_speech_gpu(text, model_choice):
         # Generate audio
         print(f"Generating speech with {model_choice}...")
-        audio, _ = selected_model.run_model(text)
         sample_rate = 22050
         print("Speech generation completed!")
-        return (sample_rate, audio)   #, f"✅ Audio generated successfully using {model_choice} on {device}"
     except Exception as e:
         print(f"Error during generation: {str(e)}")
-        return None  #, f"❌ Error during generation: {str(e)}"
 # def validate_input(text, model_choice):
 #     """Quick validation without GPU"""
@@ -154,21 +154,19 @@ with gr.Blocks(title="KaniTTS - Text to Speech", theme=gr.themes.Default()) as d
                 type="numpy"
             )
-            # status_text = gr.Textbox(
-            #     label="Status",
-            #     interactive=False,
-            #     value="Ready to generate speech"
-            # )
     # GPU generation event
     generate_btn.click(
         fn=generate_speech_gpu,
         inputs=[text_input, model_dropdown],
-        outputs=[audio_output]
     )
         # Demo Examples
     gr.Markdown("## 🎯 Demo Examples")

         # Generate audio
         print(f"Generating speech with {model_choice}...")
+        audio, _, time_report = selected_model.run_model(text)
         sample_rate = 22050
         print("Speech generation completed!")
+        return (sample_rate, audio), time_report   #, f"✅ Audio generated successfully using {model_choice} on {device}"
     except Exception as e:
         print(f"Error during generation: {str(e)}")
+        return None, f"❌ Error during generation: {str(e)}"
 # def validate_input(text, model_choice):
 #     """Quick validation without GPU"""
                 type="numpy"
             )
+            time_report_output = gr.Textbox(
+                label="Time Report",
+                interactive=False,
+                value="Ready to generate speech"
+            )
     # GPU generation event
     generate_btn.click(
         fn=generate_speech_gpu,
         inputs=[text_input, model_dropdown],
+        outputs=[audio_output, time_report_output]
     )
         # Demo Examples
     gr.Markdown("## 🎯 Demo Examples")

util.py CHANGED Viewed

@@ -1,6 +1,7 @@
 import torch
 import librosa
 import requests
 from nemo.collections.tts.models import AudioCodecModel
 from dataclasses import dataclass
 from transformers import AutoTokenizer, AutoModelForCausalLM
@@ -192,17 +193,28 @@ class KaniModel:
             )
         return generated_ids.to('cpu')
     def run_model(self, text: str):
         """Complete pipeline: text -> tokens -> generation -> audio"""
         # Prepare input
         input_ids, attention_mask = self.get_input_ids(text)
         # Generate tokens
         model_output = self.model_request(input_ids, attention_mask)
         # Convert to audio
         audio, _ = self.player.get_waveform(model_output)
-        return audio, text
 class Demo:

 import torch
 import librosa
 import requests
+import time
 from nemo.collections.tts.models import AudioCodecModel
 from dataclasses import dataclass
 from transformers import AutoTokenizer, AutoModelForCausalLM
             )
         return generated_ids.to('cpu')
+    def time_report(self, point_1, point_2, point_3):
+        model_request = point_2 - point_1
+        player_time = point_3 - point_2
+        total_time = point_3 - point_1
+        report = f"MODEL GENERATION: {model_request:.2f}\nNANO CODEC: {player_time:.2f}\nTOTAL: {total_time:.2f}"
+        return report
     def run_model(self, text: str):
         """Complete pipeline: text -> tokens -> generation -> audio"""
         # Prepare input
         input_ids, attention_mask = self.get_input_ids(text)
         # Generate tokens
+        point_1 = time.time()
         model_output = self.model_request(input_ids, attention_mask)
         # Convert to audio
+        point_2 = time.time()
         audio, _ = self.player.get_waveform(model_output)
+        point_3 = time.time()
+        return audio, text, self.time_report(point_1, point_2, point_3)
 class Demo: