whisper-webui-translate

Running

avans06 commited on Nov 27, 2023

Commit

28514b1

1 Parent(s): 77b92a2

Update the dependency package faster-whisper to version 0.10.0

faster-whisper officially supports the large-v3 model now, so update the large-v3 model URL in the config to the official version.

Files changed (5) hide show

app.py +9 -3
config.json5 +1 -2
requirements-fasterWhisper.txt +1 -1
requirements.txt +1 -1
src/whisper/fasterWhisperContainer.py +0 -4

app.py CHANGED Viewed

@@ -137,7 +137,7 @@ class WhisperTranscriber:
         vadOptions = VadOptions(vad, vadMergeWindow, vadMaxMergeSize, self.app_config.vad_padding, self.app_config.vad_prompt_window, self.app_config.vad_initial_prompt_mode)
         if diarization:
-            if diarization_speakers < 1:
                 self.set_diarization(auth_token=self.app_config.auth_token, min_speakers=diarization_min_speakers, max_speakers=diarization_max_speakers)
             else:
                 self.set_diarization(auth_token=self.app_config.auth_token, num_speakers=diarization_speakers, min_speakers=diarization_min_speakers, max_speakers=diarization_max_speakers)
@@ -189,7 +189,7 @@ class WhisperTranscriber:
         # Set diarization
         if diarization:
-            if diarization_speakers < 1:
                 self.set_diarization(auth_token=self.app_config.auth_token, min_speakers=diarization_min_speakers, max_speakers=diarization_max_speakers)
             else:
                 self.set_diarization(auth_token=self.app_config.auth_token, num_speakers=diarization_speakers, min_speakers=diarization_min_speakers, max_speakers=diarization_max_speakers)
@@ -209,7 +209,8 @@ class WhisperTranscriber:
         try:
             progress(0, desc="init audio sources")
             sources = self.__get_source(urlData, multipleFiles, microphoneData)
             try:
                 progress(0, desc="init whisper model")
                 whisper_lang = get_language_from_name(languageName)
@@ -361,6 +362,11 @@ class WhisperTranscriber:
         except ExceededMaximumDuration as e:
             return [], ("[ERROR]: Maximum remote video length is " + str(e.maxDuration) + "s, file was " + str(e.videoDuration) + "s"), "[ERROR]"
     def transcribe_file(self, model: AbstractWhisperContainer, audio_path: str, language: str, task: str = None,
                         vadOptions: VadOptions = VadOptions(),

         vadOptions = VadOptions(vad, vadMergeWindow, vadMaxMergeSize, self.app_config.vad_padding, self.app_config.vad_prompt_window, self.app_config.vad_initial_prompt_mode)
         if diarization:
+            if diarization_speakers is not None and diarization_speakers < 1:
                 self.set_diarization(auth_token=self.app_config.auth_token, min_speakers=diarization_min_speakers, max_speakers=diarization_max_speakers)
             else:
                 self.set_diarization(auth_token=self.app_config.auth_token, num_speakers=diarization_speakers, min_speakers=diarization_min_speakers, max_speakers=diarization_max_speakers)
         # Set diarization
         if diarization:
+            if diarization_speakers is not None and diarization_speakers < 1:
                 self.set_diarization(auth_token=self.app_config.auth_token, min_speakers=diarization_min_speakers, max_speakers=diarization_max_speakers)
             else:
                 self.set_diarization(auth_token=self.app_config.auth_token, num_speakers=diarization_speakers, min_speakers=diarization_min_speakers, max_speakers=diarization_max_speakers)
         try:
             progress(0, desc="init audio sources")
             sources = self.__get_source(urlData, multipleFiles, microphoneData)
+            if (len(sources) == 0):
+                raise Exception("init audio sources failed...")
             try:
                 progress(0, desc="init whisper model")
                 whisper_lang = get_language_from_name(languageName)
         except ExceededMaximumDuration as e:
             return [], ("[ERROR]: Maximum remote video length is " + str(e.maxDuration) + "s, file was " + str(e.videoDuration) + "s"), "[ERROR]"
+        except Exception as e:
+            import traceback
+            print(traceback.format_exc())
+            return [], ("Error occurred during transcribe: " + str(e)), ""
     def transcribe_file(self, model: AbstractWhisperContainer, audio_path: str, language: str, task: str = None,
                         vadOptions: VadOptions = VadOptions(),

config.json5 CHANGED Viewed

@@ -28,8 +28,7 @@
         },
         {
             "name": "large-v3",
-            "url": "avans06/faster-whisper-large-v3",
-            "type": "huggingface"
         },
         // Uncomment to add custom Japanese models
         //{

         },
         {
             "name": "large-v3",
+            "url": "large-v3"
         },
         // Uncomment to add custom Japanese models
         //{

requirements-fasterWhisper.txt CHANGED Viewed

@@ -1,6 +1,6 @@
 git+https://github.com/huggingface/transformers
 ctranslate2>=3.21.0
-faster-whisper
 ffmpeg-python==0.2.0
 gradio==3.50.2
 yt-dlp

 git+https://github.com/huggingface/transformers
 ctranslate2>=3.21.0
+faster-whisper>=0.10.0
 ffmpeg-python==0.2.0
 gradio==3.50.2
 yt-dlp

requirements.txt CHANGED Viewed

@@ -1,6 +1,6 @@
 git+https://github.com/huggingface/transformers
 ctranslate2>=3.21.0
-faster-whisper
 ffmpeg-python==0.2.0
 gradio==3.50.2
 yt-dlp

 git+https://github.com/huggingface/transformers
 ctranslate2>=3.21.0
+faster-whisper>=0.10.0
 ffmpeg-python==0.2.0
 gradio==3.50.2
 yt-dlp

src/whisper/fasterWhisperContainer.py CHANGED Viewed

@@ -55,10 +55,6 @@ class FasterWhisperContainer(AbstractWhisperContainer):
             device = "auto"
         model = WhisperModel(model_url, device=device, compute_type=self.compute_type)
-        if "large-v3" in model_url:
-            # Working with Whisper-large-v3
-            # https://github.com/guillaumekln/faster-whisper/issues/547#issuecomment-1797962599
-            model.feature_extractor.mel_filters = model.feature_extractor.get_mel_filters(model.feature_extractor.sampling_rate, model.feature_extractor.n_fft, n_mels=128)
         return model
     def create_callback(self, language: str = None, task: str = None,

             device = "auto"
         model = WhisperModel(model_url, device=device, compute_type=self.compute_type)
         return model
     def create_callback(self, language: str = None, task: str = None,