Spaces:

langtech-innovation
/

WhisperLiveKitDiarization

Paused

SilasKieser commited on Jan 21

Commit

b18d80f

1 Parent(s): 937fc50

sep for mlx is also ""

Files changed (2) hide show

src/whisper_streaming/backends.py CHANGED Viewed

@@ -164,7 +164,7 @@ class MLXWhisper(ASRBase):
     Significantly faster than faster-whisper (without CUDA) on Apple M1.
     """
-    sep = " "
     def load_model(self, modelsize=None, cache_dir=None, model_dir=None):
         """

     Significantly faster than faster-whisper (without CUDA) on Apple M1.
     """
+    sep = "" # In my experience in french it should also be no space.
     def load_model(self, modelsize=None, cache_dir=None, model_dir=None):
         """

src/whisper_streaming/online_asr.py CHANGED Viewed

@@ -175,7 +175,13 @@ class OnlineASRProcessor:
             if (
                 len(self.audio_buffer) / self.SAMPLING_RATE > self.buffer_trimming_sec
             ):  # longer than this
                 self.chunk_completed_sentence()
         if self.buffer_trimming_way == "segment":
             s = self.buffer_trimming_sec  # trim the completed segments longer than s,
@@ -286,7 +292,7 @@ class OnlineASRProcessor:
         """
         o = self.transcript_buffer.complete()
         f = self.to_flush(o)
-        logger.debug(f"last, noncommited: {f}")
         self.buffer_time_offset += len(self.audio_buffer) / 16000
         return f

             if (
                 len(self.audio_buffer) / self.SAMPLING_RATE > self.buffer_trimming_sec
             ):  # longer than this
+                logger.debug("chunking sentence")
                 self.chunk_completed_sentence()
+            else:
+                logger.debug("not enough audio to trim as a sentence")
         if self.buffer_trimming_way == "segment":
             s = self.buffer_trimming_sec  # trim the completed segments longer than s,
         """
         o = self.transcript_buffer.complete()
         f = self.to_flush(o)
+        logger.debug(f"last, noncommited: {f[0]*1000:.0f}-{f[1]*1000:.0f}: {f[2]}")
         self.buffer_time_offset += len(self.audio_buffer) / 16000
         return f