Spaces:

salmanmapkar
/

audio-video-transcriber

Runtime error

App Files Files Community

salmanmapkar commited on Dec 23, 2022

Commit

a3e23e4

1 Parent(s): ed868f3

Update app.py

Browse files

Files changed (1) hide show

app.py +8 -13

app.py CHANGED Viewed

@@ -47,9 +47,9 @@ def RemoveAllFiles():
         if (os.path.isfile(file)):
             os.remove(file)
-def Transcribe(NumberOfSpeakers, SpeakerNames="", audio="temp_audio.wav"):
     SPEAKER_DICT = {}
-    SPEAKERS = []
     def GetSpeaker(sp):
         speaker = sp
@@ -61,10 +61,6 @@ def Transcribe(NumberOfSpeakers, SpeakerNames="", audio="temp_audio.wav"):
         else:
             speaker = SPEAKER_DICT[sp]
         return speaker
-    def GenerateSpeakerDict(sp):
-        global SPEAKERS
-        SPEAKERS = [speaker.strip() for speaker in sp.split(',')]
     def millisec(timeStr):
         spl = timeStr.split(":")
@@ -113,7 +109,7 @@ def Transcribe(NumberOfSpeakers, SpeakerNames="", audio="temp_audio.wav"):
         return f"dz_{audio}.wav", dzList, segments
     def transcribe(dz_audio):
-        model = whisper.load_model("base")
         result = model.transcribe(dz_audio)
         # for _ in result['segments']:
         #     print(_['start'], _['end'], _['text'])
@@ -140,7 +136,6 @@ def Transcribe(NumberOfSpeakers, SpeakerNames="", audio="temp_audio.wav"):
                   #print(f"[{dzList[i][2]}] {c[2]}")
         return conversation, ("".join([f"{speaker} --> {text}\n" for speaker, text in conversation]))
-    GenerateSpeakerDict(SpeakerNames)
     spacermilli, spacer = preprocess(audio)
     dz_audio, dzList, segments = diarization(audio)
     conversation, t_text = transcribe(dz_audio)
@@ -179,7 +174,7 @@ def Transcribe_V2(num_speakers, speaker_names, audio="temp_audio.wav"):
             #         conversation.append([GetSpeaker(segment["speaker"]), segment["text"][1:]]) # segment["speaker"] + ' ' + str(time(segment["start"])) + '\n\n'
             # conversation[-1][1] += segment["text"][1:]
         # return output
-        return ("".join([f"{speaker} --> {text}\n" for speaker, text in conversation])), conversation
     def get_duration(path):
         with contextlib.closing(wave.open(path,'r')) as f:
@@ -237,7 +232,7 @@ def AudioTranscribe(NumberOfSpeakers=None, SpeakerNames="", audio="", retries=5)
             return AudioTranscribe(NumberOfSpeakers, SpeakerNames, audio, retries-1)
         if not (os.path.isfile("temp_audio.wav")):
             return AudioTranscribe(NumberOfSpeakers, SpeakerNames, audio, retries-1)
-        return Transcribe_V2(NumberOfSpeakers, SpeakerNames)
     else:
         raise gr.Error("There is some issue ith Audio Transcriber. Please try again later!")
@@ -253,10 +248,10 @@ def VideoTranscribe(NumberOfSpeakers=None, SpeakerNames="", video="", retries=5)
             return VideoTranscribe(NumberOfSpeakers, SpeakerNames, video, retries-1)
         if not (os.path.isfile("temp_audio.wav")):
             return VideoTranscribe(NumberOfSpeakers, SpeakerNames, video, retries-1)
-        return Transcribe_V2(NumberOfSpeakers, SpeakerNames)
     else:
         raise gr.Error("There is some issue ith Video Transcriber. Please try again later!")
-    return Transcribe_V2(NumberOfSpeakers, SpeakerNames)
 def YoutubeTranscribe(NumberOfSpeakers=None, SpeakerNames="", URL="", retries = 5):
     if retries:
@@ -280,7 +275,7 @@ def YoutubeTranscribe(NumberOfSpeakers=None, SpeakerNames="", URL="", retries =
             stream = ffmpeg.input('temp_audio.m4a')
             stream = ffmpeg.output(stream, 'temp_audio.wav')
             RemoveFile("temp_audio.m4a")
-            return Transcribe_V2(NumberOfSpeakers, SpeakerNames)
     else:
         raise gr.Error(f"Unable to get video from {URL}")

         if (os.path.isfile(file)):
             os.remove(file)
+def Transcribe_V1(NumberOfSpeakers, SpeakerNames="", audio="temp_audio.wav"):
     SPEAKER_DICT = {}
+    SPEAKERS = [speaker.strip() for speaker in SpeakerNames.split(',')]
     def GetSpeaker(sp):
         speaker = sp
         else:
             speaker = SPEAKER_DICT[sp]
         return speaker
     def millisec(timeStr):
         spl = timeStr.split(":")
         return f"dz_{audio}.wav", dzList, segments
     def transcribe(dz_audio):
+        model = whisper.load_model("large")
         result = model.transcribe(dz_audio)
         # for _ in result['segments']:
         #     print(_['start'], _['end'], _['text'])
                   #print(f"[{dzList[i][2]}] {c[2]}")
         return conversation, ("".join([f"{speaker} --> {text}\n" for speaker, text in conversation]))
     spacermilli, spacer = preprocess(audio)
     dz_audio, dzList, segments = diarization(audio)
     conversation, t_text = transcribe(dz_audio)
             #         conversation.append([GetSpeaker(segment["speaker"]), segment["text"][1:]]) # segment["speaker"] + ' ' + str(time(segment["start"])) + '\n\n'
             # conversation[-1][1] += segment["text"][1:]
         # return output
+        return ("".join([f"{speaker} --> {text}\n" for speaker, text in conversation])), ({ "data": [{"speaker": speaker, "text": text} for speaker, text in conversation]})
     def get_duration(path):
         with contextlib.closing(wave.open(path,'r')) as f:
             return AudioTranscribe(NumberOfSpeakers, SpeakerNames, audio, retries-1)
         if not (os.path.isfile("temp_audio.wav")):
             return AudioTranscribe(NumberOfSpeakers, SpeakerNames, audio, retries-1)
+        return Transcribe_V1(NumberOfSpeakers, SpeakerNames)
     else:
         raise gr.Error("There is some issue ith Audio Transcriber. Please try again later!")
             return VideoTranscribe(NumberOfSpeakers, SpeakerNames, video, retries-1)
         if not (os.path.isfile("temp_audio.wav")):
             return VideoTranscribe(NumberOfSpeakers, SpeakerNames, video, retries-1)
+        return Transcribe_V1(NumberOfSpeakers, SpeakerNames)
     else:
         raise gr.Error("There is some issue ith Video Transcriber. Please try again later!")
+    return Transcribe_V1(NumberOfSpeakers, SpeakerNames)
 def YoutubeTranscribe(NumberOfSpeakers=None, SpeakerNames="", URL="", retries = 5):
     if retries:
             stream = ffmpeg.input('temp_audio.m4a')
             stream = ffmpeg.output(stream, 'temp_audio.wav')
             RemoveFile("temp_audio.m4a")
+            return Transcribe_V1(NumberOfSpeakers, SpeakerNames)
     else:
         raise gr.Error(f"Unable to get video from {URL}")