generate-subtitles-for-videos

Runtime error

App Files Files Community

csukuangfj commited on Apr 13, 2024

Commit

cfd7673

1 Parent(s): 16e9291

output all texts

Browse files

Files changed (3) hide show

.gitattributes +1 -0
app.py +15 -5
decode.py +12 -1

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+*.wav filter=lfs diff=lfs merge=lfs -text

app.py CHANGED Viewed

@@ -106,8 +106,8 @@ def process_uploaded_video_file(
     logging.info(f"Processing uploaded file: {in_filename}")
-    ans = process(language, repo_id, add_punctuation, in_filename)
-    return (in_filename, ans[0]), ans[0], ans[1], ans[2]
 def process_uploaded_audio_file(
@@ -142,8 +142,9 @@ def process(language: str, repo_id: str, add_punctuation: str, in_filename: str)
     else:
         punct = None
-    result = decode(recognizer, vad, punct, in_filename)
     logging.info(result)
     srt_filename = Path(in_filename).with_suffix(".srt")
     with open(srt_filename, "w", encoding="utf-8") as f:
@@ -156,6 +157,7 @@ def process(language: str, repo_id: str, add_punctuation: str, in_filename: str)
         str(srt_filename),
         build_html_output("Done! Please download the SRT file", "result_item_success"),
         result,
     )
@@ -205,7 +207,10 @@ with demo:
             output_info_video = gr.HTML(label="Info")
             output_textbox_video = gr.Textbox(
-                label="Recognized speech from uploaded video file"
             )
         with gr.TabItem("Upload audio from disk"):
@@ -222,7 +227,10 @@ with demo:
             output_info_audio = gr.HTML(label="Info")
             output_textbox_audio = gr.Textbox(
-                label="Recognized speech from uploaded audio file"
             )
         upload_video_button.click(
@@ -238,6 +246,7 @@ with demo:
                 output_srt_file_video,
                 output_info_video,
                 output_textbox_video,
             ],
         )
@@ -253,6 +262,7 @@ with demo:
                 output_srt_file_audio,
                 output_info_audio,
                 output_textbox_audio,
             ],
         )

     logging.info(f"Processing uploaded file: {in_filename}")
+    ans, all_text = process(language, repo_id, add_punctuation, in_filename)
+    return (in_filename, ans[0]), ans[0], ans[1], ans[2], all_text
 def process_uploaded_audio_file(
     else:
         punct = None
+    result, all_text = decode(recognizer, vad, punct, in_filename)
     logging.info(result)
+    logging.info(all_text)
     srt_filename = Path(in_filename).with_suffix(".srt")
     with open(srt_filename, "w", encoding="utf-8") as f:
         str(srt_filename),
         build_html_output("Done! Please download the SRT file", "result_item_success"),
         result,
+        all_text,
     )
             output_info_video = gr.HTML(label="Info")
             output_textbox_video = gr.Textbox(
+                label="Recognized speech from uploaded video file (srt format)"
+            )
+            all_output_textbox_video = gr.Textbox(
+                label="Recognized speech from uploaded video file (all in one)"
             )
         with gr.TabItem("Upload audio from disk"):
             output_info_audio = gr.HTML(label="Info")
             output_textbox_audio = gr.Textbox(
+                label="Recognized speech from uploaded audio file (srt format)"
+            )
+            all_output_textbox_audio = gr.Textbox(
+                label="Recognized speech from uploaded audio file (all in one)"
             )
         upload_video_button.click(
                 output_srt_file_video,
                 output_info_video,
                 output_textbox_video,
+                all_output_textbox_video,
             ],
         )
                 output_srt_file_audio,
                 output_info_audio,
                 output_textbox_audio,
+                all_output_textbox_audio,
             ],
         )

decode.py CHANGED Viewed

@@ -81,6 +81,8 @@ def decode(
     logging.info("Started!")
     while True:
         # *2 because int16_t has two bytes
         data = process.stdout.read(frames_per_read * 2)
@@ -116,8 +118,17 @@ def decode(
         for seg, stream in zip(segments, streams):
             seg.text = stream.result.text.strip()
             if punct is not None:
                 seg.text = punct.add_punctuation(seg.text)
             segment_list.append(seg)
-    return "\n\n".join(f"{i}\n{seg}" for i, seg in enumerate(segment_list, 1))

     logging.info("Started!")
+    all_text = []
     while True:
         # *2 because int16_t has two bytes
         data = process.stdout.read(frames_per_read * 2)
         for seg, stream in zip(segments, streams):
             seg.text = stream.result.text.strip()
+            if not all_text:
+                all_text.append(seg.text)
+            elif len(all_text[-1][0].encode()) == 1 and len(seg.text[0].encode()) == 1:
+                all_text.append(" ")
+                all_text.append(seg.text)
             if punct is not None:
                 seg.text = punct.add_punctuation(seg.text)
             segment_list.append(seg)
+    all_text = " ".join(all_text)
+    if punct is not None:
+        all_text = punct.add_punctuation(all_text)
+    return "\n\n".join(f"{i}\n{seg}" for i, seg in enumerate(segment_list, 1)), all_text