Spaces:

mumbert
/

automatic-audio-captioning-demo

Sleeping

Martí Umbert commited on Feb 8

Commit

e117668

1 Parent(s): 973c908

app_dcase.py: include code from actual dcase demo

Files changed (1) hide show

app_dcase.py CHANGED Viewed

@@ -1,27 +1,40 @@
-import gradio as gr
-from msclap import CLAP
-clap_model = CLAP(version = 'clapcap', use_cuda=False)
-def clap_inference(mic=None, file=None):
-    if mic is not None:
-        audio = mic
-    elif file is not None:
-        audio = file
-    else:
-        return "You must either provide a mic recording or a file"
-    # Generate captions for the recording
-    captions = clap_model.generate_caption([audio],
-                                           resample=True,
-                                           beam_size=5,
-                                           entry_length=67,
-                                           temperature=0.01)
-    return captions[0]
 def create_app():
@@ -32,7 +45,7 @@ def create_app():
             """
         )
         gr.Interface(
-            fn=clap_inference,
             inputs=[
                 gr.Audio(sources="microphone", type="filepath"),
                 gr.Audio(sources="upload", type="filepath"),
@@ -42,6 +55,8 @@ def create_app():
     return demo
 def main():
     app = create_app()

+# import gradio as gr
+# from msclap import CLAP
+# clap_model = CLAP(version = 'clapcap', use_cuda=False)
+# def clap_inference(mic=None, file=None):
+#     if mic is not None:
+#         audio = mic
+#     elif file is not None:
+#         audio = file
+#     else:
+#         return "You must either provide a mic recording or a file"
+#     # Generate captions for the recording
+#     captions = clap_model.generate_caption([audio],
+#                                            resample=True,
+#                                            beam_size=5,
+#                                            entry_length=67,
+#                                            temperature=0.01)
+#     return captions[0]
+from transformers import pipeline
+import gradio as gr
+import torchaudio
+import torch
+from dcase24t6.nn.hub import baseline_pipeline
+import os
+import gdown
+def download_dcase_model_checkpoint():
+    url = "https://drive.google.com/uc?id=1JABWIBlHuLAhYPX5ktbyLniH-YpeRyeT"
+    output = 'epoch_232-step_001864-mode_min-val_loss_3.3752.ckpt'
+    gdown.download(url, output, quiet=False)
 def create_app():
             """
         )
         gr.Interface(
+            fn=dcase_inference,
             inputs=[
                 gr.Audio(sources="microphone", type="filepath"),
                 gr.Audio(sources="upload", type="filepath"),
     return demo
+download_dcase_model_checkpoint()
 def main():
     app = create_app()