Spaces:

marcosremar2
/

wavlm-large-demo

Sleeping

App Files Files Community

marcosremar2 commited on Jun 1

Commit

1b99dff

1 Parent(s): c65250a

Use stable Gradio 3.50.2 and ultra-simple interface

Browse files

Files changed (3) hide show

README.md +1 -1
app.py +37 -75
requirements.txt +3 -4

README.md CHANGED Viewed

@@ -4,7 +4,7 @@ emoji: 🎵
 colorFrom: blue
 colorTo: purple
 sdk: gradio
-sdk_version: 4.32.0
 app_file: app.py
 pinned: false
 license: mit

 colorFrom: blue
 colorTo: purple
 sdk: gradio
+sdk_version: 3.50.2
 app_file: app.py
 pinned: false
 license: mit

app.py CHANGED Viewed

@@ -3,39 +3,35 @@ import torch
 import numpy as np
 from transformers import AutoModel, Wav2Vec2Processor
 import librosa
-import matplotlib.pyplot as plt
 # Configurar o modelo
 MODEL_NAME = "marcosremar2/wavlm-large-deploy"
-def load_model():
-    """Carrega o modelo WavLM-Large"""
-    try:
-        # Usar Wav2Vec2Processor para WavLM
-        processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-960h")
-        model = AutoModel.from_pretrained(MODEL_NAME)
-        model.eval()
-        return processor, model
-    except Exception as e:
-        print(f"Erro ao carregar modelo: {e}")
-        return None, None
-processor, model = load_model()
 def process_audio(audio_file):
     """Processa o arquivo de áudio e extrai features"""
     if audio_file is None:
-        return "❌ Por favor, carregue um arquivo de áudio.", None, None
     if processor is None or model is None:
-        return "❌ Erro: Modelo não foi carregado corretamente. Verifique os logs.", None, None
     try:
         # Carregar áudio
         audio, sr = librosa.load(audio_file, sr=16000)
-        # Limitar duração para evitar problemas de memória
-        max_duration = 30  # segundos
         if len(audio) > max_duration * sr:
             audio = audio[:max_duration * sr]
@@ -48,72 +44,38 @@ def process_audio(audio_file):
         # Informações sobre o áudio
         duration = len(audio) / sr
-        audio_info = f"""
-## 📊 Informações do Áudio:
-- **Duração**: {duration:.2f} segundos
-- **Taxa de amostragem**: {sr} Hz
-- **Número de amostras**: {len(audio)}
-## 🧠 Saída do Modelo WavLM-Large:
-- **Shape das features**: {hidden_states.shape}
-- **Dimensões**: {hidden_states.shape[1]} frames × {hidden_states.shape[2]} features
-- **Modelo**: {MODEL_NAME}
-✅ **Status**: Processamento concluído com sucesso!
         """
-        # Criar visualização das features
-        features = hidden_states.squeeze(0).cpu().numpy()
-        # Plot 1: Waveform
-        fig1, ax1 = plt.subplots(figsize=(10, 4))
-        time_axis = np.linspace(0, duration, len(audio))
-        ax1.plot(time_axis, audio, color='blue', linewidth=0.5)
-        ax1.set_title('Forma de Onda do Áudio', fontsize=14)
-        ax1.set_xlabel('Tempo (s)')
-        ax1.set_ylabel('Amplitude')
-        ax1.grid(True, alpha=0.3)
-        plt.tight_layout()
-        # Plot 2: Features heatmap (primeiras 32 features para visualização mais rápida)
-        fig2, ax2 = plt.subplots(figsize=(10, 6))
-        features_subset = features[:min(100, features.shape[0]), :32].T  # Limitar frames também
-        im = ax2.imshow(features_subset, aspect='auto', cmap='viridis')
-        ax2.set_title('Features WavLM (primeiras 32 dimensões)', fontsize=14)
-        ax2.set_xlabel('Frame Temporal')
-        ax2.set_ylabel('Dimensão da Feature')
-        plt.colorbar(im, ax=ax2, label='Valor da Feature')
-        plt.tight_layout()
-        return audio_info, fig1, fig2
     except Exception as e:
-        return f"❌ **Erro ao processar áudio**: {str(e)}\n\nVerifique se o arquivo é um áudio válido.", None, None
-# Interface Gradio simples
-demo = gr.Interface(
     fn=process_audio,
-    inputs=gr.Audio(type="filepath", label="Carregar Arquivo de Áudio"),
-    outputs=[
-        gr.Markdown(label="Informações"),
-        gr.Plot(label="Forma de Onda"),
-        gr.Plot(label="Features WavLM")
-    ],
     title="🎵 WavLM-Large Demo",
-    description="""
-    Demonstração do modelo **WavLM-Large** da Microsoft.
-    **Como usar**:
-    1. Carregue um arquivo de áudio (WAV, MP3, etc.)
-    2. Veja as informações extraídas e visualizações das features
-    **Limitações**:
-    - Máximo 30 segundos de áudio
-    - Arquivos grandes podem demorar para processar
-    """,
-    examples=[],
-    cache_examples=False
 )
 if __name__ == "__main__":
-    demo.launch(share=True)

 import numpy as np
 from transformers import AutoModel, Wav2Vec2Processor
 import librosa
 # Configurar o modelo
 MODEL_NAME = "marcosremar2/wavlm-large-deploy"
+print("Carregando modelo...")
+try:
+    processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-960h")
+    model = AutoModel.from_pretrained(MODEL_NAME)
+    model.eval()
+    print("Modelo carregado com sucesso!")
+except Exception as e:
+    print(f"Erro ao carregar modelo: {e}")
+    processor = None
+    model = None
 def process_audio(audio_file):
     """Processa o arquivo de áudio e extrai features"""
     if audio_file is None:
+        return "❌ Por favor, carregue um arquivo de áudio."
     if processor is None or model is None:
+        return "❌ Erro: Modelo não foi carregado corretamente."
     try:
         # Carregar áudio
         audio, sr = librosa.load(audio_file, sr=16000)
+        # Limitar duração
+        max_duration = 20  # segundos
         if len(audio) > max_duration * sr:
             audio = audio[:max_duration * sr]
         # Informações sobre o áudio
         duration = len(audio) / sr
+        result = f"""
+✅ **Processamento Concluído!**
+📊 **Informações do Áudio:**
+- Duração: {duration:.2f} segundos
+- Taxa de amostragem: {sr} Hz
+- Amostras: {len(audio)}
+🧠 **Saída do Modelo WavLM-Large:**
+- Features shape: {hidden_states.shape}
+- Frames: {hidden_states.shape[1]}
+- Dimensões: {hidden_states.shape[2]}
+- Modelo: {MODEL_NAME}
+🎯 O modelo extraiu {hidden_states.shape[1]} frames temporais com {hidden_states.shape[2]} características cada um.
         """
+        return result
     except Exception as e:
+        return f"❌ Erro ao processar: {str(e)}"
+# Interface Gradio ultra-simples
+iface = gr.Interface(
     fn=process_audio,
+    inputs=gr.Audio(type="filepath"),
+    outputs=gr.Textbox(label="Resultado"),
     title="🎵 WavLM-Large Demo",
+    description="Carregue um arquivo de áudio para extrair features com WavLM-Large",
+    examples=None
 )
 if __name__ == "__main__":
+    iface.launch()

requirements.txt CHANGED Viewed

@@ -1,7 +1,6 @@
-gradio==4.32.0
 torch>=2.0.0
-transformers>=4.35.0
 librosa>=0.10.0
-matplotlib>=3.7.0
-numpy>=1.24.0
 soundfile>=0.12.0

+gradio==3.50.2
 torch>=2.0.0
+transformers>=4.30.0
 librosa>=0.10.0
+numpy>=1.20.0
 soundfile>=0.12.0