Spaces:

marcosremar2
/

wavlm-large-demo

Sleeping

App Files Files Community

marcosremar2 commited on Jun 1

Commit

c65250a

1 Parent(s): bb2c339

Fix Gradio compatibility issues - use stable version and simple interface

Browse files

Files changed (3) hide show

README.md +1 -1
app.py +47 -97
requirements.txt +1 -3

README.md CHANGED Viewed

@@ -4,7 +4,7 @@ emoji: 🎵
 colorFrom: blue
 colorTo: purple
 sdk: gradio
-sdk_version: 4.44.1
 app_file: app.py
 pinned: false
 license: mit

 colorFrom: blue
 colorTo: purple
 sdk: gradio
+sdk_version: 4.32.0
 app_file: app.py
 pinned: false
 license: mit

app.py CHANGED Viewed

@@ -1,11 +1,9 @@
 import gradio as gr
 import torch
-import torchaudio
 import numpy as np
 from transformers import AutoModel, Wav2Vec2Processor
 import librosa
 import matplotlib.pyplot as plt
-import seaborn as sns
 # Configurar o modelo
 MODEL_NAME = "marcosremar2/wavlm-large-deploy"
@@ -27,10 +25,10 @@ processor, model = load_model()
 def process_audio(audio_file):
     """Processa o arquivo de áudio e extrai features"""
     if audio_file is None:
-        return "Por favor, carregue um arquivo de áudio.", None, None
     if processor is None or model is None:
-        return "Erro: Modelo não foi carregado corretamente. Verifique os logs.", None, None
     try:
         # Carregar áudio
@@ -51,119 +49,71 @@ def process_audio(audio_file):
         # Informações sobre o áudio
         duration = len(audio) / sr
         audio_info = f"""
-        📊 **Informações do Áudio:**
-        - Duração: {duration:.2f} segundos
-        - Taxa de amostragem: {sr} Hz
-        - Número de amostras: {len(audio)}
-        🧠 **Saída do Modelo WavLM-Large:**
-        - Shape das features: {hidden_states.shape}
-        - Dimensões: {hidden_states.shape[1]} frames × {hidden_states.shape[2]} features
-        - Modelo: {MODEL_NAME}
-        ✅ **Status:** Processamento concluído com sucesso!
         """
         # Criar visualização das features
         features = hidden_states.squeeze(0).cpu().numpy()
         # Plot 1: Waveform
-        fig1, ax1 = plt.subplots(figsize=(12, 4))
         time_axis = np.linspace(0, duration, len(audio))
         ax1.plot(time_axis, audio, color='blue', linewidth=0.5)
-        ax1.set_title('Forma de Onda do Áudio', fontsize=14, fontweight='bold')
         ax1.set_xlabel('Tempo (s)')
         ax1.set_ylabel('Amplitude')
         ax1.grid(True, alpha=0.3)
-        ax1.set_facecolor('#f8f9fa')
-        # Plot 2: Features heatmap (primeiras 50 features)
-        fig2, ax2 = plt.subplots(figsize=(12, 8))
-        features_subset = features[:, :50].T  # Transpor para ter features nas linhas
-        sns.heatmap(features_subset, ax=ax2, cmap='viridis', cbar_kws={'label': 'Valor da Feature'})
-        ax2.set_title('Mapa de Calor das Features WavLM (primeiras 50 dimensões)', fontsize=14, fontweight='bold')
         ax2.set_xlabel('Frame Temporal')
         ax2.set_ylabel('Dimensão da Feature')
         return audio_info, fig1, fig2
     except Exception as e:
-        return f"❌ **Erro ao processar áudio:** {str(e)}\n\nVerifique se o arquivo é um áudio válido.", None, None
-def create_demo():
-    """Cria a interface do Gradio"""
-    with gr.Blocks(title="WavLM-Large Demo", theme=gr.themes.Soft()) as demo:
-        gr.Markdown("""
-        # 🎵 WavLM-Large Demo
-        Este é uma demonstração do modelo **WavLM-Large** da Microsoft, disponibilizado por marcosremar2.
-        O WavLM é um modelo de aprendizado auto-supervisionado para processamento de fala que pode:
-        - Extrair representações ricas de áudio
-        - Ser usado para reconhecimento de fala
-        - Classificação de áudio
-        - Verificação de locutor
-        - E muito mais!
-        ## 📁 Como usar:
-        1. Carregue um arquivo de áudio (WAV, MP3, etc.)
-        2. Clique em "Processar Áudio"
-        3. Veja as informações extraídas e visualizações das features
-        """)
-        with gr.Row():
-            with gr.Column(scale=1):
-                audio_input = gr.Audio(
-                    label="Carregar Arquivo de Áudio",
-                    type="filepath"
-                )
-                process_btn = gr.Button(
-                    "🎯 Processar Áudio",
-                    variant="primary",
-                    size="lg"
-                )
-                gr.Markdown("""
-                ### 💡 Dicas:
-                - Arquivos de até 30 segundos (será cortado automaticamente)
-                - O modelo espera áudio em 16kHz (convertido automaticamente)
-                - Formatos suportados: WAV, MP3, FLAC, M4A
-                - Para melhores resultados, use áudio de fala limpo
-                """)
-            with gr.Column(scale=2):
-                info_output = gr.Markdown(label="Informações do Processamento")
-        with gr.Row():
-            waveform_plot = gr.Plot(label="Forma de Onda")
-            features_plot = gr.Plot(label="Features Extraídas")
-        # Event handlers
-        process_btn.click(
-            fn=process_audio,
-            inputs=[audio_input],
-            outputs=[info_output, waveform_plot, features_plot]
-        )
-        gr.Markdown("""
-        ---
-        ### 📚 Sobre o WavLM-Large:
-        - **Modelo**: microsoft/wavlm-large
-        - **Parâmetros**: ~317M
-        - **Treinado em**: 94k horas de áudio (Libri-Light, GigaSpeech, VoxPopuli)
-        - **Paper**: [WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing](https://arxiv.org/abs/2110.13900)
-        - **Repositório**: [marcosremar2/wavlm-large-deploy](https://huggingface.co/marcosremar2/wavlm-large-deploy)
-        ### ⚙️ Detalhes Técnicos:
-        - **Arquitetura**: Transformer de 24 camadas
-        - **Hidden Size**: 1024
-        - **Attention Heads**: 16
-        - **Taxa de Amostragem**: 16kHz
-        """)
-    return demo
 if __name__ == "__main__":
-    demo = create_demo()
-    demo.launch()

 import gradio as gr
 import torch
 import numpy as np
 from transformers import AutoModel, Wav2Vec2Processor
 import librosa
 import matplotlib.pyplot as plt
 # Configurar o modelo
 MODEL_NAME = "marcosremar2/wavlm-large-deploy"
 def process_audio(audio_file):
     """Processa o arquivo de áudio e extrai features"""
     if audio_file is None:
+        return "❌ Por favor, carregue um arquivo de áudio.", None, None
     if processor is None or model is None:
+        return "❌ Erro: Modelo não foi carregado corretamente. Verifique os logs.", None, None
     try:
         # Carregar áudio
         # Informações sobre o áudio
         duration = len(audio) / sr
         audio_info = f"""
+## 📊 Informações do Áudio:
+- **Duração**: {duration:.2f} segundos
+- **Taxa de amostragem**: {sr} Hz
+- **Número de amostras**: {len(audio)}
+## 🧠 Saída do Modelo WavLM-Large:
+- **Shape das features**: {hidden_states.shape}
+- **Dimensões**: {hidden_states.shape[1]} frames × {hidden_states.shape[2]} features
+- **Modelo**: {MODEL_NAME}
+✅ **Status**: Processamento concluído com sucesso!
         """
         # Criar visualização das features
         features = hidden_states.squeeze(0).cpu().numpy()
         # Plot 1: Waveform
+        fig1, ax1 = plt.subplots(figsize=(10, 4))
         time_axis = np.linspace(0, duration, len(audio))
         ax1.plot(time_axis, audio, color='blue', linewidth=0.5)
+        ax1.set_title('Forma de Onda do Áudio', fontsize=14)
         ax1.set_xlabel('Tempo (s)')
         ax1.set_ylabel('Amplitude')
         ax1.grid(True, alpha=0.3)
+        plt.tight_layout()
+        # Plot 2: Features heatmap (primeiras 32 features para visualização mais rápida)
+        fig2, ax2 = plt.subplots(figsize=(10, 6))
+        features_subset = features[:min(100, features.shape[0]), :32].T  # Limitar frames também
+        im = ax2.imshow(features_subset, aspect='auto', cmap='viridis')
+        ax2.set_title('Features WavLM (primeiras 32 dimensões)', fontsize=14)
         ax2.set_xlabel('Frame Temporal')
         ax2.set_ylabel('Dimensão da Feature')
+        plt.colorbar(im, ax=ax2, label='Valor da Feature')
+        plt.tight_layout()
         return audio_info, fig1, fig2
     except Exception as e:
+        return f"❌ **Erro ao processar áudio**: {str(e)}\n\nVerifique se o arquivo é um áudio válido.", None, None
+# Interface Gradio simples
+demo = gr.Interface(
+    fn=process_audio,
+    inputs=gr.Audio(type="filepath", label="Carregar Arquivo de Áudio"),
+    outputs=[
+        gr.Markdown(label="Informações"),
+        gr.Plot(label="Forma de Onda"),
+        gr.Plot(label="Features WavLM")
+    ],
+    title="🎵 WavLM-Large Demo",
+    description="""
+    Demonstração do modelo **WavLM-Large** da Microsoft.
+    **Como usar**:
+    1. Carregue um arquivo de áudio (WAV, MP3, etc.)
+    2. Veja as informações extraídas e visualizações das features
+    **Limitações**:
+    - Máximo 30 segundos de áudio
+    - Arquivos grandes podem demorar para processar
+    """,
+    examples=[],
+    cache_examples=False
+)
 if __name__ == "__main__":
+    demo.launch(share=True)

requirements.txt CHANGED Viewed

@@ -1,9 +1,7 @@
-gradio>=4.44.0
 torch>=2.0.0
-torchaudio>=2.0.0
 transformers>=4.35.0
 librosa>=0.10.0
 matplotlib>=3.7.0
-seaborn>=0.12.0
 numpy>=1.24.0
 soundfile>=0.12.0

+gradio==4.32.0
 torch>=2.0.0
 transformers>=4.35.0
 librosa>=0.10.0
 matplotlib>=3.7.0
 numpy>=1.24.0
 soundfile>=0.12.0