Spaces:

marcosremar2
/

wavlm-large-demo

Sleeping

App Files Files Community

marcosremar2 commited on Jun 1

Commit

889e0f6

1 Parent(s): abd7f1c

Add WavLM-Large demo with Gradio interface

Browse files

Files changed (3) hide show

README.md +45 -5
app.py +151 -0
requirements.txt +9 -0

README.md CHANGED Viewed

@@ -1,12 +1,52 @@
 ---
-title: Wavlm Large Demo
-emoji: 🏃
-colorFrom: yellow
-colorTo: indigo
 sdk: gradio
-sdk_version: 5.32.0
 app_file: app.py
 pinned: false
 ---
 Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 ---
+title: WavLM-Large Demo
+emoji: 🎵
+colorFrom: blue
+colorTo: purple
 sdk: gradio
+sdk_version: 4.0.0
 app_file: app.py
 pinned: false
+license: mit
 ---
+# 🎵 WavLM-Large Demo
+Este é uma demonstração interativa do modelo **WavLM-Large** da Microsoft, disponibilizado através do repositório [marcosremar2/wavlm-large-deploy](https://huggingface.co/marcosremar2/wavlm-large-deploy).
+## 🚀 Funcionalidades
+- **Processamento de Áudio**: Carregue arquivos de áudio e veja as features extraídas
+- **Visualizações**: Forma de onda e mapa de calor das features
+- **Informações Detalhadas**: Estatísticas do áudio e saída do modelo
+- **Interface Amigável**: Interface web intuitiva com Gradio
+## 🎯 Como usar
+1. Carregue um arquivo de áudio (WAV, MP3, FLAC, M4A)
+2. Clique em "Processar Áudio"
+3. Veja as visualizações e informações extraídas
+## 📊 Sobre o WavLM-Large
+O WavLM-Large é um modelo de aprendizado auto-supervisionado para processamento de fala com:
+- **317M parâmetros**
+- **Treinado em 94k horas** de áudio de múltiplas fontes
+- **Arquitetura**: 24 camadas transformer
+- **Aplicações**: Reconhecimento de fala, classificação de áudio, verificação de locutor
+## 📚 Referências
+- **Paper**: [WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing](https://arxiv.org/abs/2110.13900)
+- **Repositório Original**: [microsoft/unilm/wavlm](https://github.com/microsoft/unilm/tree/master/wavlm)
+- **Modelo**: [marcosremar2/wavlm-large-deploy](https://huggingface.co/marcosremar2/wavlm-large-deploy)
+## 🛠️ Tecnologias Utilizadas
+- **Gradio**: Interface web interativa
+- **Transformers**: Carregamento e uso do modelo
+- **LibROSA**: Processamento de áudio
+- **Matplotlib/Seaborn**: Visualizações
 Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

app.py ADDED Viewed

	@@ -0,0 +1,151 @@

+import gradio as gr
+import torch
+import torchaudio
+import numpy as np
+from transformers import AutoModel, AutoProcessor
+import librosa
+import matplotlib.pyplot as plt
+import seaborn as sns
+# Configurar o modelo
+MODEL_NAME = "marcosremar2/wavlm-large-deploy"
+def load_model():
+    """Carrega o modelo WavLM-Large"""
+    try:
+        processor = AutoProcessor.from_pretrained(MODEL_NAME)
+        model = AutoModel.from_pretrained(MODEL_NAME)
+        model.eval()
+        return processor, model
+    except Exception as e:
+        return None, None
+processor, model = load_model()
+def process_audio(audio_file):
+    """Processa o arquivo de áudio e extrai features"""
+    if audio_file is None:
+        return "Por favor, carregue um arquivo de áudio.", None, None
+    if processor is None or model is None:
+        return "Erro: Modelo não foi carregado corretamente.", None, None
+    try:
+        # Carregar áudio
+        audio, sr = librosa.load(audio_file, sr=16000)
+        # Processar com o modelo
+        inputs = processor(audio, sampling_rate=16000, return_tensors="pt")
+        with torch.no_grad():
+            outputs = model(**inputs)
+            hidden_states = outputs.last_hidden_state
+        # Informações sobre o áudio
+        duration = len(audio) / sr
+        audio_info = f"""
+        📊 **Informações do Áudio:**
+        - Duração: {duration:.2f} segundos
+        - Taxa de amostragem: {sr} Hz
+        - Número de amostras: {len(audio)}
+        🧠 **Saída do Modelo WavLM-Large:**
+        - Shape das features: {hidden_states.shape}
+        - Dimensões: {hidden_states.shape[1]} frames × {hidden_states.shape[2]} features
+        - Modelo: {MODEL_NAME}
+        """
+        # Criar visualização das features
+        features = hidden_states.squeeze(0).numpy()
+        # Plot 1: Waveform
+        fig1, ax1 = plt.subplots(figsize=(12, 4))
+        time_axis = np.linspace(0, duration, len(audio))
+        ax1.plot(time_axis, audio)
+        ax1.set_title('Forma de Onda do Áudio')
+        ax1.set_xlabel('Tempo (s)')
+        ax1.set_ylabel('Amplitude')
+        ax1.grid(True, alpha=0.3)
+        # Plot 2: Features heatmap (primeiras 50 features)
+        fig2, ax2 = plt.subplots(figsize=(12, 8))
+        features_subset = features[:, :50].T  # Transpor para ter features nas linhas
+        sns.heatmap(features_subset, ax=ax2, cmap='viridis', cbar_kws={'label': 'Valor da Feature'})
+        ax2.set_title('Mapa de Calor das Features WavLM (primeiras 50 dimensões)')
+        ax2.set_xlabel('Frame Temporal')
+        ax2.set_ylabel('Dimensão da Feature')
+        return audio_info, fig1, fig2
+    except Exception as e:
+        return f"Erro ao processar áudio: {str(e)}", None, None
+def create_demo():
+    """Cria a interface do Gradio"""
+    with gr.Blocks(title="WavLM-Large Demo", theme=gr.themes.Soft()) as demo:
+        gr.Markdown("""
+        # 🎵 WavLM-Large Demo
+        Este é um demonstração do modelo **WavLM-Large** da Microsoft, adaptado e disponibilizado por marcosremar2.
+        O WavLM é um modelo de aprendizado auto-supervisionado para processamento de fala que pode:
+        - Extrair representações ricas de áudio
+        - Ser usado para reconhecimento de fala
+        - Classificação de áudio
+        - Verificação de locutor
+        - E muito mais!
+        ## 📁 Como usar:
+        1. Carregue um arquivo de áudio (WAV, MP3, etc.)
+        2. Clique em "Processar Áudio"
+        3. Veja as informações extraídas e visualizações das features
+        """)
+        with gr.Row():
+            with gr.Column(scale=1):
+                audio_input = gr.Audio(
+                    label="Carregar Arquivo de Áudio",
+                    type="filepath"
+                )
+                process_btn = gr.Button(
+                    "🎯 Processar Áudio",
+                    variant="primary"
+                )
+                gr.Markdown("""
+                ### 💡 Dicas:
+                - Arquivos de áudio de até 30 segundos funcionam melhor
+                - O modelo espera áudio em 16kHz (será convertido automaticamente)
+                - Formatos suportados: WAV, MP3, FLAC, M4A
+                """)
+            with gr.Column(scale=2):
+                info_output = gr.Markdown(label="Informações do Processamento")
+        with gr.Row():
+            waveform_plot = gr.Plot(label="Forma de Onda")
+            features_plot = gr.Plot(label="Features Extraídas")
+        # Event handlers
+        process_btn.click(
+            fn=process_audio,
+            inputs=[audio_input],
+            outputs=[info_output, waveform_plot, features_plot]
+        )
+        gr.Markdown("""
+        ---
+        ### 📚 Sobre o WavLM-Large:
+        - **Modelo**: microsoft/wavlm-large
+        - **Parâmetros**: ~317M
+        - **Treinado em**: 94k horas de áudio (Libri-Light, GigaSpeech, VoxPopuli)
+        - **Paper**: [WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing](https://arxiv.org/abs/2110.13900)
+        - **Repositório**: [marcosremar2/wavlm-large-deploy](https://huggingface.co/marcosremar2/wavlm-large-deploy)
+        """)
+    return demo
+if __name__ == "__main__":
+    demo = create_demo()
+    demo.launch()

requirements.txt ADDED Viewed

	@@ -0,0 +1,9 @@

+gradio>=4.0.0
+torch>=2.0.0
+torchaudio>=2.0.0
+transformers>=4.30.0
+librosa>=0.10.0
+matplotlib>=3.5.0
+seaborn>=0.11.0
+numpy>=1.21.0
+soundfile>=0.12.0