Spaces:

marcosremar2
/

wavlm-large-demo

Sleeping

App Files Files Community

marcosremar2 commited on Jun 1

Commit

b5c4e01

1 Parent(s): 889e0f6

Fix WavLM processor and update dependencies

Browse files

Files changed (2) hide show

app.py +32 -14
requirements.txt +5 -5

app.py CHANGED Viewed

@@ -2,7 +2,7 @@ import gradio as gr
 import torch
 import torchaudio
 import numpy as np
-from transformers import AutoModel, AutoProcessor
 import librosa
 import matplotlib.pyplot as plt
 import seaborn as sns
@@ -13,11 +13,13 @@ MODEL_NAME = "marcosremar2/wavlm-large-deploy"
 def load_model():
     """Carrega o modelo WavLM-Large"""
     try:
-        processor = AutoProcessor.from_pretrained(MODEL_NAME)
         model = AutoModel.from_pretrained(MODEL_NAME)
         model.eval()
         return processor, model
     except Exception as e:
         return None, None
 processor, model = load_model()
@@ -28,17 +30,22 @@ def process_audio(audio_file):
         return "Por favor, carregue um arquivo de áudio.", None, None
     if processor is None or model is None:
-        return "Erro: Modelo não foi carregado corretamente.", None, None
     try:
         # Carregar áudio
         audio, sr = librosa.load(audio_file, sr=16000)
         # Processar com o modelo
-        inputs = processor(audio, sampling_rate=16000, return_tensors="pt")
         with torch.no_grad():
-            outputs = model(**inputs)
             hidden_states = outputs.last_hidden_state
         # Informações sobre o áudio
@@ -53,32 +60,35 @@ def process_audio(audio_file):
         - Shape das features: {hidden_states.shape}
         - Dimensões: {hidden_states.shape[1]} frames × {hidden_states.shape[2]} features
         - Modelo: {MODEL_NAME}
         """
         # Criar visualização das features
-        features = hidden_states.squeeze(0).numpy()
         # Plot 1: Waveform
         fig1, ax1 = plt.subplots(figsize=(12, 4))
         time_axis = np.linspace(0, duration, len(audio))
-        ax1.plot(time_axis, audio)
-        ax1.set_title('Forma de Onda do Áudio')
         ax1.set_xlabel('Tempo (s)')
         ax1.set_ylabel('Amplitude')
         ax1.grid(True, alpha=0.3)
         # Plot 2: Features heatmap (primeiras 50 features)
         fig2, ax2 = plt.subplots(figsize=(12, 8))
         features_subset = features[:, :50].T  # Transpor para ter features nas linhas
         sns.heatmap(features_subset, ax=ax2, cmap='viridis', cbar_kws={'label': 'Valor da Feature'})
-        ax2.set_title('Mapa de Calor das Features WavLM (primeiras 50 dimensões)')
         ax2.set_xlabel('Frame Temporal')
         ax2.set_ylabel('Dimensão da Feature')
         return audio_info, fig1, fig2
     except Exception as e:
-        return f"Erro ao processar áudio: {str(e)}", None, None
 def create_demo():
     """Cria a interface do Gradio"""
@@ -87,7 +97,7 @@ def create_demo():
         gr.Markdown("""
         # 🎵 WavLM-Large Demo
-        Este é um demonstração do modelo **WavLM-Large** da Microsoft, adaptado e disponibilizado por marcosremar2.
         O WavLM é um modelo de aprendizado auto-supervisionado para processamento de fala que pode:
         - Extrair representações ricas de áudio
@@ -110,14 +120,16 @@ def create_demo():
                 )
                 process_btn = gr.Button(
                     "🎯 Processar Áudio",
-                    variant="primary"
                 )
                 gr.Markdown("""
                 ### 💡 Dicas:
-                - Arquivos de áudio de até 30 segundos funcionam melhor
-                - O modelo espera áudio em 16kHz (será convertido automaticamente)
                 - Formatos suportados: WAV, MP3, FLAC, M4A
                 """)
             with gr.Column(scale=2):
@@ -142,6 +154,12 @@ def create_demo():
         - **Treinado em**: 94k horas de áudio (Libri-Light, GigaSpeech, VoxPopuli)
         - **Paper**: [WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing](https://arxiv.org/abs/2110.13900)
         - **Repositório**: [marcosremar2/wavlm-large-deploy](https://huggingface.co/marcosremar2/wavlm-large-deploy)
         """)
     return demo

 import torch
 import torchaudio
 import numpy as np
+from transformers import AutoModel, Wav2Vec2Processor
 import librosa
 import matplotlib.pyplot as plt
 import seaborn as sns
 def load_model():
     """Carrega o modelo WavLM-Large"""
     try:
+        # Usar Wav2Vec2Processor para WavLM
+        processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-960h")
         model = AutoModel.from_pretrained(MODEL_NAME)
         model.eval()
         return processor, model
     except Exception as e:
+        print(f"Erro ao carregar modelo: {e}")
         return None, None
 processor, model = load_model()
         return "Por favor, carregue um arquivo de áudio.", None, None
     if processor is None or model is None:
+        return "Erro: Modelo não foi carregado corretamente. Verifique os logs.", None, None
     try:
         # Carregar áudio
         audio, sr = librosa.load(audio_file, sr=16000)
+        # Limitar duração para evitar problemas de memória
+        max_duration = 30  # segundos
+        if len(audio) > max_duration * sr:
+            audio = audio[:max_duration * sr]
         # Processar com o modelo
+        inputs = processor(audio, sampling_rate=16000, return_tensors="pt", padding=True)
         with torch.no_grad():
+            outputs = model(inputs.input_values)
             hidden_states = outputs.last_hidden_state
         # Informações sobre o áudio
         - Shape das features: {hidden_states.shape}
         - Dimensões: {hidden_states.shape[1]} frames × {hidden_states.shape[2]} features
         - Modelo: {MODEL_NAME}
+        ✅ **Status:** Processamento concluído com sucesso!
         """
         # Criar visualização das features
+        features = hidden_states.squeeze(0).cpu().numpy()
         # Plot 1: Waveform
         fig1, ax1 = plt.subplots(figsize=(12, 4))
         time_axis = np.linspace(0, duration, len(audio))
+        ax1.plot(time_axis, audio, color='blue', linewidth=0.5)
+        ax1.set_title('Forma de Onda do Áudio', fontsize=14, fontweight='bold')
         ax1.set_xlabel('Tempo (s)')
         ax1.set_ylabel('Amplitude')
         ax1.grid(True, alpha=0.3)
+        ax1.set_facecolor('#f8f9fa')
         # Plot 2: Features heatmap (primeiras 50 features)
         fig2, ax2 = plt.subplots(figsize=(12, 8))
         features_subset = features[:, :50].T  # Transpor para ter features nas linhas
         sns.heatmap(features_subset, ax=ax2, cmap='viridis', cbar_kws={'label': 'Valor da Feature'})
+        ax2.set_title('Mapa de Calor das Features WavLM (primeiras 50 dimensões)', fontsize=14, fontweight='bold')
         ax2.set_xlabel('Frame Temporal')
         ax2.set_ylabel('Dimensão da Feature')
         return audio_info, fig1, fig2
     except Exception as e:
+        return f"❌ **Erro ao processar áudio:** {str(e)}\n\nVerifique se o arquivo é um áudio válido.", None, None
 def create_demo():
     """Cria a interface do Gradio"""
         gr.Markdown("""
         # 🎵 WavLM-Large Demo
+        Este é uma demonstração do modelo **WavLM-Large** da Microsoft, disponibilizado por marcosremar2.
         O WavLM é um modelo de aprendizado auto-supervisionado para processamento de fala que pode:
         - Extrair representações ricas de áudio
                 )
                 process_btn = gr.Button(
                     "🎯 Processar Áudio",
+                    variant="primary",
+                    size="lg"
                 )
                 gr.Markdown("""
                 ### 💡 Dicas:
+                - Arquivos de até 30 segundos (será cortado automaticamente)
+                - O modelo espera áudio em 16kHz (convertido automaticamente)
                 - Formatos suportados: WAV, MP3, FLAC, M4A
+                - Para melhores resultados, use áudio de fala limpo
                 """)
             with gr.Column(scale=2):
         - **Treinado em**: 94k horas de áudio (Libri-Light, GigaSpeech, VoxPopuli)
         - **Paper**: [WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing](https://arxiv.org/abs/2110.13900)
         - **Repositório**: [marcosremar2/wavlm-large-deploy](https://huggingface.co/marcosremar2/wavlm-large-deploy)
+        ### ⚙️ Detalhes Técnicos:
+        - **Arquitetura**: Transformer de 24 camadas
+        - **Hidden Size**: 1024
+        - **Attention Heads**: 16
+        - **Taxa de Amostragem**: 16kHz
         """)
     return demo

requirements.txt CHANGED Viewed

@@ -1,9 +1,9 @@
-gradio>=4.0.0
 torch>=2.0.0
 torchaudio>=2.0.0
-transformers>=4.30.0
 librosa>=0.10.0
-matplotlib>=3.5.0
-seaborn>=0.11.0
-numpy>=1.21.0
 soundfile>=0.12.0

+gradio>=4.44.0
 torch>=2.0.0
 torchaudio>=2.0.0
+transformers>=4.35.0
 librosa>=0.10.0
+matplotlib>=3.7.0
+seaborn>=0.12.0
+numpy>=1.24.0
 soundfile>=0.12.0