Spaces:
Sleeping
Sleeping
| title: WavLM-Large Demo | |
| emoji: 🎵 | |
| colorFrom: blue | |
| colorTo: purple | |
| sdk: gradio | |
| sdk_version: 3.50.2 | |
| app_file: app.py | |
| pinned: false | |
| license: mit | |
| # 🎵 WavLM-Large Demo | |
| Este é uma demonstração interativa do modelo **WavLM-Large** da Microsoft, disponibilizado através do repositório [marcosremar2/wavlm-large-deploy](https://huggingface.co/marcosremar2/wavlm-large-deploy). | |
| ## 🚀 Funcionalidades | |
| - **Processamento de Áudio**: Carregue arquivos de áudio e veja as features extraídas | |
| - **Visualizações**: Forma de onda e mapa de calor das features | |
| - **Informações Detalhadas**: Estatísticas do áudio e saída do modelo | |
| - **Interface Amigável**: Interface web intuitiva com Gradio | |
| ## 🎯 Como usar | |
| 1. Carregue um arquivo de áudio (WAV, MP3, FLAC, M4A) | |
| 2. Clique em "Processar Áudio" | |
| 3. Veja as visualizações e informações extraídas | |
| ## 📊 Sobre o WavLM-Large | |
| O WavLM-Large é um modelo de aprendizado auto-supervisionado para processamento de fala com: | |
| - **317M parâmetros** | |
| - **Treinado em 94k horas** de áudio de múltiplas fontes | |
| - **Arquitetura**: 24 camadas transformer | |
| - **Aplicações**: Reconhecimento de fala, classificação de áudio, verificação de locutor | |
| ## 📚 Referências | |
| - **Paper**: [WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing](https://arxiv.org/abs/2110.13900) | |
| - **Repositório Original**: [microsoft/unilm/wavlm](https://github.com/microsoft/unilm/tree/master/wavlm) | |
| - **Modelo**: [marcosremar2/wavlm-large-deploy](https://huggingface.co/marcosremar2/wavlm-large-deploy) | |
| ## 🛠️ Tecnologias Utilizadas | |
| - **Gradio**: Interface web interativa | |
| - **Transformers**: Carregamento e uso do modelo | |
| - **LibROSA**: Processamento de áudio | |
| - **Matplotlib/Seaborn**: Visualizações | |
| Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference | |