wavlm-large-demo / README.md
marcosremar2's picture
Use stable Gradio 3.50.2 and ultra-simple interface
1b99dff
---
title: WavLM-Large Demo
emoji: 🎵
colorFrom: blue
colorTo: purple
sdk: gradio
sdk_version: 3.50.2
app_file: app.py
pinned: false
license: mit
---
# 🎵 WavLM-Large Demo
Este é uma demonstração interativa do modelo **WavLM-Large** da Microsoft, disponibilizado através do repositório [marcosremar2/wavlm-large-deploy](https://huggingface.co/marcosremar2/wavlm-large-deploy).
## 🚀 Funcionalidades
- **Processamento de Áudio**: Carregue arquivos de áudio e veja as features extraídas
- **Visualizações**: Forma de onda e mapa de calor das features
- **Informações Detalhadas**: Estatísticas do áudio e saída do modelo
- **Interface Amigável**: Interface web intuitiva com Gradio
## 🎯 Como usar
1. Carregue um arquivo de áudio (WAV, MP3, FLAC, M4A)
2. Clique em "Processar Áudio"
3. Veja as visualizações e informações extraídas
## 📊 Sobre o WavLM-Large
O WavLM-Large é um modelo de aprendizado auto-supervisionado para processamento de fala com:
- **317M parâmetros**
- **Treinado em 94k horas** de áudio de múltiplas fontes
- **Arquitetura**: 24 camadas transformer
- **Aplicações**: Reconhecimento de fala, classificação de áudio, verificação de locutor
## 📚 Referências
- **Paper**: [WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing](https://arxiv.org/abs/2110.13900)
- **Repositório Original**: [microsoft/unilm/wavlm](https://github.com/microsoft/unilm/tree/master/wavlm)
- **Modelo**: [marcosremar2/wavlm-large-deploy](https://huggingface.co/marcosremar2/wavlm-large-deploy)
## 🛠️ Tecnologias Utilizadas
- **Gradio**: Interface web interativa
- **Transformers**: Carregamento e uso do modelo
- **LibROSA**: Processamento de áudio
- **Matplotlib/Seaborn**: Visualizações
Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference