Spaces:
Sleeping
Sleeping
A newer version of the Gradio SDK is available:
5.49.1
metadata
title: WavLM-Large Demo
emoji: 🎵
colorFrom: blue
colorTo: purple
sdk: gradio
sdk_version: 3.50.2
app_file: app.py
pinned: false
license: mit
🎵 WavLM-Large Demo
Este é uma demonstração interativa do modelo WavLM-Large da Microsoft, disponibilizado através do repositório marcosremar2/wavlm-large-deploy.
🚀 Funcionalidades
- Processamento de Áudio: Carregue arquivos de áudio e veja as features extraídas
- Visualizações: Forma de onda e mapa de calor das features
- Informações Detalhadas: Estatísticas do áudio e saída do modelo
- Interface Amigável: Interface web intuitiva com Gradio
🎯 Como usar
- Carregue um arquivo de áudio (WAV, MP3, FLAC, M4A)
- Clique em "Processar Áudio"
- Veja as visualizações e informações extraídas
📊 Sobre o WavLM-Large
O WavLM-Large é um modelo de aprendizado auto-supervisionado para processamento de fala com:
- 317M parâmetros
- Treinado em 94k horas de áudio de múltiplas fontes
- Arquitetura: 24 camadas transformer
- Aplicações: Reconhecimento de fala, classificação de áudio, verificação de locutor
📚 Referências
- Paper: WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing
- Repositório Original: microsoft/unilm/wavlm
- Modelo: marcosremar2/wavlm-large-deploy
🛠️ Tecnologias Utilizadas
- Gradio: Interface web interativa
- Transformers: Carregamento e uso do modelo
- LibROSA: Processamento de áudio
- Matplotlib/Seaborn: Visualizações
Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference