wavlm-large-demo / README.md
marcosremar2's picture
Use stable Gradio 3.50.2 and ultra-simple interface
1b99dff

A newer version of the Gradio SDK is available: 5.49.1

Upgrade
metadata
title: WavLM-Large Demo
emoji: 🎵
colorFrom: blue
colorTo: purple
sdk: gradio
sdk_version: 3.50.2
app_file: app.py
pinned: false
license: mit

🎵 WavLM-Large Demo

Este é uma demonstração interativa do modelo WavLM-Large da Microsoft, disponibilizado através do repositório marcosremar2/wavlm-large-deploy.

🚀 Funcionalidades

  • Processamento de Áudio: Carregue arquivos de áudio e veja as features extraídas
  • Visualizações: Forma de onda e mapa de calor das features
  • Informações Detalhadas: Estatísticas do áudio e saída do modelo
  • Interface Amigável: Interface web intuitiva com Gradio

🎯 Como usar

  1. Carregue um arquivo de áudio (WAV, MP3, FLAC, M4A)
  2. Clique em "Processar Áudio"
  3. Veja as visualizações e informações extraídas

📊 Sobre o WavLM-Large

O WavLM-Large é um modelo de aprendizado auto-supervisionado para processamento de fala com:

  • 317M parâmetros
  • Treinado em 94k horas de áudio de múltiplas fontes
  • Arquitetura: 24 camadas transformer
  • Aplicações: Reconhecimento de fala, classificação de áudio, verificação de locutor

📚 Referências

🛠️ Tecnologias Utilizadas

  • Gradio: Interface web interativa
  • Transformers: Carregamento e uso do modelo
  • LibROSA: Processamento de áudio
  • Matplotlib/Seaborn: Visualizações

Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference